2009年,当时在普林斯顿大学工作的计算机科学家李飞飞主导构建了一个改变人工智能历史的数据集——ImageNet,它包含了数百万张有标签的图像,可以用来训练复杂的机器学习模型,以识别图像中的物体。
如今,李飞飞的工作重点集中在AI智能体上,这种智能体不仅能接收来自数据集的静态图像,还能在三维虚拟世界的模拟环境中四处移动,并与周围环境交互,这就是具身智能。
李飞飞认为,「计算机视觉」未来的重点方向就是具身智能。
这一灵感是她通过回溯5.3亿年前的寒武纪生命大爆发时找到的。有理论认为,新物种的爆发一定程度上是由眼睛的出现所驱动的,这些眼睛让生物第一次看到周围的世界。李飞飞认为,动物的视觉不会无缘故地产生,而是动物应对所处环境快速变化的需要,继而产生移动、导航、生存、操纵和改变等功能。所以,具身智能就是要从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。
具身AI是可以探测和改变自身环境的智能体,不一定附着在一个机器人身体中,完全可以只是一个虚拟的身体,通过一个移动的相机机位来感知世界,与周围环境交互。这样,可以在虚拟世界中运行的具身AI智能体就可以不断自我学习,能执行越来越复杂的类人任务。
比如,具身AI智能体可以学习三维视图,判断空间角度,随意走动;也可以通过信息流来感知“时间”变化;还可以听到虚拟事物发出的声音。总之,具身算法和传统算法的学习方式完全不同。
在这方面,李飞飞可能再次走在了前沿,她的团队开发了一个模拟数据集——BEHAVIOR,包含100多项人类活动,供智能体在任何虚拟环境中完成测试。通过与人类执行相同任务的真实视频比较,从而评估虚拟AI智能体的模拟训练结果,目的就是进入最终的可操作空间——真实世界。机器人在现实世界中导航不确定的地形,可以通过虚拟环境中的训练可以帮助机器人掌握更多技能。