在AI领域步履不停的范式转变中,“AI教母”李飞飞再次将目光投向了最艰难的领域:空间智能。她掷地有声地指出,没有对三维世界的深刻理解和交互能力,通用人工智能(AGI)就不可能完整。这不仅是对未来AI形态的深刻预判,更是她将毕生追求“让智能体讲述世界故事”梦想推向新高度的宣言,而她新创立的World Labs正致力于解决这一“疯狂的问题”。
在人工智能的史册中,李飞飞的名字与“数据驱动”的范式变革紧密相连。从ImageNet项目的宏伟开端,到见证深度学习的奇迹时刻,再到如今投身空间智能的“北极星”追求,她始终站在AI前沿,挑战着那些看似“近乎疯狂”的问题。在最新一次深入访谈中,李飞飞明确提出一个大胆论断:“没有空间智能,通用人工智能就不完整。” 这一表述不仅重新定义了她对AGI的理解,更揭示了她正全力以赴的下一个重大目标——创造能够真正理解、生成、推理并与三维世界互动的“世界模型”1。
从像素到场景:视觉AI的演进里程碑
回溯过往,李飞飞对“看见是智能基石”的信念,是其职业生涯的驱动力。当21世纪初,计算机视觉领域仍处于数据匮乏的“寒冬”时,她和团队在2007年前后做出了一个大胆的决定:从互联网上收集十亿张图片,并构建一个庞大的视觉分类体系——ImageNet。这项开创性的工作,旨在为机器学习算法提供前所未有的数据支撑,推动一场由数据引领的范式转变。正如李飞飞所言,那是一个“豪赌”1。
这个“赌注”在2012年迎来了“AlexNet时刻”的爆发。ImageNet挑战赛上,Geoffrey Hinton团队的AlexNet(最初名为“SuperVision”)通过结合卷积神经网络、大规模数据集和GPU并行计算,将图像识别错误率大幅降低,如同划破夜空的闪电,彻底点燃了深度学习的革命火花。这一刻,标志着AI发展进入了一个全新阶段,数据、算法和算力形成了强大的飞轮效应。
随着深度学习的蓬勃发展,视觉智能从简单的物体识别迈向了更为复杂的场景理解。李飞飞与学生Andrej Karpathy和Justin Johnson等人的工作,推动了AI首次实现图像字幕(image captioning)和场景描述的能力,让机器能够“讲述世界的故事”。从“这里有一只猫”到“这是一间有屏幕、舞台、观众的会议室”,AI的视觉感知能力获得了质的飞跃。对李飞飞而言,这曾是她毕生的梦想,而如今,生成式AI更是将这一梦想推向了新的高度——通过简单的文本提示就能生成逼真的图像,这在几年前看来简直不可思议1。
空间智能:AGI的下一个“疯狂问题”
然而,对于李飞飞而言,即便实现了场景描述和图像生成,更大的梦想依然在前方。她认为,AI的下一站,是整个三维世界的建模与理解。她将目光投向了空间智能,并将其视为AGI的缺失环节。这种深刻的洞察,部分来源于她对生物进化史的思考:
“想想视觉,想想理解三维世界的能力,弄清楚在这个三维世界中该做什么、导航三维世界、与三维世界互动、理解三维世界、交流三维世界……这个进化持续了5.4亿年。”1
相比之下,人类语言的进化发展则短得多。这让她坚信,理解三维世界是“人工智能的基本问题”。为此,她与三位顶尖的技术专家——Justin Johnson、Ben Mildenhall和Christoph Lassner共同创立了World Labs,致力于解决这个“目前AI领域中最困难的问题”1。
为何空间智能如此困难,甚至比一维的语言模型更具挑战性?李飞飞对此给出了精辟的分析:
- 固有的三维复杂性:语言本质上是一维序列,而现实世界是多维的。如果加上时间,更是四维,这本身就是组合爆炸式的难度。
- 感知过程的投射性:人类的眼睛或相机总是将三维世界投射到二维平面上,这种信息损失和不确定性,使得从二维图像重建三维世界成为一个数学上“错误”的问题,需要更复杂的机制(如多传感器融合)来解决。
- 生成与重建的统一:语言是纯粹生成性的,而真实世界既有其固有的物理结构,又需要AI具备生成虚拟世界的能力,这要求模型在生成与重建之间无缝切换,并同时适应用户行为和应用场景。
- 数据稀缺性:互联网上充斥着海量的语言数据,但高质量的三维空间数据却极为匮乏,不像语言数据那样容易获取和整理。虽然这些信息存在于人类大脑中,但如何将它们有效地提取和建模,仍是巨大挑战1。
“如果它很容易,那别人早就解决了。我的整个职业生涯都在追逐那些极其困难、近乎疯狂的问题,我认为这就是那个疯狂的问题。”李飞飞的这句话,再次彰显了她对挑战的执着。
愿景与应用:从虚拟宇宙到具身智能
World Labs的目标是构建全新的基础模型,其核心输出是三维世界。这种“世界模型”的实用性将极为广泛:
- 创意产业:为设计师、建筑师、工业设计师和艺术家提供强大的创作工具。
- 游戏开发:构建更沉浸、更真实的虚拟世界。
- 元宇宙:李飞飞个人对元宇宙充满兴趣,认为硬件与软件的融合即将到来,而“内容生成需要世界模型”,空间智能是元宇宙得以运转的关键1。
- 机器人与具身智能:让机器人更好地理解物理世界、导航、互动并执行任务。
对于外界对AGI定义的困惑,李飞飞则更倾向于从其功能性而非狭隘的“智商测试”角度看待。她认为,AI的规模即智能的规模,其终极目标是创造能够像人类一样智能,甚至超越人类智能的机器。
无畏精神与人本情怀:一位AI领航者的底色
李飞飞的独特之处不仅在于其卓越的学术成就,更在于其历经磨砺的个人旅程和对“人”的深刻关怀。从16岁移民美国,在语言不通的情况下经营洗衣店资助学业,到普林斯顿大学的物理学研究,再到成为顶尖AI科学家,她的人生信条是“思想上的无畏精神”1。这种“归零”的心态,让她乐于放下过往的成就,投身于新的创造与建设。
正是这种精神,促使她在2018年,当AI发展成为一个全人类的问题时,毅然选择回到斯坦福大学,创立了以人为本AI研究院(HAI)。HAI的使命,是确保AI技术在发展过程中不失去人性,以人类为中心来造福人类。这体现了她对AI伦理和治理的深切关注,也反映了其作为教育者和研究者所肩负的社会责任。
在对年轻一代的寄语中,李飞飞鼓励他们追随内心的好奇心,勇敢地去解决那些最困难的问题。她也强调了博士研究的独立性,即寻找那些无需依赖海量芯片或数据也能取得进展的根本性问题,以及跨学科AI的巨大潜力。她认为,AI的发展已经超越了理论,这为研究者提供了丰富的探索空间,例如小数据问题和尚未解决的视觉表征问题1。
当谈及World Labs如何解决空间数据的稀缺性时,她虽不能透露具体细节,但也强调了“混合方式”和“高质量数据”的重要性,再次印证了她从ImageNet时期便坚守的信念——数据质量才是机器学习的基石,否则“输入垃圾,输出垃圾”的魔咒依然成立1。
李飞飞的故事,以及她对空间智能的最新探索,无疑为AI的未来发展指明了一个激动人心的方向。这不仅是技术前沿的突破,更是一场关于人类如何理解世界、重塑世界的深刻探索。通过“梯度下降法找到生活最优解”,她激励着更多人以无畏的姿态,去追寻属于自己的“疯狂问题”。