尽管Transformer大模型在AI领域屡创奇迹,但在具身智能的物理世界中,它们正遭遇“水土不服”的挑战。核心症结在于现有架构的能耗、泛化能力局限以及对真实物理世界的理解不足,促使研究者探索超越传统范式的软硬件协同进化之路。
在人工智能领域,2025年被业界寄予厚望,被称为“具身智能元年”并非偶然。从宇树机器人登上春晚,到科技巨头和明星创业者纷纷入局,通用机器人时代仿佛触手可及。然而,在这股热潮之下,质疑的声浪也从未平息。英伟达CEO黄仁勋宣称“通用机器人时代已经到来”,而知名投资人朱啸虎却宣布“正批量退出人形机器人公司”1,这鲜明的对比揭示了具身智能领域技术理想与工程现实之间的巨大鸿沟。
CSDN《万有引力》栏目近期邀请到同济大学计算机科学与技术学院教授胡亮和智源具身智能大模型负责人王鹏伟,两位深耕AI与机器人领域的专家深入探讨了当前具身智能所面临的关键挑战:究竟是模型不够强大,数据量不足,还是底层架构存在根本性缺陷?
从虚拟到现实:具身智能的“阵痛期”
从多模态大模型走向具身智能,看似是一次“丝滑”的技术跃迁,然而,王鹏伟坦言,团队在实际落地过程中经历了明显的“阵痛期”1。尽管大语言模型在语言生成和推理能力上表现出色,一旦部署到真实的物理环境中,便频频遭遇挫折。核心问题在于硬件的不稳定性和真实世界数据的匮乏。机器人硬件故障频发导致维护成本高昂,直接阻碍了系统大规模部署和数据采集。这种“硬件不稳定导致难以落地,难以落地又造成数据不足”的恶性循环,成为了具身智能发展的主要瓶颈。
当前的具身智能领域,主要存在两种技术路线:模块化的流水线架构(Pipeline)和端到端架构。王鹏伟指出,这两种范式在AI应用的历史中屡见不鲜,例如在ChatGPT出现之前,搜索和聊天系统多采用模块化设计,指令经过命名实体识别、语法解析等多个独立模块处理。而ChatGPT则通过一个端到端的大模型统一处理所有任务,展现出更高的性能上限和对长尾问题的处理能力1。
这种从Pipeline到端到端的演进,其背后驱动力正是数据量的激增和底层算力结构的升级,尤其是Transformer架构的出现,使得大规模基础模型的训练成为可能。王鹏伟强调,无论是大模型、自动驾驶还是具身智能,其技术发展路径基本高度一致,都遵循从模块化向端到端的过渡。当前,智驾领域“端到端”已成为衡量技术先进性的重要标签。智源研究院发布的RoboOS和RoboBrain框架,正是为了弥合这一差距,提供统一的接口范式,兼容主流机器人设备,帮助用户快速部署,进而积累数据以推动系统向更强大的端到端架构演进。
此外,具身智能领域还存在一个本土化概念——“大小脑”,它与西方技术圈的“快系统”(System 1)和“慢系统”(System 2)异曲同工1。快系统(小脑)负责高频率的实时控制,如抓取、放置等动作执行,追求丝滑流畅的响应速度(30Hz以上);慢系统(大脑)则处理逻辑推理和复杂感知,参数量大,响应频率相对较低(如7B模型上限10Hz)。这种双系统架构旨在平衡实时响应与复杂推理的需求,以适应物理世界的多变性。
Transformer架构的深层瓶颈
尽管Transformer架构凭借其并行处理能力和捕捉长距离依赖的优势,成为当前AI大模型的主流2,但在具身智能的背景下,胡亮教授提出其存在深层次的“水土不服”1。
首先是能耗问题。当前大模型动辄千亿参数,需要数万块GPU支撑,训练和运行成本极高,功耗巨大3。将这样一个“高能耗大脑”植入机器人,显然不现实。人类大脑的功耗远低于GPU集群,却能处理更复杂的任务,这暗示现有大模型架构仍有巨大改进空间。
其次是泛化能力和任务适应性的局限。目前的AI算法在应对任务差异性较大的情境时表现乏力,导致“一类任务一台机器人”的碎片化现状,与人类的通用智能相去甚远。大模型在遇到新任务时,其快速适应和学习能力仍较差,频繁的再训练成本也令人望而却步1。
更核心的挑战在于Transformer架构本身的特性。它是一种“存算一体”的模式,知识和任务执行逻辑紧密耦合在庞大的参数中。参数越多,知识越丰富,模型能力越强,但也越脆弱。当模型学习新知识时,可能意外破坏已有任务执行能力,导致机器人协作不稳定。这与人脑中知识和本能任务执行相对分离的机制截然不同。基于此,胡亮团队认为,当前以Transformer为基础的大模型架构可能并不适用于具身智能的长期发展目标,需要从架构层面进行优化,例如借鉴早期的**记忆网络(Memory Networks)和神经图灵机(Neural Turing Machine)**思想,将记忆与逻辑执行分离开来1。这种模块化设计能让模型在执行特定任务时仅激活相关模块,从而降低计算消耗,提高效率,并允许在不影响核心执行能力的情况下,通过扩展记忆模块来学习新知识,甚至实现多智能体协作。
此外,感知层面的“Gap”也异常显著。机器人配备多种传感器(触觉、语音、视觉),而当前大模型主要基于自然语言或图像训练,与物理世界的多模态传感器体系不匹配1。大模型在处理图像时,更多是对象识别,而非真正理解图像内涵和物理常识。例如,模型可能生成“马骑人”的图片,因为其对“上下左右”等空间关系仅停留在语义向量层面,无法理解其在物理空间中的真实指向性1。这种将物理场景转化为文字描述再交由大语言模型学习的方式,会简化甚至丢失关键的空间物理关系,是实现具备真实环境感知能力大模型的长路上的巨大障碍。胡亮团队正探索将真实世界的空间关系直接引入模型训练,甚至尝试直接提取人脑中的意图信号并解码为AI可理解信息,实现“人脑—AI大脑”的直连,以此绕过语言等中间步骤,大幅提升人机交互和协作效率,以应对自动驾驶等高风险场景下的毫秒级决策需求1。
迈向真正“具身”与“智能”的融合
黄仁勋宣称“通用机器人时代已经到来”,但从具身智能研究者的角度看,这仍是一个遥远的目标。现实中的“模拟器到真实环境的Gap”依然巨大,因为仿真环境难以穷举现实中的所有物理属性1。即使模拟做得再好,真实世界的摩擦力、材质硬度等微小差异都可能导致模型在实际部署中失效。
因此,专家们普遍认为,未来五到十年,将是软硬件交替迭代的关键期1。算法层面的升级会推动硬件架构的进步,而硬件的进步又会反过来加速算法研究的演进。例如,人形机器人由于其高重心和双足结构,在导航等基础任务上对传感器系统造成更大挑战,需要硬件本体和控制算法的同步优化。
尽管面临重重挑战,具身智能的发展趋势依然清晰:从目前偏向“专用型”的机器人,正逐步向多任务混合训练发展。只要机器人具备一个强大的基础模型,便有望根据指令激活模型中的不同区域,从而执行多种不同任务,实现从“我只会这一个任务”到“我可以完成多种任务”的转变1。
正如王鹏伟所言,具身智能是一条“正确但非常艰难的道路”1。它不仅需要对Transformer等现有大模型架构进行颠覆性创新,以实现低能耗、强泛化和对物理世界的深刻理解,更需要软硬件的深度协同与进化。只有当“具身”与“智能”真正协作起来,弥合感知、理解、决策与行动之间的鸿沟,我们才能期待一个能像人类一样在家中完成各项任务的通用机器人真正到来。