智源系新星崛起:智在无界如何以“人类行为数据”重塑人形机器人大脑

温故智新AIGC实验室

北京智在无界科技有限公司,一家由前智源团队创立的人形机器人通用大模型公司,近日获得联想之星和智谱Z基金等数千万元投资。该公司通过创新性地利用互联网人类行为视频进行预训练,旨在突破具身智能在数据稀缺和泛化能力上的核心瓶颈,加速通用人形机器人的商业化落地。

在人工智能技术浪潮席卷全球的当下,具身智能,特别是人形机器人,正逐渐从科幻的想象走向现实的可能。然而,要赋予这些物理实体以“大脑”,使其能理解、适应并操作真实世界,核心挑战始终围绕着海量高质量数据的获取与模型强大的泛化能力。近日,北京智在无界科技有限公司(BeingBeyond)完成数千万元天使轮融资,由联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投,这不仅为具身智能领域注入了新的资本活力,更预示着一种截然不同的技术路线,或将深刻改变人形机器人的发展路径。1

突破具身智能的数据与泛化瓶颈

具身智能的演进,本质上是对物理世界复杂性的拟真。要让机器人实现高度拟人化的行动与决策,需要依赖海量且多样化的数据进行深度训练。从日常的琐碎操作到复杂的环境交互,这些数据量呈指数级攀升。然而,当前具身数据采集过程面临着严峻的技术与资源瓶颈:它往往是劳动密集型且成本高昂,且存储成本随数据量激增而迅速攀升。更深层次的问题在于,即便坐拥海量数据,现有模型在面对未知环境、新任务或新干扰时,其泛化能力往往差强人意,难以将所学知识有效迁移至新情境,导致在实际应用中适应性欠佳。这正是制约具身大脑性能提升的核心矛盾所在。

正是在这一背景下,智在无界,这家成立于2025年1月的公司,凭借其前智源研究院多模态交互研究中心负责人卢宗青教授领衔的团队,提出了一个突破性的解决方案:以公开视频数据为驱动的技术路线。与传统高度依赖机器人真机数据训练的方案不同,智在无界创新性地将目光投向了互联网上丰富的人类运动和手部操作视频。通过解析这些自然场景下的动作序列,构建机器人运动操作能力的预训练基础,从而实现了从“人类行为示范”到“机器人动作生成”的跨模态迁移。这一策略不仅显著降低了数据采集成本和门槛,更重要的是,它为模型提供了前所未有的数据多样性和规模,是解决“数据规模与泛化能力”这一核心矛盾的关键一步。

从数据到智能:智在无界的技术架构解析

智在无界为人形机器人构建了一个分层的通用大模型系统,旨在赋予其操作和运动两大核心能力。该系统由具身多模态大语言模型、多模态姿态大模型和运动模型三层构成,并搭建了独特的自学习具身智能体框架。

其核心在于多模态姿态模型的创新应用。通过解析互联网上丰富的视频资源,包括全身运动(如行走、舞蹈)和第一人称视角下的手部精细操作(如抓取物体、工具使用),模型能够学习到各种动作在不同环境下的表现形式。这使得机器人能够依据实时的环境信息与任务要求,实现具有高度泛化性的端到端运动操作。

具身多模态大语言模型方面,智在无界自主研发了Video Tokenizer技术。这项技术的核心在于其对时空环境的理解与推理能力,尤其擅长解析第一人称视角视频内容。它能够将连续视频流解构为兼具时间序列与空间语义的视觉Token单元,从而精准捕捉动作的时序逻辑(例如,“伸手、抬升手臂到抓起物体”的连贯过程),并基于物体方位、肢体相对位置等空间特征,深度理解物理世界和人类行为。

尽管简单的多模态大语言模型配合运动操作策略已具备商业落地的初步条件,但真实世界中动态环境的变化对机器人的泛化能力提出了严峻挑战。为了让人形机器人真正具备自主学习能力以适应多变场景,智在无界提出了Retriever-Actor-Critic框架。该框架通过对真实交互数据的检索增强生成(RAG)与强化学习的协同应用,不仅能显著提升模型的响应准确性与用户体验,更重要的是,它形成了一个“数据收集-模型优化-效果反馈”的闭环。这一闭环使得机器人具备了动态适应多变场景的能力,为其规模化落地提供了切实可行的技术路径。

卢宗青指出,基于互联网视频预训练通用动作模型,再通过后期适配训练实现对不同机器人本体及场景的迁移,智在无界的技术路径可以有效避免因硬件迭代导致的数据浪费,从而有效解决真机数据稀缺与场景泛化的矛盾。目前,公司正同头部机器人厂商推进场景验证合作,以加快具身智能在更多领域的应用落地。

AI生态中的新力量与未来展望

智在无界获得的投资,不仅是对其技术路线的认可,也折射出当前AI领域投资格局的趋势。作为智在无界的天使投资人,智谱Z基金合伙人王璞表示,他无比自豪地见证卢宗青教授及其团队在通用人形机器人领域取得的里程碑式突破。他特别提到了团队构建的业界首个百万规模的MotionLib数据集,以及开发端到端的Being-M0动作生成模型,认为这些成就不仅验证了“大数据+大模型”在具身智能中的规模效应,更实现了跨平台动作迁移的技术闭环。王璞坚信,这项将文本指令转化为机器人精细动作的能力,将为机器人走进千家万户铺平道路,智在无界将持续引领具身智能的迭代——从灵巧操作到全身运动控制。1

联想之星合伙人高天垚则强调,当前具身大模型的技术路线尚未收敛,而BeingBeyond团队的技术路线解决了训练数据来源有限的痛点,同时采用模块化打通大小脑的方式构建了一套完整的技术框架。他认为,与国外相似技术路线的团队相比,智在无界具备全栈技术能力,依托自研多模态大模型,在解决具身大模型的任务与环境泛化性、跨本体等问题上具备强有力的竞争力,有望逐步实现“零样本”泛化,并期待其产品在具有高潜力应用的场景中落地,实现商业闭环。1

智谱AI作为国内AI大模型的领军企业,其对智在无界的投资并非孤立事件。据报道,智谱的“Z计划”已投资了13家AI大模型产业相关的创业公司,还有27家公司等待孵化,显示出其在构建AI生态系统方面的积极布局。智谱AI本身估值已超200亿人民币,是中国估值最高的创业大模型公司之一,其投资策略无疑将对整个具身智能赛道产生深远影响。23

智在无界所代表的,不仅是一家初创公司的崛起,更是一个关于数据范式、模型架构与商业化路径的深刻探索。通过摆脱对昂贵且稀缺的机器人真机数据的过度依赖,转而拥抱互联网海量、多样的人类行为数据,智在无界为通用人形机器人大模型的训练提供了一条更具扩展性和经济性的路径。然而,挑战依然存在,例如从视频中提取的动作在物理世界中的精确映射、不同机器人本体的差异化适配,以及在真实复杂场景中确保绝对的安全性和鲁棒性。

尽管如此,智在无界的方法论,深刻地预示着具身智能从“实验室示范”走向“社会应用”的关键突破。随着技术的持续迭代与产业合作的深入,我们有理由期待,在不久的将来,具备高度泛化能力的通用人形机器人,将不再仅仅是科技展会上的明星,而是真正走进千家万户,成为我们日常生活不可或缺的一部分。

References


  1. 黄楠(2025/6/13)。前智源团队创业,联想、智谱AI投了一家人形机器人大模型公司|硬氪首发。硬氪。检索日期2025/6/15。 ↩︎ ↩︎ ↩︎

  2. 不可用(2024/8/13)。智谱正在变成一家投资公司|AI_新浪财经_新浪网。新浪财经。检索日期2025/6/15。 ↩︎

  3. 不可用(2024/12/28)。智谱AI宣布获30亿融资:投前估值200亿,对标OpenAI,附路演PPT_模型_持股_包括。搜狐。检索日期2025/6/15。 ↩︎