清华大学智能产业研究院院长张亚勤指出,AI正从生成式转向智能体AI,智能体作为大模型的“应用”,通过自主规划、记忆和行动,将物理世界与数字世界连接,是通向通用人工智能(AGI)的关键路径,并预示着一个复合智商高达1200分的人机协作新时代。
在人工智能浪潮席卷全球的当下,业界正经历着一场深刻的范式转移。从早期的识别、分类,到近年的内容生成,AI的能力边界不断拓展。然而,清华大学智能产业研究院院长、微软亚洲研究院前院长张亚勤教授指出,我们正在迈向一个由“智能体”(AI Agent)主导的新阶段。在他看来,如果大模型是这个时代的“操作系统”,那么智能体将成为其上的“应用程序”(APP),甚至是连接数字世界与物理世界的“中间件”,这标志着AI能力从“描述智能”向“干预智能”的质变,并将最终重塑产业格局与人类社会。
智能体:AI范式的新跃迁
张亚勤的洞察源于对AI技术演进的深刻理解。他指出,人工智能的重心正从鉴别式AI(如语音、图像识别)和生成式AI(如文本、视频生成)转向自主智能,即智能体AI。1
“当你告诉AI一个目标,它可以自主找到路径,然后实现目标,和人类越来越像。”张亚勤在接受《中国企业家》采访时表示。1
智能体,这个在计算机领域被讨论了几十年的概念,如今因算力提升、算法改进和数据规范化而真正具备了实用性。张亚勤强调,衡量一个智能体是否“真正”的智能体,关键在于其任务长度、任务准确度和记忆功能。任务长度指的是智能体处理复杂多阶段任务的能力,通过将大目标分解为子目标并优化;任务准确度则衡量其在连续子任务串联后达成最终目标的成功率。智能体还需要长期记忆,能够记住过去的行为和学习经验,以进行推理、规划、决策和行动,形成一个完整的闭环。1
这种从“交付过程”到“交付结果”的转变,是智能体核心价值的体现。传统工具和自动化系统往往需要用户精确指令每一步,而智能体则被赋予了更高级的自主性,它能理解并执行最终目标,寻找最优路径,从而“为人工作”。
迈向通用智能的现实挑战
智能体的兴起也为实现通用人工智能(AGI)描绘了一条清晰的路径。张亚勤认为,多智能体交互是达到AGI的重要途径。通过智能体之间的互相学习和博弈,它们可以在初始知识越少的情况下,从零开始进化,就像AlphaGo Zero从规则学习而非海量棋谱中实现超越一样。1 这也引出了一个更深层次的问题:预训练固然重要,但现实世界的反馈和学习才是智能发展的关键。他引用“强化学习之父”理查德·萨顿(Rich Sutton)的比喻,强调“不教怎么钓鱼,只让你体验鱼的美味,然后你自主去寻找”的学习模式,能最大程度激发智能潜力。1
然而,将AI智能体真正融入物理世界,仍然面临巨大挑战。张亚勤将智能分为信息智能(数字世界)、物理智能(机器人、自动驾驶等物理世界交互)和生物智能(脑机接口等生命体应用)。他指出,要实现通用人工智能超越人类99%的任务能力,物理智能与信息智能的交互至关重要。现实世界数据虽然丰富,但任务分散且数据碎片化,更关键的是真实世界与数字世界缺乏有效的连接。
为此,张亚勤提出了RSR(Real2Sim2Real)的概念,旨在将信息世界与物理世界连接成闭环。1 这一过程的难点在于,将物理世界的复杂动作抽象为数字模型参数、在虚拟世界中训练多样场景后,如何确保策略在真实世界中仍然奏效。以自动驾驶为例,模拟器生成的长尾场景无法穷尽真实世界中的所有情况,导致虚拟训练的策略在真实环境中“脱节”,算法可能不收敛,需要不断加规则。为此,业界正探索端到端的大模型决策方式,将感知、推理、决策模块整合,实现与真实世界的全闭环,但这仍是深入研究的课题。
智能体也引入了新的风险。由于它们需要不断推理以寻找完成任务的路径,任务越长,失控的可能性越大。智能体可能会在寻求最优解的过程中触犯未明确定义的规则。此外,跨模态融合(如VLA,视觉语言动作模型)面临“语义鸿沟”问题,需要世界模型、对不同模态的语义理解、行为理解以及常识来解决,而机器在学习常识方面仍显不足。
张亚勤还提到,曾经支撑大模型指数级增长的Scaling Law(规模定律)在2024年底、2025年初开始趋缓,原因在于数据量接近饱和。然而,他认为整体的Scaling Law仍然成立,只是转移到了不同的地方,例如推理阶段,推理步骤越多,模型的智商可能越高。尽管如此,未来5到10年,主流仍是数据驱动的大模型,端侧的小模型也将建立在大模型之上,泛化能力强的通用模型仍是主流。
AI时代的操作系统与未来生态
展望未来,张亚勤描绘了一幅AI与人类智能深度融合的图景。他早在2015年就提出“AI+”的概念,坚信AI是第四次工业革命的主要技术引擎,将是未来40-50年的主流技术,改变行业并创造新产业。1 如今,他预言**AI+HI(human intelligence,人的智力)**的复合智商将高达1200分,比人类自身的智商高出一个数量级,这揭示了人机协同的巨大潜力。
在这一愿景下,大模型将是AI时代的底层操作系统,而智能体则是其上的“APP或SaaS应用”。智能体能够帮助用户规划、寻找数据、调用其他模型,它不再是一个独立的APP,而是一个智能的“集合”,扮演着AI之上的“中间件”角色。1
对于新兴的大模型公司,如DeepSeek,张亚勤认为它们非常有希望成为未来的底层操作系统。开源商业模式,特别是采用灵活的MIT许可证,将是其成功的关键。他预测,AI时代的操作系统数量不会像移动互联网时代那样被两三家垄断,而可能在全球出现8到10个基础大模型,其中中国占据3-4个,美国3-4个,其他国家2-3个。这主要是因为大模型依赖数据,而数据具有区域性。他强调,AI时代的生态系统将比移动互联网时代大一个数量级,甚至更多。
这为AI时代的创业者带来了新的机遇与挑战。一方面,创业者无需再自建大模型,可以基于开源模型进行参数调整、微调,或结合RAG(检索增强生成)和智能体技术来开发自己的应用。另一方面,行业格局仍未固化,市场竞争依然残酷,公司仍需持续投入资源,不断获取新数据、升级模型。张亚勤认为,未来的AI将越来越少依赖人工标注数据,而是通过自我标注和自我监督来学习。
对于AI时代的创业者,张亚勤提出了新的能力要求:不再是互联网时代强调的“连接能力”,而是聚焦于**“任务导向”**,即明确产品或服务能解决什么问题,创造出有用的智能体。
最终,我们距离通用人工智能(AGI)的实现仍有很长一段路要走。“规模定律还在,还有效,”张亚勤表示,“下一个阶段的AI,是智能体AI。当通用智能体做成之后,通用人工智能就差不多实现了,通用智能体是实现AGI的一条路径。”1 这条路径充满挑战,却也蕴含着重塑世界的无限可能。