卷王驾到！“人类最后的考试”AI首次突破30分，国产“超级外挂”秀翻全场！

TL;DR：

“人类最后的考试”（HLE）最近被“开挂”了！上海交大和深势科技联手打造的“X-Master”组合，直接把AI成绩从天花板拉到了32.1分，打破了“无人能及”的魔咒，还是全球首例，简直是AI界的年度卷王！

话说，最近AI圈又炸锅了！不是因为哪个模型又发了新论文，而是因为一个号称“人类最后的考试”（Humanity’s Last Exam，简称HLE）的“史诗级”大考，终于被硬核突破了！而且，这波突破天际的骚操作，还是咱国内团队——上海交通大学联合深势科技——干出来的！他们用一套名为“X-Master”和“X-Masters”的组合拳，一举把AI在这个出了名“难到哭”的考试上的得分，从之前的最高26.9分，直接拉高到了32.1分！这不仅是HLE史上首次突破30分大关，更是让无数网友直呼“AI竞赛，一天一个样，根本跟不上啊！”

“人类最后的考试”：到底有多“变态”？

你可能要问了，这“人类最后的考试”到底是个什么来头？能把AI们“考懵”到最高分才20多分？

简单来说，HLE可不是什么阿猫阿狗都能出的题目。它可是由AI安全中心和Scale AI这俩大咖联手打造，汇集了全球500多家机构、1000多名学者（包括OpenAI、谷歌DeepMind、微软研究院等顶级玩家）的智慧结晶¹。出题标准嘛，堪称“地狱模式”：

研究生难度起步：不是普通人能看懂的，更别说做了。
全网无迹可循：确保题目不能被AI或人类**“作弊式”检索**到，真正考验推理和理解能力。
答案明确，拒绝“开放式作文”：杜绝一切模糊地带，AI必须给出正确答案。

这3000多道题目，涵盖了数理化、生物医药、工程、社会科学等一百多个细分学科，简直是AI界的**“九九八十一难”。你想想，有需要解读上古文字的²，有得看图做化学题的，还有那些让人看了就头皮发麻的数学计算机难题……这哪是考试，分明是“渡劫”啊！刚发布时，连顶流模型o1都得分不过10%，可见其“杀伤力”**。

在这种**“变态级”难度下，最高分也才26.9分，甚至还是两家顶尖团队（Kimi-Research和Gemini Deep Research）“并列”的。结果现在，上海交大和深势科技团队就像开了“超级外挂”一样，直接把分数刷新到了32.1%！这操作，简直是“降维打击”**！

X-Master：当AI学会“抄作业”……哦不，是“自主思考+查资料”！

那么问题来了，这套“超级外挂”到底藏着什么黑科技？答案就是他们团队（SciMaster系列研究的第一部分）推出的X-Master和X-Masters。

首先登场的是X-Master，它可不是个“傻大个儿”，而是一个**“会思考、会找工具、还会写代码”的工具增强型推理智能体**。它的核心理念，就是模拟人类研究者解决问题的过程：

内省：就像我们大脑思考一样，它先自己琢磨。
外挂工具：遇到搞不定的问题，它会把“行动计划”写成代码，然后调用外部工具（比如NumPy、SciPy这种“计算器”，或者实时网络搜索工具包）去**“查资料、跑数据”**。

这就像一个**“学霸”，不仅脑子好使，还知道什么时候该去图书馆翻书，什么时候该上网搜资料，甚至还会用Python写个小程序来“暴力求解”**。

“我可以通过访问外部环境有效回答这个查询。” “每当我确定需要与外部工具交互时，我会生成包裹在<code>和</code>token之间的Python代码。” — X-Master的“内心独白”，这波“自我催眠”可还行？

有意思的是，为了让DeepSeek-R1这种原本没“智能体基因”的模型也能**“装作很会用工具”，团队还搞了个“初始推理引导”。他们不是让模型自由发挥，而是在它开始“思考”前，先偷偷塞入一段“剧本”，让模型“深信”自己拥有强大的工具使用能力。这种“引导式教育”，简直是AI界的“行为艺术”啊！结果就是，即便DeepSeek-R1没专门为智能体行为微调过，也能“自己生成代码，自己执行，自己跟环境玩儿得不亦乐乎”**。

X-Masters：AI也能开“头脑风暴”了？这波操作秀翻全场！

如果说X-Master是个**“学霸”，那X-Masters就是由一群X-Master组成的“学霸天团”，上演了一出AI版的“头脑风暴”**！

这套系统采用了**“分散-堆叠式”智能体工作流**，听起来有点玄乎，其实就是让多个AI“各司其职”，分工协作，最终得出最优解：

“分散”阶段：广开思路
- 求解器（Solver）：多个智能体同时开工，提出各种**“解决方案”**。
- 批评者（Critic）：专门挑毛病，指出这些方案可能存在的**“缺陷和漏洞”**。这就像一群“智囊团”在集思广益，同时还有“杠精”在旁边疯狂“找茬”，确保思路够广，考虑够周全。
“堆叠”阶段：深度聚焦
- 重写器（Rewriter）：把前面所有“脑暴”出来的东西综合起来，“去其糟粕，取其精华”，形成更优的解决方案。
- 选择器（Selector）：最后**“拍板定案”，从所有方案中选出那个“最佳答案”。这个过程有点像强化学习里的“探索（Rollouts）”和“利用”，先“广撒网”收集信息，再“精准打击”提炼最佳结果。这套“组合拳”下来，AI的推理能力直接“开挂”**，变得更深、更广。

成绩单公布：这波，是真“卷”赢了！

实验结果简直是亮瞎眼！³

HLE总分：X-Masters豪取32.1%，直接把之前所有模型的最高纪录（26.9%）甩在身后，成为首个突破30%大关的系统！
全方位碾压：跟“基石”DeepSeek-R1-0528相比，X-Masters在所有考试类别（包括数学、物理、生物医学等）的表现都大幅提升，简直是**“学霸本霸”**了。
消融实验：数据也显示，每增加一个“组件”（工具增强推理、迭代优化、最终选择），得分就蹭蹭往上涨，证明这套“智能体工作流”是实打实的有效。
生物学“特长生”：在生物学/医学类别中，X-Masters甚至超越了专门为生物学设计的智能体Biomni（17.3%）和STELLA（26%），拿下了27.6%的成绩，更是在TRQA-lit（choice）这个生物学专属测试中，以67.4%的SOTA成绩遥遥领先！

最牛的是，它只用了网页搜索和网页解析两种基础网络工具，就干翻了集成500多种专家工具的“多智能体大哥”OriGene。这说明X-Master不是靠工具数量取胜，而是靠**“智慧地使用工具”！简直是“四两拨千斤”**的典范！

背后的“学霸天团”：这波中国AI，YYDS！

这波让全球AI界为之侧目的**“逆天改命”操作，是由上海交通大学人工智能研究院的Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du作为共同一作完成的，指导老师是上海交大陈思衡副教授。深势科技方面，创始人兼首席科学家张林峰也亲自署名参与。这再次证明，我们国产AI的实力**，那是杠杠滴！

更值得点赞的是，上海交大和深势科技团队还直接把这套方案给开源了！⁴ 这波操作，无疑是为整个AI社区注入了一针强心剂。想象一下，未来大家都可以基于这个“超级外挂”继续迭代，那AI的进步速度，简直是**“光速前进”**！

AI的进化速度，真的超出我们想象。这“人类最后的考试”刚放出时，大家还在感叹AI的“道阻且长”，结果没多久，就被中国的“学霸天团”硬生生撕开了一道口子。未来，AI到底能给我们带来多少惊喜，真的**“拭目以待”**！也许哪天，HLE就真的变成了AI的“幼儿园毕业考试”呢？

引用

人类最后的考试（Humanity's Last Exam）·Center for AI Safety·(2025/7/9)·检索日期2025/7/9 ↩︎
DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分·量子位·西风 (2025/7/9)·检索日期2025/7/9 ↩︎
X-Master: Advancing Science with Tool-Augmented Multi-Agent Systems·arxiv.org·Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Siheng Chen, Linfeng Zhang (2025/7/5)·检索日期2025/7/9 ↩︎
sjtu-sai-agents/X-Master·GitHub·(2025/7/9)·检索日期2025/7/9 ↩︎