TL;DR:
“人类最后的考试”(HLE)最近被“开挂”了!上海交大和深势科技联手打造的“X-Master”组合,直接把AI成绩从天花板拉到了32.1分,打破了“无人能及”的魔咒,还是全球首例,简直是AI界的年度卷王!
话说,最近AI圈又炸锅了!不是因为哪个模型又发了新论文,而是因为一个号称“人类最后的考试”(Humanity’s Last Exam,简称HLE)的“史诗级”大考,终于被硬核突破了!而且,这波突破天际的骚操作,还是咱国内团队——上海交通大学联合深势科技——干出来的!他们用一套名为“X-Master”和“X-Masters”的组合拳,一举把AI在这个出了名“难到哭”的考试上的得分,从之前的最高26.9分,直接拉高到了32.1分!这不仅是HLE史上首次突破30分大关,更是让无数网友直呼“AI竞赛,一天一个样,根本跟不上啊!”
“人类最后的考试”:到底有多“变态”?
你可能要问了,这“人类最后的考试”到底是个什么来头?能把AI们“考懵”到最高分才20多分?
简单来说,HLE可不是什么阿猫阿狗都能出的题目。它可是由AI安全中心和Scale AI这俩大咖联手打造,汇集了全球500多家机构、1000多名学者(包括OpenAI、谷歌DeepMind、微软研究院等顶级玩家)的智慧结晶1。出题标准嘛,堪称“地狱模式”:
- 研究生难度起步:不是普通人能看懂的,更别说做了。
- 全网无迹可循:确保题目不能被AI或人类**“作弊式”检索**到,真正考验推理和理解能力。
- 答案明确,拒绝“开放式作文”:杜绝一切模糊地带,AI必须给出正确答案。
这3000多道题目,涵盖了数理化、生物医药、工程、社会科学等一百多个细分学科,简直是AI界的**“九九八十一难”。你想想,有需要解读上古文字的2,有得看图做化学题的,还有那些让人看了就头皮发麻的数学计算机难题……这哪是考试,分明是“渡劫”啊!刚发布时,连顶流模型o1都得分不过10%,可见其“杀伤力”**。
在这种**“变态级”难度下,最高分也才26.9分,甚至还是两家顶尖团队(Kimi-Research和Gemini Deep Research)“并列”的。结果现在,上海交大和深势科技团队就像开了“超级外挂”一样,直接把分数刷新到了32.1%!这操作,简直是“降维打击”**!
X-Master:当AI学会“抄作业”……哦不,是“自主思考+查资料”!
那么问题来了,这套“超级外挂”到底藏着什么黑科技?答案就是他们团队(SciMaster系列研究的第一部分)推出的X-Master和X-Masters。
首先登场的是X-Master,它可不是个“傻大个儿”,而是一个**“会思考、会找工具、还会写代码”的工具增强型推理智能体**。它的核心理念,就是模拟人类研究者解决问题的过程:
- 内省:就像我们大脑思考一样,它先自己琢磨。
- 外挂工具:遇到搞不定的问题,它会把“行动计划”写成代码,然后调用外部工具(比如NumPy、SciPy这种“计算器”,或者实时网络搜索工具包)去**“查资料、跑数据”**。
这就像一个**“学霸”,不仅脑子好使,还知道什么时候该去图书馆翻书,什么时候该上网搜资料,甚至还会用Python写个小程序来“暴力求解”**。
“我可以通过访问外部环境有效回答这个查询。” “每当我确定需要与外部工具交互时,我会生成包裹在
<code>
和</code>
token之间的Python代码。” — X-Master的“内心独白”,这波“自我催眠”可还行?
有意思的是,为了让DeepSeek-R1这种原本没“智能体基因”的模型也能**“装作很会用工具”,团队还搞了个“初始推理引导”。他们不是让模型自由发挥,而是在它开始“思考”前,先偷偷塞入一段“剧本”,让模型“深信”自己拥有强大的工具使用能力。这种“引导式教育”,简直是AI界的“行为艺术”啊!结果就是,即便DeepSeek-R1没专门为智能体行为微调过,也能“自己生成代码,自己执行,自己跟环境玩儿得不亦乐乎”**。
X-Masters:AI也能开“头脑风暴”了?这波操作秀翻全场!
如果说X-Master是个**“学霸”,那X-Masters就是由一群X-Master组成的“学霸天团”,上演了一出AI版的“头脑风暴”**!
这套系统采用了**“分散-堆叠式”智能体工作流**,听起来有点玄乎,其实就是让多个AI“各司其职”,分工协作,最终得出最优解:
-
“分散”阶段:广开思路
- 求解器(Solver):多个智能体同时开工,提出各种**“解决方案”**。
- 批评者(Critic):专门挑毛病,指出这些方案可能存在的**“缺陷和漏洞”**。 这就像一群“智囊团”在集思广益,同时还有“杠精”在旁边疯狂“找茬”,确保思路够广,考虑够周全。
-
“堆叠”阶段:深度聚焦
- 重写器(Rewriter):把前面所有“脑暴”出来的东西综合起来,“去其糟粕,取其精华”,形成更优的解决方案。
- 选择器(Selector):最后**“拍板定案”,从所有方案中选出那个“最佳答案”。 这个过程有点像强化学习里的“探索(Rollouts)”和“利用”,先“广撒网”收集信息,再“精准打击”提炼最佳结果。这套“组合拳”下来,AI的推理能力直接“开挂”**,变得更深、更广。
成绩单公布:这波,是真“卷”赢了!
实验结果简直是亮瞎眼!3
- HLE总分:X-Masters豪取32.1%,直接把之前所有模型的最高纪录(26.9%)甩在身后,成为首个突破30%大关的系统!
- 全方位碾压:跟“基石”DeepSeek-R1-0528相比,X-Masters在所有考试类别(包括数学、物理、生物医学等)的表现都大幅提升,简直是**“学霸本霸”**了。
- 消融实验:数据也显示,每增加一个“组件”(工具增强推理、迭代优化、最终选择),得分就蹭蹭往上涨,证明这套“智能体工作流”是实打实的有效。
- 生物学“特长生”:在生物学/医学类别中,X-Masters甚至超越了专门为生物学设计的智能体Biomni(17.3%)和STELLA(26%),拿下了27.6%的成绩,更是在TRQA-lit(choice)这个生物学专属测试中,以67.4%的SOTA成绩遥遥领先!
最牛的是,它只用了网页搜索和网页解析两种基础网络工具,就干翻了集成500多种专家工具的“多智能体大哥”OriGene。这说明X-Master不是靠工具数量取胜,而是靠**“智慧地使用工具”!简直是“四两拨千斤”**的典范!
背后的“学霸天团”:这波中国AI,YYDS!
这波让全球AI界为之侧目的**“逆天改命”操作,是由上海交通大学人工智能研究院的Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du作为共同一作完成的,指导老师是上海交大陈思衡副教授。深势科技方面,创始人兼首席科学家张林峰也亲自署名参与。这再次证明,我们国产AI的实力**,那是杠杠滴!
更值得点赞的是,上海交大和深势科技团队还直接把这套方案给开源了!4 这波操作,无疑是为整个AI社区注入了一针强心剂。想象一下,未来大家都可以基于这个“超级外挂”继续迭代,那AI的进步速度,简直是**“光速前进”**!
AI的进化速度,真的超出我们想象。这“人类最后的考试”刚放出时,大家还在感叹AI的“道阻且长”,结果没多久,就被中国的“学霸天团”硬生生撕开了一道口子。未来,AI到底能给我们带来多少惊喜,真的**“拭目以待”**!也许哪天,HLE就真的变成了AI的“幼儿园毕业考试”呢?
引用
-
人类最后的考试(Humanity's Last Exam)·Center for AI Safety·(2025/7/9)·检索日期2025/7/9 ↩︎
-
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分·量子位·西风 (2025/7/9)·检索日期2025/7/9 ↩︎
-
X-Master: Advancing Science with Tool-Augmented Multi-Agent Systems·arxiv.org·Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Siheng Chen, Linfeng Zhang (2025/7/5)·检索日期2025/7/9 ↩︎
-
sjtu-sai-agents/X-Master·GitHub·(2025/7/9)·检索日期2025/7/9 ↩︎