TL;DR:
苹果最新研究揭示,大型推理模型(LRM)在解决复杂问题时存在根本性局限,当问题复杂度超出某个阈值时,模型的推理能力会“崩溃”。这篇论文挑战了当前AI领域对模型泛化推理能力的普遍假设,引发了关于大模型通向通用人工智能路径的深刻讨论,呼吁业界重新审视AI的真实能力与应用边界。
在过去几年中,大型语言模型(LLMs)的飞速发展重新定义了我们对人工智能潜力的认知。尤其是那些通过“思维链”(Chain of Thought, CoT)等机制,能够模拟分步思考过程的“大型推理模型”(LRM),更是在编码、数学和科学基准测试上取得了令人瞩目的成就,一度让业界相信它们正大步迈向通用人工智能(AGI)。然而,就在这股乐观浪潮中,苹果机器学习研究部门近期发表的一篇题为《思维幻觉》(The Illusion of Thinking) 的论文,如同一记警钟,对当前前沿模型的推理能力提出了深刻而系统的质疑,促使我们重新审视AI的真实能力与潜在瓶颈1。
技术原理与“思维幻觉”解析
苹果的这项研究深入探索了LRM在解决一系列谜题时的表现,其核心发现令人警醒:当谜题的复杂性达到特定“崩溃”阈值时,模型会显著减少其推理努力,最终导致性能的骤降,甚至“崩溃到零”1。研究团队选取了包括经典的汉诺塔问题在内的四种谜题,并测试了o3-mini2 和 DeepSeek-R13 等多种LRM及标准LLM。通过对谜题复杂度的变量控制,他们观察到了模型行为的三个阶段:
- 低复杂度阶段:推理模型与非推理模型的表现相似,都能轻松解决。
- 中等复杂度阶段:具有CoT推理能力的LRM表现优于标准LLM,这正是CoT机制的价值所在,模型能够通过“大声思考”为自己生成中间指令,从而提升解答质量。
- 高复杂度阶段:令人意外的是,无论是LRM还是LLM,它们的性能都“崩溃到零”。这意味着,尽管CoT能提升中等复杂度的推理能力,但当问题复杂性进一步提升时,这种“思考”的努力并未带来等比例的突破,反而像撞上了无形的墙壁。
苹果研究人员直言不讳地指出:
“我们的发现揭示了当前模型的基本限制:尽管有复杂的自我反思机制,但这些模型未能发展出超越某些复杂性阈值的可推广推理能力……这些见解挑战了关于LRM能力的普遍假设,并且表明当前方法在实现可推广推理方面可能遇到了一些基本障碍。”1
对模型推理痕迹的分析进一步揭示了“思维幻觉”的本质。在简单问题上,模型会“过度思考”,虽然正确答案早早浮现,模型却仍会探索错误的思路。而在中等复杂性问题上,模型则会在找到正确方案前探索大量错误方案。这表明其所谓的“推理”更多是一种概率性的模式匹配与搜索,而非真正的、可泛化的逻辑推演。这种机制在面对未知和高度抽象的复杂性时,显得力不从心。
产业生态与能力边界的重估
苹果的这篇论文在人工智能社区激起了广泛讨论,折射出业界对当前AI发展路径的两种截然不同但又互补的视角:
一方面,以认知科学家加里·马库斯(Gary Marcus)为代表的批判者认为,这项研究是对当前“思考型”大模型致命一击。他强调:
“苹果论文所展示的,最根本的,不管你如何定义[通用人工智能(AGI)],是LLM不能替代完善的传统算法。”4
马库斯长期以来坚持,仅依赖海量数据和统计学习的LLM无法真正实现人类意义上的智能,它们缺乏内在的因果理解、符号推理和常识能力。苹果的研究似乎为他的观点提供了新的实证支持:AI在特定任务上表现出色,但其基础性逻辑推理能力远未达到人类的水平,更遑论替代人类的抽象思维和创造力。这对于那些将LLM视为通往AGI“唯一路径”的理论而言,无疑是一盆冷水。
另一方面,开源开发者兼AI评论员西蒙·威利森(Simon Willison)则持更为务实的态度。他指出:
“我对LLM是否是‘通往AGI的道路’不感兴趣。我只关心,一旦你理解了它们的局限性,它们如今是否还有有用的应用。推理LLM是这类模型一个相对新颖和有趣的转折。它们显然能够解决以前的LLM无法处理的一大堆问题,这就是为什么我们看到了源于OpenAI、Anthropic、Gemini、DeepSeek、Qwen和Mistral等新模型的热潮....如今对我来说,它们已经是有用的了,无论它们是否能可靠地解决汉诺塔问题....”5
威利森的观点代表了产业界的主流声音。虽然承认局限性,但大模型,特别是LRM,已经在实际应用中展现出巨大的商业价值。例如,在软件开发、数据分析、内容创作等领域,它们显著提升了效率和生产力。对于风险投资者和企业决策者而言,关键在于如何理解并利用模型的已知能力边界,而非盲目追求未经证实的通用智能。这种务实的态度将引导资本和资源流向那些能够实际解决痛点、创造商业价值的应用场景,而非陷入对“AGI奇点”的过度狂热。
通向通用智能的哲学与实践挑战
苹果的这项研究不仅仅是技术层面的发现,它也引发了深层次的哲学思辨:我们如何定义“智能”?当前的大模型是真正在“思考”,还是仅仅在“模拟思考”?《思维幻觉》一文无疑倾向于后者,其暗示的是一种表象与本质之间的差距。这种“幻觉”背后,是现有AI架构在处理结构化、多步骤、需严格逻辑推演问题时的固有缺陷。
这与人类认知科学的理解形成鲜明对比。人类的推理能力并非单纯依赖海量数据和模式识别,更涉及符号操作、抽象概念、因果关系推理以及灵活的认知策略切换。当一个问题变得复杂时,人类往往会通过分解问题、构建子目标、回溯纠错等方式来应对,这与苹果研究中LRM在复杂性面前的“放弃”行为形成强烈反差。
从社会影响层面看,若公众对AI能力的认知与其实际局限性存在巨大偏差,将可能导致:
- 过度依赖与风险累积:在关键决策场景中过度信任AI,导致系统性风险。
- 就业市场预期错位:对AI取代人类工作的速度和广度产生误判,影响职业规划和教育导向。
- 伦理与治理挑战加剧:若AI的“思考”是幻觉,其行为的不可解释性和不可预测性将进一步挑战AI伦理和治理框架。
未来发展路径与风险机遇
苹果的论文为未来AI研究指明了方向:
- 混合AI范式的重要性:单纯的端到端深度学习可能不足以实现真正的通用推理。结合符号AI(Symbolic AI)的优点,发展神经符号混合(Neuro-Symbolic)AI模型,将数据驱动的模式识别与规则驱动的逻辑推理相结合,被认为是突破当前瓶径的关键路径。例如,让模型能够主动调用外部工具、进行符号计算或逻辑规划,而不是仅仅在内部模拟这些过程。
- 可解释性和可泛化性的追求:未来的研究需更加关注模型内部的“思考”机制,而非仅仅关注输出结果。如何让AI的推理过程更透明、更可控、更具泛化能力,将是核心挑战。
- 重新定义基准与评估方法:传统的基准测试往往倾向于衡量模型在特定数据集上的性能,而苹果的谜题式实验则更侧重于考察模型的泛化推理能力和应对复杂性的鲁棒性。未来,需要更多能够揭示AI深层认知缺陷的评估方法。
展望未来3-5年,AI领域将进入一个更加注重深度和本质而非仅仅规模的新阶段。虽然大模型的“军备竞赛”仍在继续,但对模型内在机制、真实能力边界的探究将日益重要。投资和创新将流向那些能够解决当前技术痛点,实现更可靠、更透明、更具泛化能力的AI解决方案的企业。这可能包括专注于小模型、专业领域模型、以及混合智能范式的创业公司。同时,AI的社会影响评估将更加细致和审慎,对AI伦理和治理的讨论也将从“能否”发展到“如何”发展,确保技术进步与人类福祉同向而行。
引用
-
苹果机器学习研究部门·The Illusion of Thinking (思维幻觉)·machinelearning.apple.com (2025/7/3)·检索日期2025/7/3 ↩︎ ↩︎ ↩︎
-
infoQ·OpenAI o3-mini模型发布·www.infoq.com (2025/2/25)·检索日期2025/7/3 ↩︎
-
infoQ·DeepSeek-R1模型发布·www.infoq.com (2025/2/25)·检索日期2025/7/3 ↩︎
-
Gary Marcus·A knockout blow for LLMs·garymarcus.substack.com (2025/6/15)·检索日期2025/7/3 ↩︎
-
Simon Willison·Apple’s viral reasoning paper·simonwillison.net (2025/6/15)·检索日期2025/7/3 ↩︎