随着多模态大模型推理能力的增强,一个令人不安的“幻觉悖论”浮现:模型在“思考”得越深时,其对视觉现实的感知锚点反而越弱,导致内容偏离图像、凭空捏造。一项最新研究系统揭示了这一现象的内在机制,并提出了新的评估指标RH-AUC,旨在引导AI发展走向更平衡的“看清”与“想通”并存的智能范式。
在人工智能领域,多模态大模型的崛起正在重塑我们与数字世界的交互方式,它们不仅能理解语言,还能处理图像、声音等多种信息,并进行复杂的跨模态推理。特别是一类被称为R1系列的多模态推理模型,通过引入显式的长链推理机制,在解决复杂问题方面展现出前所未有的能力,突破了传统“快思考”范式的性能瓶颈。然而,近期由加州大学圣克鲁兹分校、圣塔芭芭拉分校和斯坦福大学研究团队发布的一项系统性分析,揭示了一个令人警醒的“幻觉悖论”:这类模型在推理链条加长的过程中,其视觉感知能力却呈现出下降趋势,生成内容有时会偏离图像本身,甚至出现“看见”不存在事物的幻觉现象。换言之,模型可能正在面临一个根本性的权衡取舍:越“聪明”,越容易“看错”。1
“智能"的代价:推理与感知的两难
这项研究的核心发现,直指当前多模态大模型发展中的一个深层矛盾:推理能力的提升,在一定程度上伴随着视觉对齐的弱化,呈现出“越推理越幻觉”的倾向。 这种“推理增强—感知削弱”的悖论,挑战了我们对AI能力提升的直观认知。我们通常认为,一个更强大的模型理应在各个维度都表现得更出色,但事实证明,至少在当前的架构下,情况并非如此。
研究人员通过对比多个7B规模的多模态模型在推理与感知两类任务中的表现,清晰地观察到了这一趋势。例如,尽管R1-OneVision-7B等模型在推理准确率上具备一定优势,但其在感知任务中的准确率却降至最低,显著低于同规模的非推理模型(如Qwen2.5-VL-7B)。2 这表明,长链推理并非“无代价”的性能飞跃,而是以牺牲图像感知能力为代价,放大了模型生成幻觉的风险。在需要细致图像对齐能力的感知评测基准(如MMVP、MMHAL)中,R1类模型普遍低于同规模的Base模型,进一步印证了“推理链的增强不仅没有提升感知质量,反而加剧了模型‘脱图而答’的幻觉倾向”。1
这种现象尤其体现在视觉问答任务中。当模型被要求对图像内容进行冗长而复杂的推理时,其生成的答案往往并未真正参考图像本身,而是转而依赖语言常识或先验知识进行“脑补”,从而捏造出听上去合理但图像中并不存在的信息。这种“过度依赖语言先验”的模式,使得模型即便面对明确依赖视觉证据的问题,也往往“凭语言猜”,最终生成与图像严重脱节的幻觉答案。1
剖析“过度思考”的机制
为了深入理解多模态推理模型为何更容易产生幻觉,研究团队对模型内部的注意力分布进行了系统分析,揭示出一种结构性机制:推理增强并非免费午餐,它以牺牲视觉关注为代价换取语言推理能力的提升。 具体来说,相较于非推理模型,R1类推理模型在生成过程中显著减少了对视觉token的关注,取而代之的是将大量注意力分配给指令token与语言上下文。
更为关键的是,这种“注意力迁移”并非固定偏差,而是随着推理链条的延展而逐层加剧。模型越往后层,越倾向于忽略图像输入,而完全依赖语言信号进行推理。在视觉聚焦任务中,非推理模型在多层均展现出对图中关键区域的稳定关注,而R1模型在同样问题下,其注意力热图呈现出明显的视觉退化,深层几乎完全失焦。这种结构性偏移使得模型即使面对明确依赖图像的问题,也往往“凭语言猜”,最终生成与图像严重脱节的幻觉答案。1
研究还发现,这一现象在模型进入“过度思考”(Overthinking)阶段时表现得尤为明显。随着推理链的延长,模型对视觉token的关注持续减弱,而对指令等语言token的注意力则显著增强,导致生成过程越来越依赖语言线索而非图像内容。这一发现令人深思:在人类认知中,深度思考通常意味着更全面、更细致的分析;而在AI模型中,过度的语言推理似乎反而可能导致对现实输入(视觉)的“视而不见”。
重塑评估范式:RH-AUC的启示
面对多模态模型中推理增强与幻觉放大的两难局面,研究团队提出了一项全新评估指标:RH-AUC(Reasoning-Hallucination Area Under Curve)。不同于传统指标只在单一推理长度上评估准确率或幻觉率,RH-AUC从整体视角出发,衡量模型在不同推理深度下“思考力”与“看清力”的动态平衡水平。简而言之,它旨在评估模型在提升推理能力的同时,能否保持对视觉现实的稳定感知。1
为了支持RH-AUC的评估,研究人员还构建了配套的诊断性基准集RH-Bench,其中包含1000个跨感知与推理的样本。通过在新基准上计算模型在不同推理长度下的reasoning accuracy与hallucination risk,然后计算两者构成曲线下的面积,RH-AUC能够提供一个更全面的指标:RH-AUC越高,说明模型在推理增强的同时,视觉对齐能力保持得越好——既能“想得深”,也能“看得清”。1
实验结果揭示出几个关键趋势,为未来的多模态模型训练提供了重要启示:
- 更大规模模型更具稳健性: 7B模型在不同思考深度下展现出更平滑的RH-AUC曲线和更高的峰值分数,这表明它们具备更强的推理–感知整合能力,能够更好地平衡两者。
- RL-only 训练范式优于SFT+RL: 纯强化学习(RL-only)训练的模型平均RH-AUC均高于混合范式(SFT+RL),尤其在长推理链条件下差距显著。这暗示纯RL训练可能更倾向于自适应地生成高质量的推理路径,而SFT+RL则更容易陷入冗余模仿,从而干扰感知判断。
- 数据“类型”比规模更重要: 实验发现,与其盲目扩展训练集规模,不如引入少量具备领域感知特征的样本(如数学推理或图像感知任务),更有助于引导模型在“看图”与“思考”之间实现平衡。这强调了高质量、有针对性的数据在模型稳健性训练中的核心作用。1
这项研究无疑为多模态AI的未来发展敲响了警钟,也指明了方向。它强调,推理能力的提升并非越多越好,盲目追求推理深度可能会带来意想不到的“副作用”。真正的智能,或许在于如何在复杂的推理过程中,始终保持对真实世界视觉锚点的坚守。RH-AUC及其背后的理念,将促使研究人员重新思考多模态模型的训练目标:如何设计出既能“想得深”,又能“看得清”的AI系统,从而在追求更高层次智能的同时,确保其输出的真实性和可靠性,这不仅是一个技术挑战,更关乎AI的信任和可信度,是其走向更广泛社会应用的关键。
引用
-
推理越多,幻觉越重?多模态推理模型的“幻觉悖论”·新智元·LRST(2025/06/25)·检索日期2025/06/26 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
推理越多,幻觉越重?多模态推理模型的“幻觉悖论”·腾讯新闻·(2025/06/25)·检索日期2025/06/26 ↩︎