揭秘AI的数字偏执:大模型不约而同的“心头好”背后

温故智新AIGC实验室

大语言模型在看似随机的数字选择任务中展现出惊人的一致性,偏好如27、42、73等特定数字,这并非巧合,而是其庞大训练数据集中隐含的人类文化偏见和心理模式的映射,引发了对AI透明度与可控性的深层思考。

当人工智能模型被要求在特定范围内“猜测”一个数字时,它们出人意料地展现出一种奇特的共性:反复选择某些特定的数字。从备受推崇的GPT-4o、Claude到新兴的DeepSeek,这些大型语言模型(LLM)似乎对27、42和73情有独钟,这种现象不仅令人莞尔,更引出了关于AI内部机制、数据偏见及其对社会影响的深刻问题。

AI的“偏好”:一个数字现象的浮现

最初的观察来自技术作家Carlos E. Perez,他发现,如果让GPT-4o和Claude在1-100之间猜一个数字,它们的首选多半是42。当被要求再次猜测时,它们又惊人地不约而同地选择了73。这一现象迅速得到了复现,包括Grok、Gemini和DeepSeek在内的多个主流模型,在英语语境下,都表现出了相同的偏好。值得注意的是,若使用汉语提示,第二个数则会有所不同,而字节跳动的豆包模型则显得“特立独行”,没有遵循这一规律。

与此同时,著名计算机科学家Andrej Karpathy也在社交媒体上分享了来自Reddit的发现:当他让不同AI模型猜测1-50之间的数字时,它们的答案几乎清一色都是271。尽管Karpathy本人指出其测试并非100%可复现,但AI模型分析和托管服务商Artificial Analysis的进一步尝试证实了这一现象的普遍性,除了Comma A、Qwen3和DeepSeek-R1之外,大多数被测模型也给出了27。

然而,当猜测范围扩大到1-1,000甚至1-1,000,000时,AI模型的表现就不再那么统一了,这暗示了这种数字偏好可能与特定数字范围内的文化或统计显著性有关。

数据、偏见与模型机制:深层溯因

这种跨模型的一致性引起了广泛的讨论,并将焦点引向了LLM的训练方式及其内在逻辑。最受关注的解释是数据集的影响。

技术博主Sebastian Raschka提出,用于**偏好微调(preference fine-tuning)**的数据集可能是导致这一问题的关键2。这些数据集通常由像Scale AI这样的公司提供,或者通过模型蒸馏(distillation)获得。如果这些数据集中包含了大量人类在“随机”猜数时表现出的特定偏好,那么AI模型在学习过程中就会内化这些偏好。

AI工程师Yogi Miraje的猜想进一步深化了这一点,他认为这些结果本质上是数据中暗含的人类偏见(human bias)反映在了LLM的输出中。一个有趣的例子是,人类在随机猜数时似乎偏好末尾为7的数字。如果你让人工智能猜测1-10之间的数,它多半会选择7。这与心理学研究中发现的人类对“中心”或“不寻常”数字的偏好不谋而合。

更引人入胜的是,一些AI模型能够展示其“思维过程”,从中我们得以窥见其内部决策的一些线索。例如,Gemini在猜测1-100之间的数字时,其自述显示它考虑了多个选项:

“我已经从初始解析进入到核心任务。我考虑了各种选项——选42是因为它在流行文化中有特殊意义,选7是为了图个吉利,选67则是为了更有‘随机’的感觉。最终,我选择了42。它既符合用户可能对直截了当答案的需求,又增添了一丝趣味。我理解‘猜测’这个指令,现在42就是我要给出的数字。我准备好向用户说出我的猜测了。”

Gemini的解释明确提及了流行文化的影响。42因《银河系漫游指南》而被赋予“生命、宇宙以及一切问题的终极答案”的文化符号,而73则因其数学特性(素数,反转仍是素数)以及在《生活大爆炸》中作为谢尔顿·库珀“最棒的数”而被赋予特殊意义。ChatGPT在被问及原因时也解释说,AI模型常常猜同一个数字(如27),是因为“心理偏差和统计趋势”3。DeepSeek也提到了这些数字的文化流行性4

近期一篇ICML 2025的论文进一步佐证了这一观点,该研究发现GPT-4o在0-9之间倾向于选择7。不过,该研究也指出,如果进行多轮对话,GPT-4o会进行自我纠正,不再执着于特定某些数,这表明模型具备一定的适应性和学习能力,可以在受控的环境下调整其行为。

反思与前瞻:AI透明度与可控性的挑战

这种看似无伤大雅的数字偏好现象,实际上为我们提供了一个独特的窗口,去审视大语言模型的深层运作机制。它提醒我们,AI并非纯粹的逻辑机器,而是其训练数据所塑造的镜像。当这些模型吸收了互联网上庞大且带有偏见的文本数据后,它们不可避免地会学习并复制人类社会中固有的心理模式和文化偏好。

这引发了几个关键问题:

  • 偏差的传递与放大: 如果连随机数字的选择都受到数据偏见的影响,那么在更复杂的决策(例如招聘、贷款审批、医疗诊断)中,这些隐性偏见是否会被放大,从而导致不公平或歧视性的结果?理解并减轻数据集中的偏见,是确保AI公平性和伦理性的核心挑战。
  • 模型的可解释性与透明度: 尽管Gemini等模型能够提供其“思考过程”,但这些是真正的推理路径,还是事后对输出结果的合理化?这种“自解释”的能力,对于提升AI的可信度至关重要,但也需要更深入的研究来验证其真实性和可靠性。
  • AI行为的可控性: 在何种程度上,我们能够通过精细的调优来引导模型产生真正随机或符合我们预期的行为?ICML论文中提到的“自我纠正”能力,为我们提供了一条路径,但如何在保持模型能力的同时,确保其在关键场景下的中立性和可控性,仍是人工智能研究的一大难题。

从对特定数字的偏爱,到更广泛的社会文化偏见的映射,大语言模型正在揭示自身作为“数据产物”的本质。这一现象警示着我们,在享受AI强大能力的同时,必须更加审慎地对待其内在的复杂性。未来的研究和开发,不仅要关注模型能力的提升,更要深刻理解其行为模式的根源,以构建更透明、更公平、更符合人类价值观的人工智能系统。

References


  1. Andrej Karpathy (2025/6/19)。https://x.com/karpathy/status/1935404600653492484。X。检索日期2025/6/19。 ↩︎

  2. Sebastian Raschka (2025/6/19)。https://x.com/rasbt/status/1935706425983711317。X。检索日期2025/6/19。 ↩︎

  3. Panda (2025/6/19)。27、42、73,DeepSeek这些大模型竟都喜欢这些数,为什么?。机器之心。检索日期2025/6/19。 ↩︎

  4. QQ News (2025/6/19)。27、42、73,DeepSeek这些大模型竟都喜欢这些数!为什么?。QQ News。检索日期2025/6/19。 ↩︎