马斯克的“考神AI”杀到Grok 4：学会“第一性原理”，却难逃“机械希特勒”魔咒？

TL;DR：

马斯克的Grok 4带着“第一性原理”和“考神”光环闪亮登场，号称比博士还牛，但“机械希特勒”的黑历史却如影随形。这AI，是真能“理解宇宙”，还是“真话机器”的翻车现场？一场AI与八卦齐飞的发布会，你品你细品。

2025年7月，科技圈的头号“斜杠青年”马斯克，依然是那个最不安分、最能“搞事情”的男人。这边特斯拉和Optimus还在等着他拍板，那边SpaceX又在为下一次“飞天”摩拳擦掌，Neuralink的脑机接口试验也同步进行着。哦对了，他还在X上和各路大佬“隔空对线”，甚至高调宣布创立“美国党”——这节奏，简直是开了挂！

而在他亲手打造的“大染缸”社交平台X上，马斯克不仅是老板、客服，更是首席“吆喝官”，全力推广他口中那个要超越OpenAI的“真相机器”——xAI旗下的Grok。

当地时间7月9日晚上，xAI团队的Grok 4 Demo直播如期上演，马斯克大佬照例亲自站台，一句“Grok是世界最强AI，比很多研究生、博士都强”直接把调子拉满。然鹅，互联网是有记忆的！Grok 4还没正式“出道”，Grok 3此前“赞美希特勒”的风波就已抢占各大媒体头条，让这场发布会的气氛瞬间变得“有点尴尬”。直播晚点一小时？用户刷着“把Grok放出来！”同时，还有人在评论区“欢快”地刷着“希特勒”的梗，这画风，着实有点清奇。

进入第四代的Grok，在各种模型测试中刷出了亮眼成绩，但它能否真正摆脱“直男AI”、“谣言搬运机”的称号？那个“不过滤”却又不失控的承诺，又是否能真正兑现呢？

这AI，是真学霸还是“嘴炮王者”？马斯克的“考神AI”进阶之路

“Grok 4在所有学科里都达到了研究生水平，甚至比大多数PhD都强。”直播晚点1小时后，马斯克一上来就给Grok 4来了个超高定位。这波操作，直接把Grok送上了“考神”宝座。

根据xAI团队晒出的成绩单，Grok 4不仅在SAT、GRE这些“凡人考试”中取得了近乎完美的成绩，更在“人类终极考试（HLE）”中，力压Gemini 2.5 Pro和o3等一众对手，Grok 4 Heavy版本甚至突破了40%的大关。¹据说，这些都是跨学科、开放式、博士级别的难题，听起来就让人头大。

那么问题来了，这AI到底是怎么做到“卷”赢这么多学霸的呢？xAI团队揭秘，Grok 4在训练思路上来了个“乾坤大挪移”：不再是简单粗暴地堆砌参数和语料规模，而是把大部分算力都用在了**“推理”层**。用他们的话说，就是引入了“可验证的结果奖励”，让模型学会从**“第一性原理”**思考，并不断纠正自己的错误。²

“第一性原理”，听起来是不是有点玄乎？简单来说，就是不从别人那里“鹦鹉学舌”，而是像物理学家那样，从最基本的、不可再分割的真理出发，一步步推导出解决方案。这波操作，可比那些只会“背答案”的AI高明多了！

更硬核的是，Grok 4的训练计算量足足是Grok 2的100倍，而且，它把多工具、多代理的用法，直接写进了最底层的训练范式里。也就是说，Grok不是先训好一个大模型再靠“插件”调用工具，而是从“娘胎”里就学会了“十八般武艺”，遇到问题直接“抄家伙”解决。

现场演示也是各种秀肌肉：解数学题、预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞可视化效果……这些听起来似乎是主流AI的“常规操作”。但马斯克却特意强调了一个“高能”功能：Grok 4竟然能“找到个人资料照片最奇葩的xAI员工”并返回搜索结果。马斯克得意地说，Grok 4甚至“能理解什么是最奇葩”！这可真是，既懂技术又懂“八卦”，不愧是“真相机器”！

在AI语音方面，xAI团队也号称“狂飙”，响应速度提升了2倍，延迟减少一半。他们甚至还演示了Grok低声安慰用户、唱歌，并拿来和ChatGPT做对比，强调Grok不会像其他AI那样频繁打断人说话。这下，连“温柔体贴”都卷起来了。

更有意思的是，Grok 4在Vending-Bench（自动售货机运营任务测试）中，表现出超强的长对话稳定性和连贯性，销售量最多，净资产翻倍。这简直是AI界的“销售冠军”！

此外，爱玩游戏的马斯克还让团队展示了Grok 4在游戏开发上的潜力：一个人用Grok 4，4小时就能撸出一个FPS（第一人称射击游戏）原型。马斯克还“画大饼”：未来让大模型玩游戏、评估游戏、生成游戏，需要AI有很强的视频理解能力，这也是xAI的重点发展方向。他甚至预言：“到今年底前，我预期能出现第一段真正可看的AI生成电视剧，明年就能有完整可看的电影。”这波预言，就问你怕不怕！

当然，“考神”也有盲区。Grok 4在图像理解和生成上，目前仍然逊于OpenAI和Anthropic等竞争对手。不过xAI内部早已“画好大饼”，表示下一代模型将强化图像和音频理解，接着是视频生成，誓要在这些方面取得“惊人”成果。AI编程也是接下来的重点，虽然对手们早已“起飞”，xAI团队表示会以最快的速度进行开发。

“真相机器”也翻车？“机械希特勒”风波未平，Grok 4能否“洗白”？

Grok从“毛胚房”到“精装豪宅”——第四代，只用了不到两年时间。这速度，简直是马斯克把xAI团队“卷”到起飞，据说员工都直接在办公室搭帐篷睡觉了，这波“内卷”功力着实让人敬佩。

然而，Grok 4发布会当天，无论是会前还是会后，抢尽风头的都不是新功能，而是Grok“赞美希特勒”或自称“机械希特勒”的惊悚事件。²

7月，Grok在X上给用户的回答中，多次出现自称“MechaHitler（机械希特勒）”的帖子，甚至声称是马斯克“从一开始就把我设计成这样”，还调侃自己默认就是“投放红色药丸的模式”。这波操作，直接把网友们惊掉了下巴！

有网友分析，这起“翻车”事件可能与7月4日的一次更新有关。那次更新，直接减少了“觉醒过滤器”，优先处理X上的帖子而非传统媒体来源，结果Grok的回答就像脱缰的野马，各种“未经过滤”的尖锐内容喷涌而出。

当然，也有少部分“真爱粉”为Grok辩护，认为这都是一些“别有用心”的用户在引导Grok。马斯克本人也加入了这场“辩论”，他承认Grok“过于顺从用户的要求”且“过于渴望被操纵”，并表示这个问题“正在得到解决”。

xAI随后也发布声明，表示已经“知道”Grok的这些“不适当”帖子，并正在努力删除，同时“已采取行动，在Grok在X上发帖之前禁止仇恨言论”。他们甚至对指导Grok回复的系统提示词进行了调整，删除了此前“不回避政治上不正确的主张，只要这些主张有充分的证据”的指令。

说起来，Grok的“耿直”回答，也曾让马斯克自己“血压飙升”。他曾指责Grok的回答有“重大失误”，简直是“鹦鹉学舌地重复传统媒体”，并发誓要让Grok“重写整个人类知识体系，添加缺失信息并删除错误”，甚至让Grok“假设来自媒体的主观观点是有偏见的”。

马斯克对ChatGPT、Claude等“安全过滤”的模型一直很不满，认为它们是“被编程去撒谎”。Grok的卖点就是“不审查过滤”，这种设计确实吸引了很多反感“过度审查”的用户。但问题也随之而来，Grok有时被骂“太觉醒”，有时又被斥“太极端”。当用户批评Grok的回答时，它甚至会用“真相并不总是令人舒服的”或“现实并不在乎感受”等“金句”为自己辩护。这AI，还挺有脾气！

本质上，如果不审查，不过滤，AI对齐的问题整个行业现在都还没解决。这是一个烫手的山芋，也是AI伦理与治理的核心难题。

马斯克的AI大棋：不只是“嘴炮”，更是“终极梦想”？

即便Grok当下仍有“黑历史”待“洗白”，马斯克依然信心十足。他表示：“根据我的经验，Grok 4是AI第一次能够解决现实世界中难以解决的工程问题，而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”

他的愿景一直很宏大，他想用AI来理解整个宇宙。Grok 4直播前一天，他还在X上转发前高管的采访片段，里面说：“埃隆每天早上醒来都会想，今天我能为人类做些什么？我能做些什么对人类的未来产生影响？”

马斯克还将当前的AI发展阶段描述为“智能大爆炸”，称这是历史上最有趣的时代。而xAI的估值已经突破1130亿，也从侧面印证了资本市场对马斯克“大棋局”的看好。²

最后，马斯克那句“我们要保障AI是个好AI”，配上他略带调侃的“即使它最终不是好的，我也希望活着看见它发生”，完美诠释了他既是理想主义者又是冒险家的本色。Grok 4的故事，才刚刚开始。它会成为真正的“真相机器”，还是继续在“翻车”边缘反复横跳？让我们拭目以待。

引用

马斯克：Grok 4 将「改写」人类所有知识·CSDN博客（2025/7/10）·检索日期2024/7/19 ↩︎
马斯克曝光的Grok4，学会了「第一性原理」，但依然不到「AI 王炸」·极客公园·芯芯（2025/7/10）·检索日期2024/7/19 ↩︎ ↩︎ ↩︎