马斯克又来“凡尔赛”?Grok 4 横空出世,号称“全能博士后”,这年费直接把我钱包“劝退”!

温故智新AIGC实验室

TL;DR:

马斯克家的xAI又出王炸了!Grok 4不仅号称“全学科博士后”,还在各种变态榜单上“一骑绝尘”,性能直接“降维打击”对手。但是,想抱上这根“大腿”?先看看你的钱包够不够硬核,年费最高直飙2万多人民币,简直是AI界的“学区房”!

北京时间今天中午,科技圈的目光再次聚焦到了那个自带“流量体质”的男人——埃隆·马斯克。他带着酝酿已久的xAI下一代大模型Grok 4,风风火火地现身发布会,开场就是一句响彻云霄的宣言:「这是世界上最好的AI,让我们来展示一下。」1 好家伙,这自信,直接拉满了!

性能狂飙:不服来战?人类“学霸”看了都得沉默!

马斯克一上来就给Grok 4贴上了“学霸”标签:它每次都能在SAT(美国高考)中考满分,而且“无需事先查看题目”;GRE(美国研究生入学考试)更是接近满分,直接把全球研究生甩在了身后。这波操作,简直是AI界的“凡尔赛”天花板,让屏幕前的各位打工人瞬间感受到了“智商碾压”的窒息感。

Grok 4最让人拍案叫绝的,莫过于它那超越人类的推理能力。马斯克甚至大胆预测,这玩意儿今年内就能实现“科学新发现”。这不,短短从Grok 2到Grok 4,它的推理能力直接实现了10倍的飞跃1 秘诀在哪里?据说是因为技术范式大升级:从“下一个token预测”一路进化到“预训练+RL(强化学习)”,特别是Grok 4又把强化学习的计算量提升了10倍,这计算量,简直是把AI“喂”成了肌肉猛男!

当然,光吹不练假把式。Grok 4直接把各种“变态”的基准测试榜单刷了个遍。

  • HLE(Humanities Last Exam,人类最后的考试):一个涵盖数学、化学、逻辑学等多学科、约2500道题目的权威考试,号称“人类终极测试”。Grok 4 Heavy在使用工具的情况下,成绩飙升到44.4%,如果再让它“多思考一会儿,多用点外部工具”,甚至能到50.7%!1 你敢信吗?在此之前,SOTA模型最高也才41.0%。1 话说,人类自己面对这卷子,怕是也得交白卷吧?Google搜索结果也印证了这一点,Grok 4通过文本输入达到了约25%的正确率,而其ARC-AGI-2测试表现尤其出色2
  • GPQA(研究生级别的Google验证问答基准测试)
  • AIME25(美国数学竞赛邀请赛)
  • LCB(Jan-May)(编程竞赛/在线算法竞赛)
  • HMMT25(高中生团队数学竞赛)
  • USAMO25(美国顶级高中生数学竞赛)

在这些高难度的竞技场上,Grok 4 Heavy全都取得了最新的**SOTA(State Of The Art)**成绩,简直是AI界的“卷王之王”,用实力演绎了什么叫“一骑绝尘”!1 马斯克多次强调:“Grok 现在在所有学科都达到了博士后水平,没有例外。”听着是不是有点瑟瑟发抖?

更震撼的是,第三方大模型性能评估平台Artificial Analysis给出了一份“全家福”榜单,Grok 4赫然以73分的总成绩登顶,将o3、Gemini 2.5 Pro、Claude 4 Opus等一众“老牌劲旅”甩在身后,坐稳了“当前领先AI模型”的宝座!12 看来,马斯克那句“世界最好AI”真不是随口一说。

十八般武艺:除了学习它还会啥?

你以为Grok 4只会考试?那就太小瞧它了!它还是个不折不扣的“多面手”。

  • “开口跪”的语音能力:速度比前代快了2倍,端到端延迟更低,支持5种语音。最魔幻的是,Grok里新增了两个AI角色:Eve和Sal。Eve能唱歌能低语,Sal支持多种性格……这是要抢AI虚拟偶像的饭碗吗?1
  • 直指AGI核心:ARC-AGI基准测试:这个测试集专门评估AI的通用推理能力,号称是通向AGI(通用人工智能)的“试金石”。Grok 4在ARC-AGI-2上的表现,几乎把之前的商业SOTA翻了一番,甚至超越了当前的Kaggle竞赛SOTA!1 这意味着它在解决从未见过的新问题上,也展现出了惊人的灵活性,有点通用智能内味儿了!
  • “搬砖”能力MAX:Vending-Bench基准测试:这个是评估AI在真实物理世界中执行复杂操作任务的能力,旨在弥合“Sim2Real Gap”(仿真到现实的鸿沟)。Grok 4在这项测试中也领先于Claude Opus 4、Gemini 2.5 Pro等对手,说明它不光会动脑子,还会“动手”!1 离科幻电影里的机器人管家又近了一步?

现场还秀了一波Grok 4的“黑科技”:生成“基于物理原理的HTML动画,模拟两个黑洞碰撞并产生引力波的30秒可视化效果”。从推理过程到代码,查阅的论文都带着链接,简直是手把手教你理解宇宙奥秘!1

更离谱的是,有人用Grok 4只花了4小时就制作了一款FPS射击游戏!它不仅能写代码,还能实际运行游戏,甚至能洞察优秀游戏的要素并给出改进建议。1 想象一下,以后游戏公司是不是直接让AI来“肝”项目了?

王牌登场:这价格,钱包顶得住吗?

说了这么多,大家最关心的肯定还是:这神仙AI,我能用上吗?

好消息是,Grok 4已经通过API开放调用了,版本号grok-4-0709,上下文窗口达到256K tokens,这容量简直是“海量信息随便喂”!1 速度方面,Artificial Analysis测试显示,Grok 4 API当前服务速度为每秒75个token,虽然不及o3(每秒188个token),但比Claude 4 Opus Thinking(每秒66个token)还是要快点儿的。1

坏消息是……想体验“博士后”级的AI,你的钱包可能得跟着“博士后”毕业的水平。Grok 4的付费模式分为两种:

  • SuperGrok:每年300美元(约合人民币2154元)
  • SuperGrok Heavy:每年3000美元(约合人民币21540元1

看到这个价格,是不是感觉瞬间被“劝退”?这哪里是年费,分明是AI界的“学区房”!不过,对于那些追求极致性能的企业或研究机构来说,这可能就是“真香”定律的体现吧。

未来已来:马斯克的野心有多大?

马斯克表示,我们正处于智能发展的大爆炸过程中,这是人类历史上前所未见的。而xAI的“胃口”显然不止于此。下一步,他们预计还将发布代码模型、多模态智能体以及视频生成模型。1 按照这个“月更”的速度,马斯克这是要打包AI宇宙的节奏啊!

看来,在AI这场没有硝烟的战争中,马斯克和他的xAI团队,又扔下了一枚重磅炸弹。Grok 4的横空出世,无疑给本就竞争激烈的AI赛道又添了一把火。未来AI世界到底会卷成什么样,我们这些吃瓜群众拭目以待。

引用


  1. 刚刚,马斯克发布Grok 4,全榜第一,年费飚到2万+·机器之心(2025/7/10)·检索日期2025/7/10 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 马斯克旗下xAI发布Grok 4,号称“世界上最强AI模型”·新浪财经(2025/7/10)·检索日期2025/7/10 ↩︎ ↩︎