MiniMax M1的非共识之路:中国大模型公司如何重塑AI推理的边界

温故智新AIGC实验室

MiniMax发布其自研的MiniMax-M1模型,这是一款全球首个开源、大规模实现混合注意力的推理模型,凭借独特的MoE架构、闪电注意力机制和创新的CISPO强化学习算法,在长上下文理解和智能体工具使用方面展现出顶尖性能与极致性价比,再次印证了MiniMax作为一家深度“模型驱动”的AI公司的战略选择。

在当下全球大模型技术突破普遍趋于平缓之际,中国AI独角兽MiniMax却再次以一次大胆的底层技术革新,证明了其在基础模型领域持续激进探索的决心。日前,MiniMax正式推出了其酝酿已久的自研文本推理模型MiniMax-M1,将其定位为“金字塔尖的文本推理模型”,并强调其是全球首个开源、大规模实现混合注意力的推理模型。这一发布不仅标志着MiniMax在推理模型领域的重大突破,更折射出其在模型架构和算法层面坚持“非共识”路线的深层战略考量。

技术架构的激进探索

M1的登场并非孤立事件,它延续了MiniMax在底层架构上持续的激进创新。早在五个月前,MiniMax就已将MoE(Mixture of Experts,混合专家)架构和_Lightning Attention_(闪电注意力)引入其基础模型MiniMax-01系列。如今,M1作为MiniMax-01系列的进一步深化,将这些前沿理念推向了新的高度。

M1的核心技术亮点在于其对Transformer架构中注意力机制的“大改”。与市面上主流模型依赖标准Softmax Attention不同,M1大胆采用了混合注意力机制Lightning Attention。这种独特的注意力层设计旨在解放传统Softmax Attention在计算资源消耗方面的局限性,显著提高推理效率,并天然有利于强化学习的高效扩展1。模型总参数达到4560亿,原生支持100万token的上下文长度输入,并拥有目前所有模型中最长的80ktoken输出长度,这在很大程度上得益于其底层架构的创新。

然而,探索混合架构和大规模强化学习的“无人区”并非坦途。MiniMax团队发现,传统的PPO/GRPO等强化学习算法在混合架构中会严重损害训练性能,尤其是在处理对稳定熵和促进可扩展RL至关重要的低概率_token_(如“however”、“wait”)时,这些_token_的梯度贡献容易被裁剪,阻碍了长链式思考(CoT)推理行为的促进。为解决这一难题,M1在算法层面提出了全新的强化学习算法CISPO。这项创新算法旨在明确避免丢弃任何_token_,同时将熵维持在合理范围以确保稳定探索。在Zero-RL设置下,CISPO在数学推理数据集上的表现显著优于字节跳动的DAPO和DeepSeek的GRPO算法,展现出更高的训练效率,仅需DAPO 50%的步数即可达到同等性能1

这种“双线创新”——底层架构的线性注意力机制引入,以及算法层围绕CISPO形成的高效RL框架——最终使得M1的强化学习训练变得异常高效,进而带来了训练成本的大幅下降。根据MiniMax发布的技术报告,在生成10万Token长度时,M1的计算量仅为Deepseek R1的25%。更令人瞩目的是,M1的完整强化学习训练仅需512张H800 GPU在3周内完成,按照当前GPU租赁价格估算,成本仅为53.47万美元。这种极致的性能与性价比,无疑为大模型的商业化落地提供了新的想象空间。

性能飞跃与应用潜力

M1在多项评测基准上的表现令人瞩目。在长上下文能力评测基准OpenAI-MRCR (128k/1M) 和LongBench-v2中,M1的表现远超包括DeepSeek-R1-0528和Qwen3-235B在内的所有开源模型。甚至与闭源模型相比,M1也超越了OpenAI o3和Claude 4 Opus,仅小幅落后于SOTA(State-of-the-Art)的Gemini 2.5 Pro1。这表明M1在处理复杂、冗长信息方面的能力已跻身全球顶尖行列。

除了长上下文能力的强势,M1在**智能体工具使用(Agentic Tool Use)**维度上的能力上限更让人期待。从评测基准TAU-Bench (airline) 的表现来看,M1已是市面上在Agentic Tool Use方面能力最强的模型1。这一能力对于构建更强大、更自主的AI智能体至关重要。

MiniMax也通过一系列Demo展示了M1在实际应用中的潜力。例如,M1可以根据一句自然语言指令生成一个复杂的迷宫游戏,并逐步可视化A*算法的求解过程,甚至能帮你从零到一搭建一个能够测试打字速度的网页,或创建一个可拖拽的便签墙。这些Demo都指向通用智能体中产品化_feature_的巨大可能性,而长上下文理解和智能体工具使用正是M1模型的强势所在。

战略选择与行业启示

M1的出现,是MiniMax从传统稠密模型与Transformer架构,转向MoE与线性注意力机制这一战略选择的最新成果。MiniMax在2023年夏天已投入公司80%的算力与研发资源转向MoE,并在Mistral 8✖️7B发布一个月后,上线了国内首个MoE大模型abab 6。其后,MiniMax-Text-01在今年1月成为第一个依赖线性注意力机制大规模部署的模型,验证了这种“非共识”架构的可行性2。M1本质上又是基于MiniMax-Text-01的一次**_scale up_和架构创新**,通过7.5万亿_token_的定向增强预训练,大幅提升了模型在STEM(科学/技术/工程/数学)、编程代码与复杂推理等核心领域的能力。

MiniMax此前凭借其原生AI应用“星野”和“Talkie”在商业化上的优异表现,被外界赋予了“产品驱动”的标签3。然而,M1的发布以及MiniMax在模型底层架构层面持续的激进探索,有力地印证了MiniMax终究是一家“模型驱动”的AI公司。这种对基础技术路线的坚持,尤其是在行业普遍倾向于跟随主流架构时,选择“非共识”路径的勇气,使其得以在性能、效率和成本之间找到新的平衡点,并可能为整个AI领域带来新的范式。

值得注意的是,MiniMax官方宣布M1系列模型同时也拉开了为期五天的“MiniMaxWeek”序幕,预示着未来几天将围绕文本、语音和视觉等多模态模型公布更多技术进展。这表明MiniMax正系统性地将其底层架构创新扩展到更广泛的AI能力领域。在竞争日益激烈的AI大模型赛道,MiniMax的M1模型以其独特的技术路线和卓越的性能,不仅巩固了自身的技术身位,也为业界提供了一个关于如何在模型性能、训练效率和成本效益之间取得突破性进展的案例研究。这早该成为一种共识:在产品繁荣的表象之下,深耕模型底层、敢于挑战主流的技术实力,才是决定一家AI公司能否持续引领未来的关键。

References


  1. 甘德(2025/6/17)。MiniMax-M1 登场,MiniMax 再次证明自己是一家模型驱动的 AI 公司。36氪。检索日期2025/6/18。 ↩︎ ↩︎ ↩︎ ↩︎

  2. (2025/1/16)。突破Transformer架构,MiniMax 01首次开源,海外开发者再一次被中国模型震惊了。腾讯新闻。检索日期2025/6/18。 ↩︎

  3. (无日期)。新闻动态 - MiniMax。MiniMax官方网站。检索日期2025/6/18。 ↩︎