华为近日宣布开源其盘古大模型系列,包括稠密模型与混合专家模型,并全面公开基于昇腾平台的推理方案和基础代码,此举旨在加速AI技术创新与应用落地,同时也是华为强化其昇腾生态战略的关键一步。通过此举,华为不仅推动了大型模型的可访问性,更展现了其在AI算力优化与高效部署方面的深厚技术实力,为构建一个更开放、普惠的AI生态奠定了基础。
6月30日,华为宣布了一项具有里程碑意义的举措:全面开源盘古大模型的核心能力,包括70亿参数的稠密模型、720亿参数的盘古Pro MoE混合专家模型,以及一系列基于其昇腾(Ascend)AI芯片的模型推理技术和基础代码12。这标志着华为首次将盘古大模型的核心技术面向公众开放,此举远不止是简单的模型共享,更深层地折射出华为在构建自主AI生态、加速人工智能普惠化进程中的战略布局与技术野心。
技术原理解析:高效能的基石
大型语言模型(LLMs)的计算成本和推理延迟一直是其规模化应用面临的核心挑战。华为此次开源的解决方案,正是围绕这些痛点展开,其核心在于对效率的极致追求。
首先,盘古Pro MoE模型采用了华为创新的分组混合专家模型(Mixture of Grouped Experts, MoGE)架构。传统的混合专家模型(MoE)通过稀疏激活机制,在保持较低计算成本的同时支持更大的模型参数,从而提升表达能力。然而,MoE架构在实际部署中常遭遇专家激活不均衡的问题,导致部分计算资源闲置。MoGE架构巧妙地在专家选择阶段对专家进行分组,并约束每个输入token在每个组内激活等量的专家。这种设计在分布式部署中,使得每个专家分组对应独立的计算设备,从而_天然地实现了跨设备的计算负载均衡_。根据华为的披露,盘古Pro MoE在昇腾800I A2上实现了单卡1148 tokens/s的推理吞吐性能,并通过投机加速等技术可进一步提升至1528 tokens/s,显著优于同等规模的稠密模型[^RSS]。
其次,华为开源的超大规模MoE模型推理部署方案,是其“数学补物理、非摩尔补摩尔、系统补单点”思想的集中体现[^RSS]。这套方案包含多项前沿技术:
- FlashComm系列技术旨在解决大模型推理中的通信瓶颈。例如,FlashComm通过对AllReduce通信原理的拆解与协同优化,显著减少了多节点部署下的端到端时延。FlashComm2则通过“以存换传”重构计算流程,而FlashComm3则充分利用昇腾硬件的多流并发能力,实现了MoE模块的高效并行推理。这些创新在Atlas 800I A2上部署DeepSeekV3/R1和Llama 3.1等模型时,展现出显著的性能提升[^RSS]3。
- OmniPlacement是一种高效的负载均衡算法,通过专家重排、层间冗余部署和近实时调度,能在极短的推理步骤内实现接近90%的专家均衡,大幅提升MoE推理性能[^RSS]。
- FusionSpec投机推理框架则利用轻量模型或外部知识生成推理草稿, enabling解码阶段一次推理多个token。这一技术与昇腾芯片高算力带宽比的特点天然契合,可将框架耗时从10毫秒左右降至1毫秒,在高并发场景下实现高吞吐量[^RSS]。
- OptiQuant是基于昇腾芯片的量化算法,通过层间自动混精、自动混合校准等技术,使得INT8量化模式的推理精度能与FP8持平,进一步释放了Atlas 800I A2和CloudMatrix384集群的硬件性能[^RSS]。
- 此外,华为还围绕昇腾NPU优化了一系列关键算子,如AMLA(以加代乘)、融合算子和SMTurbo,以及通过H2P分层混合并行优化、TopoComm拓扑亲和通信优化等技术,实现了软件与硬件的深度协同,使Pangu Pro MoE的推理性能提升了6-8倍[^RSS]。
最后,针对端侧和边缘设备,华为推出了盘古Embedded 7B模型,其核心是具备“快思慢想”(fast and slow thinking)能力的双系统框架4。该框架能根据任务复杂度自动选择高效的“快思考”模式或用于复杂推理的“慢思考”模式,在延迟和推理深度之间实现平衡。通过迭代蒸馏、模型合并和强化学习的创新训练框架,这款仅有70亿参数的模型在多项复杂推理基准测试中,表现优于Qwen3-8B和GLM4-9B等规模相近的业界领先模型,展现了其在昇腾NPU上的卓越效能与性价比[^RSS]。
产业生态与战略考量:驱动普惠智能
华为此次开源盘古大模型,并非孤立的技术发布,而是其长期以来**“昇腾生态战略”**的又一关键落子15。这一战略旨在构建一个以昇腾芯片为底座,覆盖从硬件、基础软件、大模型到行业应用的完整AI计算生态。开源行动的背后,是多重深层考量:
首先,加速生态繁荣。通过开源成熟的模型和优化的推理方案,华为极大地降低了开发者和企业在昇腾平台上部署和应用大模型的门槛。这不仅能吸引更多开发者加入昇腾社区,丰富其应用场景,更能加速人工智能在千行百业的落地。在当前全球AI芯片竞争日益激烈的背景下,一个活跃且富有活力的软件生态系统,是硬件平台能否成功的关键。
其次,强化技术领导力与标准化。华为不仅开源了模型权重,更公开了其在昇腾平台上积累的超大规模MoE模型推理部署方案的核心技术和代码。这表明华为希望通过开放,将自身在AI推理优化领域的先进经验和创新成果转化为行业标准,从而在整个AI技术栈中占据更主动的地位。
再者,推动AI普惠化。大模型的训练和部署成本高昂,对算力要求极高,这在一定程度上限制了中小企业和研究机构的参与。通过提供经过优化的开源模型和推理代码,华为致力于让更多参与者能够以更低的成本、更高的效率使用和创新大模型技术,从而加速AI技术的民主化进程。
未来挑战与展望:开放之路的远方
尽管华为此次开源意义重大,但其前行的道路上仍充满挑战。
最大的挑战无疑是生态系统的成熟度与开发者迁移成本。尽管昇腾在技术上取得了显著进展,但与NVIDIA CUDA等长期建立的庞大生态系统相比,其社区活跃度、工具链完善度以及开发者习惯仍需时间培养。如何持续吸引并留住开发者,是华为需要长期投入的课题。此外,全球AI领域的竞争日益加剧,各国在AI芯片和技术上的投入空前,华为需要在技术创新和生态建设上保持持续的领先优势。
展望未来,华为的开源战略或将对全球AI产业格局产生深远影响。通过开放核心能力,华为不仅能加速其昇腾硬件平台的市场渗透,更可能促进形成一套独立于西方技术体系的、更加开放和协作的AI技术路径。这种开放性可能催生出更多本土化的创新应用,尤其是在对数据安全和主权有更高要求的行业。盘古大模型与昇腾平台的深度融合,预示着一个高效、普惠且具备“快思慢想”能力的AI时代正加速到来,其影响将远超技术本身,触及社会、经济乃至地缘政治的更深层面。
引文
-
华为首次开源盘古大模型,包含70亿和720亿参数模型·中国基金报·(2025/6/30)·检索日期2025/6/30 ↩︎ ↩︎
-
华为盘古大模型开源,推理方案、基础代码全公开!·53AI·(2025/6/30)·检索日期2025/6/30 ↩︎
-
FlashComm大模型推理中的AllReduce通信优化技术.pdf·GitCode·(未知)·检索日期2025/6/30 ↩︎
-
2505.22375.pdf·arXiv·(2025/5/22)·检索日期2025/6/30 ↩︎
-
马斯克称2028年实现“全脑接口”计划;华为开源两大模型·21财经·(2025/6/30)·检索日期2025/6/30 ↩︎