华为CloudMatrix384超节点近期通过公开论文首次揭示其全栈技术体系,在部署MoE大模型DeepSeek-R1时,于关键推理性能指标上展现出超越英伟达H100/H800平台的卓越效率。这一里程碑式的披露不仅验证了国产AI芯片与架构的强大实力,更预示着AI算力市场正进入一个由创新互联架构驱动的“掰手腕”新时代。
数月以来,围绕“华为芯片系统效率能否超越国际主流AI芯片和架构”的讨论,一直如暗流涌动,在科技界引发热烈争议。坊间传言华为在系统层面具备显著优势,但缺乏官方技术细节支撑。近日,这场争论迎来了一个决定性转折点:华为团队与硅基流动(Silicon Flow)联合署名的重磅论文《Serving Large Language Models on Huawei CloudMatrix384》正式在arXiv上公开1,首次向世界详细阐述了其CloudMatrix384超节点的架构与在真实大模型推理场景中的性能表现,尤其是其在运行DeepSeek-R1这一大规模MoE(Mixture-of-Experts)模型时,所展现出的令人瞩目的效率,某些关键指标甚至超越了英伟达H100平台2。这不仅是对质疑声的有力回应,更是对全球AI算力版图的一次深刻冲击。
性能突破:数据揭示的效率飞跃
该论文的核心在于首次公开了华为CloudMatrix384在部署DeepSeek大模型时的真实性能指标,并与业界标杆英伟达H100和H800平台进行了直接对比。在AI大模型推理中,**预填充吞吐量(Prefill Throughput)和解码吞吐量(Decode Throughput)**是衡量系统效率的两个关键指标。
报告显示,在预填充吞吐量阶段,华为CloudMatrix384单卡吞吐量达到惊人的6688 tokens/s,并取得了4.45 tok/s/TPFOPS的全场最佳算力利用率。这一数据超越了H100上SGLang的理想效率(3.75 tokens/s/TFLOPS)和H800上DeepSeek的Profile(3.96 tokens/s/TFLOPS)1。这意味着在处理长输入提示时,华为系统能更高效地利用其计算资源。
在解码吞吐量方面,CloudMatrix384单卡吞吐量达到1943 tokens/s,计算效率为1.29 tokens/s/TFLOPS。更重要的是,在要求极低延迟(如TPOT<15ms)的高并发场景下,CloudMatrix依然能维持538 tokens/s的解码吞吐表现,这充分彰显了其对实时AI应用负载的强大适应能力。此外,论文还详细展示了基于昇腾910C的INT8量化版本,在16项权威基准测试中,其准确率与DeepSeek官方API几乎一致,实现了“性能提升不以精度为代价”1。这些数据共同描绘出一幅清晰的画面:在部署DeepSeek-R1这类大规模MoE模型时,CloudMatrix384在关键性能指标上已全面超越英伟达体系。
架构解析:深度互联与软件赋能
CloudMatrix384的卓越性能并非偶然,它源于华为对下一代AI数据中心架构的前瞻性思考和工程实现。该超节点集成了384个Ascend 910C NPU和192个Kunpeng CPU,通过其核心创新——超高速低延迟统一总线(UB)网络互联,实现了计算、内存和网络资源的动态池化与统一访问。
在硬件层面,CloudMatrix384引入了三重通信平面:
- UB平面:作为系统内部高带宽的Scale-up通信结构,通过非阻塞的全互联拓扑将NPU和CPU直接连接,每颗昇腾910C芯片提供超过392GB/s的单向带宽。这是UB统一总线架构的首次公开,其跨节点带宽接近芯片内部带宽,单跳延迟更是达到了接近1微秒的极低水平1。
- RDMA平面:用于超节点之间及与外部RDMA系统的Scale-out通信,当前采用RoCE协议,以兼容标准RDMA软件栈。
- VPC平面:通过华为自研的“擎天”网卡接入数据中心网络,提供高达400Gbps的单向带宽,采用标准的以太网和IP协议。
这种分层的网络设计,特别是无阻塞的UB网络,为CloudMatrix提供了四大核心能力:NPU间直接高吞吐量点对点通信,消除节点间瓶颈;CPU、NPU和内存解耦为独立池化资源,实现细粒度组合;高带宽UB网络支持AI和数据密集型应用;以及将CPU附带DRAM聚合为共享高性能内存池,可通过UB访问1。这些特性共同定义了AI原生基础设施的新范式。
软件栈方面,华为为昇腾NPU构建了全面的生态系统——神经网络计算架构(CANN),它类似于NVIDIA的CUDA,作为中间层,高效集成高级AI框架(如PyTorch、TensorFlow)与昇腾硬件,实现计算图优化和指令转换。此外,为了支持CloudMatrix384在云环境中的部署,华为云提供了一套复杂的基础设施软件,包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer,这些组件旨在抽象硬件复杂性并通过标准云API实现无缝资源编排1。ModelArts则作为顶层AI平台服务,提供端到端的AI开发、MLOps和模型即服务(MaaS)功能。整个软件栈的构建,旨在屏蔽底层复杂性,同时充分释放CloudMatrix384的性能优势。
模型适配与产业格局重塑
面对DeepSeek-R1这样拥有320个MoE专家、参数量巨大且上下文长度惊人的模型,华为提出了CloudMatrix-Infer推理优化方案。该方案的核心是PDC解耦架构,将推理流程拆分为Prefill(预填充)、Decode(解码)和Caching(缓存管理)三个子系统。NPU通过UB总线直连共享DRAM池,实现了KV缓存和模型权重的高效分布式访问,有效解决了传统架构中的缓存访问瓶颈。
尤为重要的是,针对DeepSeek-R1的MoE特性,CloudMatrix-Infer实现了大规模专家并行(Large Expert Parallelism, LEP),将320个专家一一映射到160个昇腾910C NPU上,通信通过UB高速网络完成,使得MoE模型的专家切换延迟不再是性能瓶颈。同时,通过自研的INT8量化方案,在不依赖FP8的情况下显著提升了性能和能效1。这套优化方案使CloudMatrix-Infer成为大模型推理的强大基座。
这篇论文的公开,不仅是技术上的突破,更是在当前地缘政治背景下,中国在高端AI算力领域实现自立自强的重要信号。正如华为团队的作者之一在知乎上回应所言3,此次毫无保留地公开全栈技术体系,旨在帮助业界全面了解国产昇腾NPU,并为国内技术生态建立起“使用国产NPU战胜NV GPU”的信心。匿名网友根据公开数据测算,CloudMatrix在百万token推理成本上已与主流英伟达GPU方案相当1。
华为CloudMatrix384超节点的揭秘,意味着AI算力领域的竞争已不再仅仅局限于单颗芯片的峰值性能,而是转向系统级、架构级乃至生态级的综合效率比拼4。当今大模型对分布式计算、通信带宽和内存访问模式提出了前所未有的挑战,而CloudMatrix384所展现的,正是通过创新互联架构和深度软件优化,为应对这些挑战提供了另一种可能路径5。它不仅为大模型的规模化部署与商业化落地提供了坚实基础,更标志着AI算力市场进入了真正的“掰手腕”时代,传统巨头的主导地位正面临来自新兴力量的强劲挑战。
引用
-
Serving Large Language Models on Huawei CloudMatrix384·arXiv·Huawei team & Silicon Flow (2025/6/25)·检索日期2025/7/2 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
华为展示CloudMatrix 384“超级AI服务器” 推理效率超NV H100·CNBeta.com.tw· (无作者) (2025/6/18)·检索日期2025/7/2 ↩︎
-
关于CloudMatrix384论文的知乎回应·知乎·华为团队作者 (2025/6/25)·检索日期2025/7/2 ↩︎
-
国产芯片比英伟达整体效率更高!?华为CloudMatrix384 超节点首曝 …·Sohu.com· (无作者) (2025/6/18)·检索日期2025/7/2 ↩︎
-
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超H100·QbitAI.com· (无作者) (2025/6/18)·检索日期2025/7/2 ↩︎