华为最新公开的论文详细披露了其CloudMatrix384超节点的创新架构与卓越性能,特别是在DeepSeek大模型推理效率上超越了英伟达H100/H800,为全球AI算力市场带来了一个强大且成熟的替代方案,预示着AI计算领域“一超多强”时代的到来。
长久以来,关于华为昇腾(Ascend)系列AI芯片能否在高性能计算领域与英伟达(NVIDIA)相抗衡的争论,一直是科技界热议的焦点。坊间传闻与未经证实的消息不绝于耳,但缺乏公开、权威的技术细节支撑。近日,这场持续的讨论终于迎来了一个关键的转折点:华为与硅基流动(Silicon Flow)联合署名的论文《Serving Large Language Models on Huawei CloudMatrix384》在arXiv上公开发布1,首次详细揭示了华为CloudMatrix384超节点的底层技术架构和在实际大模型推理场景中的性能表现,其数据直指核心:在多项关键指标上,CloudMatrix384展现出超越英伟达H100和H800的效率,这不仅仅是性能的提升,更是一种系统级能力的全面展示,标志着全球AI算力竞争进入了一个“掰手腕”的新时代23。
性能的量化:超越H100的深度洞察
这份重磅论文的核心在于公开了CloudMatrix384在部署DeepSeek-R1大模型时的真实性能数据,并与行业标杆英伟达H100及H800平台进行了直接比较。结果令人瞩目:
- 预填吞吐量 (Prefill Throughput):这是处理长输入提示的关键指标。CloudMatrix384的单卡吞吐量高达6688 tokens/s,算力利用率达到4.45 tokens/s/TFLOPS。这一数据显著优于H100上SGLang的理想效率(3.75 tokens/s/TFLOPS)和H800上DeepSeek自身的Profile(3.96 tokens/s/TFLOPS)。这意味着在处理用户输入、加载上下文信息时,华为平台能以更高的效率准备数据,减少等待时间。
- 解码吞吐量 (Decode Throughput):衡量模型生成内容的速率。CloudMatrix384的单卡吞吐量达到1943 tokens/s,计算效率为1.29 tokens/s/TFLOPS,同样超越了英伟达H100和H800的公开测试结果。对于AI应用而言,更快的解码速度直接 translates 为更流畅的用户体验和更高的服务并发能力。
- 低延迟表现:在对时延要求极为严苛的场景下(例如TPOT < 15ms),CloudMatrix384依然能维持538 tokens/s的解码吞吐量,这展现了其对高并发、低延迟请求的强大适应性,对于实时交互式AI应用至关重要。
- 推理精度:论文还指出,基于昇腾910C实现的INT8量化版本在16项权威基准测试上的准确率与DeepSeek官方API几乎一致,做到了“性能提升不以精度为代价”4。这在业界是一个重要的突破,因为量化通常伴随着精度损失。
这些数据不仅证明了CloudMatrix384在整体性能上已接近甚至超越国际顶级方案,更重要的是,它验证了华为底层架构设计在处理大模型特有挑战,如MoE(Mixture-of-Experts)模型的极高并行度需求和KV Cache的高频访问问题上的卓越能力。对于需要大规模部署和商业化落地的大模型服务提供商而言,这提供了一条极具吸引力且性能优异的替代路径。
架构的创新:华为的算力再定义
CloudMatrix384超节点并非仅仅是硬件堆叠,其核心在于一种全新的、面向AI数据中心设计的架构理念。它集成了384个Ascend 910C NPU和192个Kunpeng CPU,通过独特的超高速低延迟统一总线(UB)网络互联,实现了计算、内存和网络资源的动态池化与统一访问5。
硬件架构
CloudMatrix384的硬件设计亮点在于其三重通信平面:
- UB平面:作为系统内部高带宽Scale-up通信结构,通过非阻塞的全互联拓扑直接连接所有NPU与CPU。每颗昇腾910C芯片提供超过392GB/s的单向带宽,跨节点延迟低至接近1微秒5。这是该架构首次被揭秘,也是实现高效系统级数据移动和协调的关键。
- RDMA平面:用于超节点之间及与外部RDMA系统的Scale-out通信,兼容标准RDMA软件栈。
- VPC平面:通过华为自研的擎天网卡将超节点接入数据中心网络,提供高达400Gbps的单向带宽,兼容标准以太网和IP协议。
这种分层设计,尤其是UB网络的引入,使得张量并行(TP)和数据并行(EP)组能够无缝跨节点扩展,消除了传统架构中常见的节点间瓶颈。通过将CPU、NPU和内存解耦为独立池化资源,CloudMatrix实现了细粒度、工作负载驱动的资源组合。
软件栈
华为为昇腾NPU构建了名为**神经网络计算架构(CANN)**的全面软件生态系统,其定位类似于英伟达的CUDA。CANN作为中间软件层,旨在实现PyTorch、TensorFlow等高级AI框架与Ascend NPU底层硬件的高效集成,通过将抽象计算图转换为优化指令,最大化应用性能5。
更值得关注的是,为支持CloudMatrix384在云环境中的部署,华为云提供了一套复杂的基础设施软件:
- MatrixResource:负责物理资源管理与调度,支持拓扑感知的计算实例分配。
- MatrixLink:提供面向服务的UB与RDMA网络管理,支持QoS保证与动态路由调度。
- MatrixCompute:管理CloudMatrix实例生命周期,包括裸金属资源初始化、自动伸缩及故障恢复。
- MatrixContainer:基于Kubernetes提供容器服务,结合拓扑感知调度充分利用高性能互联架构。
- 顶层的ModelArts平台则提供端到端的AI服务,从裸机和容器化环境到完整的AI开发与MLOps管道,再到模型即服务(MaaS)功能。
这一完整的软件栈,从底层驱动到上层平台,旨在屏蔽基础设施的复杂性,同时最大限度地发挥CloudMatrix384的性能优势,为开发者构建和部署大规模AI应用提供了高效、便捷的工具。
适配DeepSeek
为了高效运行DeepSeek-R1这样的大参数量、MoE架构和长上下文模型,华为开发了CloudMatrix-Infer推理优化方案。该方案采用PDC(Prefill, Decode, Caching)解耦架构,将推理流程拆分为三个子系统。通过NPU与UB总线直连共享DRAM池,实现了KV缓存和模型权重的高效分布式访问,彻底消除了传统架构中的缓存访问瓶颈。DeepSeek-R1的320个MoE专家被映射到160个昇腾910C NPU上,实现大规模专家并行(LEP),利用UB高速网络大幅降低MoE通信延迟。此外,通过自研的INT8量化方案,CloudMatrix-Infer在不依赖FP8的情况下,显著提升了性能和能效1。
产业生态与全球AI格局的重塑
华为此次公开论文,无疑是对此前“华为芯片效率是否超越英伟达”争议的最有力回应。论文作者之一在知乎上的回应明确指出,此举旨在帮助业界全方位了解国产昇腾NPU,并为国内技术生态建立起使用国产NPU战胜NV GPU的信心6。这不仅仅是一份技术报告,更是一种战略性的姿态,它将对全球AI产业格局产生深远影响。
长期以来,英伟达凭借其CUDA生态系统和强大的GPU硬件,几乎垄断了全球高性能AI计算市场。这种单一供应商的局面,不仅带来了潜在的供应链风险,也限制了技术路线的多样性。华为CloudMatrix384的出现,提供了一个成熟且经过验证的替代方案。对于寻求供应链多元化、降低成本,以及希望掌握核心AI基础设施自主权的客户和国家而言,这无疑是极具吸引力的。有匿名网友测算,CloudMatrix在百万token推理成本上已与主流英伟达GPU方案相当,这意味着其不仅在技术上,在经济性上也具备竞争力7。
这标志着AI算力市场正在从“英伟达一家独大”向“一超多强”格局演进。华为的入局,不仅激发了国内AI产业的自主创新活力,也将促使全球AI芯片和系统供应商加速竞争与创新,最终惠及整个AI生态系统。然而,要真正挑战英伟达的霸主地位,华为还需要在软件生态、开发者社区建设、全球市场拓展等方面持续投入。这场“掰手腕”的竞争才刚刚开始,但CloudMatrix384无疑已经打响了重要的第一枪。
引用
-
Serving Large Language Models on Huawei CloudMatrix384·arXiv·Huawei Team & Silicon Flow(2025/06/25)·检索日期2024/07/20 ↩︎ ↩︎
-
国产芯片比英伟达整体效率更高!?华为CloudMatrix384 超节点首曝 …·搜狐新闻(2025/06/18)·检索日期2024/07/20 ↩︎
-
华为展示CloudMatrix 384“超级AI服务器” 推理效率超NV H100·cnBeta·检索日期2024/07/20 ↩︎
-
黄仁勋夸爆的华为AI超节点,技术秘籍披露!昇腾910C跑DeepSeek·网易科技·检索日期2024/07/20 ↩︎
-
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超H100·量子位(2025/06/25)·检索日期2024/07/20 ↩︎ ↩︎ ↩︎
-
华为团队的作者之一在知乎进行了详细回应·知乎·检索日期2024/07/20 ↩︎
-
国产芯片比英伟达整体效率更高!?华为CloudMatrix384 超节点首曝 …·腾讯新闻(2025/06/18)·检索日期2024/07/20 ↩︎