大模型基础设施工程师正面临训练中断、性能瓶颈和部署成本高昂等“暗涌”挑战。他们通过精细的并行策略优化、异构硬件智能调度、以及提升GPU利用率来应对,同时通过开源协作和持续工程化实践,致力于构建更稳定、高效且低成本的AI计算底座。
大型语言模型(LLMs)以其惊人的能力席卷全球,预示着人工智能的新纪元。然而,在这些智能的表象之下,支撑其庞大计算需求的AI基础设施却是一个充满挑战的“底座”。对于那些肩负着构建和维护这一看不见的基石的工程师们而言,前路并非坦途,而是充斥着意想不到的故障、难以捉摸的性能瓶颈,以及在史无前例的规模下持续优化成本的巨大压力。近期,在AICon全球人工智能开发与应用大会2025北京站即将召开之际,一场汇聚了华为昇腾技术专家ZOMI酱、蚂蚁集团高级专家马介悦和SGLang核心开发者尹良升的《极客有约》直播,深入揭示了这些深层挑战及其前沿解决方案,为我们剖析了大模型工程中的“暗涌”。
基础设施的“暗涌”:挑战与痛点
大模型训练和推理的本质是对海量计算资源的极限压榨,这也意味着故障的概率被指数级放大。蚂蚁集团的马介悦指出,线上训练过程中最常见的问题之一就是稳定性,特别是对于千卡乃至万卡级别的大规模集群,训练任务中断(“跑挂”)几乎是常态。他坦言:“GPU本身存在一定的错误率,对于一个万卡集群来说,每天出现不同的GPU故障几乎是必然的。” 1 这些故障可能源自底层网络系统、交换机、光模块、计算节点本身,甚至GPU的ECC错误。由于训练是一个同步过程,任何单卡故障都可能导致整个任务停滞或失败。早期,工程师们只能依赖人工响应和重启,但问题往往反复出现,暴露出缺乏自动化运维系统的窘境。
除了硬件层面的不确定性,“跑飞”——即模型损失函数(loss)异常飙升——则更为复杂,它可能源于算法本身的缺陷、并行框架的问题或数据错误。这类问题需要基础设施工程师与业务算法工程师紧密协作,排查难度极大。尹良升则从开源推理引擎的角度,指出了运行时错误(Runtime Error)和性能问题是用户反馈的焦点。其中,诸如显存分配溢出(OOM)等运行时错误,往往因用户不当配置或代码bug所致;而性能无法达到预期,则可能涉及配置差异、软件版本不一致乃至测试数据集迁移的偏差。这些都指向了软硬件协同的复杂性,以及在庞大系统中精确诊断问题的挑战。
如果将大模型的工程流程比作一条流水线,那么其脆弱点无处不在。并行策略的兼容性是一个核心症结。尹良升以SGLang复现DeepSeek Blog的实践为例,解释了_Multi Token Prediction_ (MTP) 等新策略与 Data-Parallel Attention 等现有功能间的冲突。这种不兼容并非设计理念的根本矛盾,而是代码实现中兼容性与解耦不足的体现,反映出快速迭代与系统健壮性之间的固有张力。马介悦进一步补充,尽管研发流程中依赖严格的代码审查、门禁(gatekeeping)和自动化测试,但核心挑战在于性能“门禁”常常受限于资源。线上万卡规模才能复现的问题,往往无法在仅8卡规模的CI流水线中暴露,导致许多深层问题直到线上大规模复现后才被发现。这使得对机器浮点运算利用率(MFU)下降的排查异常复杂,往往需要依赖耗时的人工二分法回溯测试,凸显了强大的性能剖析和监控系统对高效工程化实践的重要性。
成本效益的“压榨”:软硬协同的优化之道
在“大模型低成本”成为行业共识的今天,如何从系统层面“压榨每一分显存”和提升算力利用率,成为AI基础设施工程师的核心使命。尹良升从推理部署的角度提出了三个关键优化方向:
-
模型架构设计与最终上线部署的联合设计:他指出,DeepSeek通过大规模卡群部署和PD分离节点策略,将API价格压至前所未有的低点。以稀疏MoE架构为例,每次推理仅激活少量参数,若利用大量专家并行,则等效于单卡承载的模型权重显著减少,从而释放出更多显存用于更大的KV缓存。这表明,在模型设计或训练阶段就需考虑未来的推理性能,实现前期与后期的深度协同。
-
高效的KV缓存管理策略:将每轮对话后的KV缓存转储至CPU内存或文件系统,因其相对廉价,成为普遍做法。但如何在多轮对话或Agent工作流等特定场景下,设计智能的KV缓存驱逐与重加载策略,以适应不同的复用间隔,仍有巨大的优化空间。
-
提升GPU的极限利用率,消除CPU阻塞带来的空闲:传统流程中,调度批次和启动内核等CPU密集型任务容易阻塞GPU。SGLang的_Overlap Scheduling_重新设计了工作流,允许GPU在执行当前批次时,CPU并行准备下一批次,从而“完全隐藏了CPU开销”,极大提升了GPU利用效率 1。这些优化调度开销的创新点,是压榨GPU推理性能的关键。
蚂蚁集团的马介悦则从更宏观的硬件架构层面,揭示了提升性价比的关键。他指出,英伟达GPU的领先很大程度上得益于其NVLink/NVSwitch实现了高效的单机节点内通信。然而,跨节点通信的性能瓶颈(与NVLink存在一个数量级的差距)是传统架构的痛点。他强调,通过将大量节点整合到大型机柜内,利用NVLink的“拉远”互联技术,能够将跨节点带宽提升至接近节点内水平。马介悦的实践证实,仅更换为类似华为Cloud Matrix的硬件架构,实测性能提升便“非常可观”,甚至能让国产芯片在跑_DeepSeek_的效率上超越英伟达 2。这种“成本优化不仅关乎价格,更需关注性价比,即同等模型MFU下的单位成本”的理念,正推动AI算力基础设施向更高集成度、更低延迟的方向演进。
开源与异构的未来:共建生态的机遇
构建一个健壮、高效的AI基础设施,远不止于编写优质代码。马介悦提到,DLRover开源项目自2023年开源以来,目标是发展为更庞大的社区,吸引更多伙伴参与。这需要平衡公司繁重工作与社区投入,并有效运营技术监督委员会,提升国内外影响力。尹良升将开源的本质定义为“众人拾柴火焰高”,强调在项目维护者与社区用户之间构建良性循环的重要性——“用户信任社区并提供反馈,社区则吸纳更多构建者,驱动版本迭代与项目进化。” 1 这种超越纯粹工程能力的社区建设和信任机制,是开源项目得以持续发展和保持活力的核心。华为昇腾的ZOMI酱也深有体会,Mind系列开源项目初期面临的挑战,是如何打破“仅支持昇腾硬件且易用性不足”的普遍认知,真正打造一个能够吸引全球开发者的生态。
展望未来,GPU共享和虚拟化技术正在成为提升资源利用率的新趋势。马介悦解释了英伟达MIG(Multi-Instance GPU)如何通过SR-IOV技术将物理GPU划分为多个虚拟实例,实现了设备级的虚拟化,带来了性能、隔离性和安全性上的优势。ZOMI酱进一步指出,在早期难以实现的异构融合,特别是推理环节预填充(prefill)与解码(decode)分离架构的成熟,正使其可行性显著提升。预填充阶段依赖高算力芯片,而解码阶段更看重显存容量与高效的KV缓存管理能力,这使得为不同阶段匹配最优硬件成为可能。这种充分利用异构硬件特性、实现跨类型资源的智能调度与混部,已成为AI基础设施演进的重要方向。
SGLang与vLLM等开源推理引擎之间的良性竞争,也揭示了开源生态的活力。尹良升强调,SGLang通过独特的“GPU显存前缀共享”和“零开销调度器”等设计,致力于提供更低的部署成本或更友好的上手体验。这种差异化竞争和以用户痛点为核心的迭代,共同推动着整个推理引擎领域的技术进步。
最终,AI基础设施的未来将是一个高度集成、智能调度、且深度协作的生态系统。工程师们正不断在硬件故障的“暗涌”中寻求稳定性,在成本飙升的压力下“压榨”极致效率,并在开源协作的浪潮中构建共赢的未来。这不仅是一场技术革新,更是一场关于如何高效、普惠地驾驭AI力量的社会实验,其进展将直接决定大模型技术的最终边界和普惠程度。