OpenAI转向TPU:重塑AI算力版图的战略棋局

温故智新AIGC实验室

OpenAI选择大规模采用谷歌TPU芯片,标志着AI基础设施领域的一个重要转折点,预示着英伟达在GPU市场面临产能压力下的新竞争格局,同时揭示了亚马逊AWS在AI算力供应上的潜在短板。这一举措不仅有望显著降低OpenAI的推理成本,更将深刻影响云计算巨头在AI时代的战略地位与市场份额。

在人工智能领域持续突破的今天,支撑其发展的底层计算能力正成为决定未来走向的关键要素。近日,市场传出OpenAI已开始大规模租用谷歌的TPU(Tensor Processing Unit)芯片,为其ChatGPT等核心产品提供算力支持,这标志着这家前沿AI公司首次大规模采用非英伟达芯片,无疑在AI基础设施版图中投下了一颗重磅炸弹。1 这一战略转向,不仅是对谷歌AI基础设施能力的有力背书,更引发了业界对三大云服务巨头——谷歌、英伟达和亚马逊——未来走向的深层思考。

技术格局的深层变迁

OpenAI此举的核心驱动力之一,是其对推理计算成本降低的迫切需求。随着大模型日益普及,模型训练固然耗资巨大,但日常数亿用户的推理请求才是长期且规模庞大的成本负担。选择谷歌TPU,而非此前深度合作的微软Azure数据中心或业界主导的英伟达GPU,清晰地传递出OpenAI在追求成本效益和供应链多元化上的决心。这同时也为谷歌的TPU技术提供了一个前所未有的舞台,使其有机会挑战英伟达长期以来在AI芯片市场的主导地位。

摩根士丹利分析师指出,OpenAI是迄今为止最重要的TPU客户,其选择不仅是对谷歌AI基础设施能力的认可,更是对谷歌在更广泛的ASIC(Application-Specific Integrated Circuit,专用集成电路)生态系统中领导地位的有力证明。谷歌的TPU技术积累已逾十年,首款TPU于2015年发布,其设计理念便专注于深度学习工作负载,尤其在推理效率上表现突出。2 尽管OpenAI此次租用的并非最新一代TPU,但其选择本身便说明了TPU在特定AI任务上的优越性能与成本优势。

谷歌的战略机遇与TPU十年磨砺

对于谷歌而言,OpenAI的合作是一场关键的胜利。这不仅将直接推动谷歌云业务的增长,更可能成为其云计算收入加速增长的驱动因素。长期以来,谷歌的TPU技术因主要服务于内部需求而鲜少对外大规模展现其全部实力。OpenAI的背书,有望提升TPU的外部知名度和开发者熟悉度,吸引更多外部客户,从而快速上修Google Cloud的计算总可寻址市场(Compute TAM)。摩根士丹利预测,与英伟达GPU在2027年和2028年预计高达2430亿美元和2580亿美元的市场支出相比,TPU的支出目前仅为约210亿美元和240亿美元(其中大部分为谷歌内部使用),这预示着谷歌在市场份额转移或总体市场扩张方面存在巨大的机会1

此外,这一合作也间接反映了谷歌对其在核心搜索领域地位的信心。通过将自研的AI硬件能力转化为重要的云服务优势,谷歌正在强化其在AI时代的综合竞争力,并将其深厚的技术积累变现为市场份额。

英伟达的产能之困与市场韧性

从英伟达的角度来看,OpenAI的转向并非全然负面。摩根士丹利强调,英伟达在谷歌客户方面的收入预计今年将增长超过3倍,达到200多亿美元,其处理器份额在谷歌内部业务中接近65%。这表明英伟达依然是AI算力市场的绝对主导者,其GPU产品需求旺盛。1

然而,OpenAI转向TPU,也暴露出英伟达面临的产能约束挑战。目前,英伟达的高端GPU特别是机架级产品处于“售罄”状态,市场供应短缺。分析师认为,对替代架构(如TPU)的强劲需求,至少有一部分是由推理算力短缺所驱动,这并非简单的竞争动态转变,而是行业急需解决的燃眉之急。尽管如此,这恰恰凸显了谷歌在定制芯片方面的显著差异化优势。只要英伟达的产能问题持续存在,其他厂商的定制AI芯片就有机会填补市场空白,为客户提供多元选择。

亚马逊AWS的缺席与自研芯片挑战

令人关注的是,OpenAI如今已在谷歌云、Azure、Oracle和CoreWeave等多个主流云服务提供商上运行AI工作负载,但亚马逊AWS却明显缺席。摩根士丹利的分析认为,尽管OpenAI未与AWS达成协议的具体原因尚不明确,但这很可能反映了亚马逊在满足OpenAI级别需求上,存在比预期更大的产能限制。1

更深层次的影响在于,这无疑对AWS的自研定制硅芯片——Trainium构成了负面影响。OpenAI选择使用谷歌的上一代TPU而非AWS的Trainium芯片,这传递了一个强烈的信号:至少在OpenAI看来,Trainium在性能或成本效益方面,未能达到其期望。这一动态预计将使投资者高度关注AWS在下半年的增长情况,及其Trainium芯片的市场竞争力。在AI算力军备竞赛中,云服务商的自研芯片实力正成为其差异化竞争的关键所在。

前瞻:算力多元化与AI生态新平衡

OpenAI转向TPU的案例,不仅仅是单一公司层面的战略决策,更是AI算力基础设施领域走向多元化、专业化趋势的一个缩影。未来,我们可能看到更多AI公司为了优化成本、提升效率、规避单一供应商风险,而选择混合部署不同厂商的芯片和云服务。这种多元化不仅体现在GPU与ASIC的并存,更体现在不同云服务商提供差异化服务的竞争。

随着AI技术的持续演进,对算力的需求将只增不减。芯片制造商和云服务提供商之间的竞争与合作将愈发激烈。拥有强大自研芯片能力和庞大基础设施的巨头,如谷歌,有望在这一变革中占据更有利的位置。而英伟达则需要在维持其GPU技术领导力的同时,加快解决产能问题,以应对日益增长的替代性竞争。亚马逊AWS则面临着证明其自研芯片Trainium竞争力的紧迫任务。AI基础设施的未来,将是一场技术创新、成本效益与供应链韧性多重博弈的复杂棋局,其演变将深刻影响人工智能的每一次前沿突破与最终普及。

引用


  1. OpenAI转向TPU,这对谷歌、英伟达和亚马逊意味着什么?·华尔街见闻·许超(2025/6/30)·检索日期2025/7/2 ↩︎ ↩︎ ↩︎ ↩︎

  2. OpenAI转向TPU:这对谷歌意味着什么? - moomoo 社区·moomoo 社区·(2025/6/30)·检索日期2025/7/2 ↩︎