谷歌近日推出了Gemini 2.5系列大模型,其中轻量级模型Flash-Lite以每百万tokens仅0.7元人民币的极低输入价格,显著降低了高级AI能力的准入门槛,预示着基于稀疏MoE架构的AI算力商品化进程加速,将深刻影响开发者生态和全球AI应用格局。
2025年6月19日,谷歌正式宣布其Gemini 2.5模型系列进入稳定运行阶段,涵盖了性能旗舰Gemini 2.5 Pro、平衡型Gemini 2.5 Flash以及极具成本效益的预览版Gemini 2.5 Flash-Lite。此次发布不仅是模型能力的迭代升级,更是一次对AI经济模式的战略性重塑,尤其通过Flash-Lite的定价策略,谷歌正致力于将先进AI能力推向更广泛的开发者和应用场景。
技术飞跃与架构创新:稀疏MoE的战略优势
Gemini 2.5系列的核心亮点,在于其在性能、效率与成本之间的精妙平衡。作为该系列中最强大的模型,Gemini 2.5 Pro展现出卓越的推理和编程能力,能够深入理解复杂代码库并支持多模态编程。它在Aider Polyglot编程任务、Humanity’s Last Exam、GPQA(钻石级)等多个基准测试中均取得了最高分,并支持长达1M+tokens的上下文长度,在LOFT和MRCR长上下文任务中实现了128k长度的SOTA表现1。虽然在某些特定基准上(如数学能力略逊于OpenAI o4-mini,图像理解分数低于OpenAI o3-high),但其综合表现已超越了Gemini 1.5 Pro,并在LMArena性价比图表中占据领先地位。
而Gemini 2.5 Flash则被定位为一款混合推理模型,旨在为大多数复杂任务提供质量、成本和延迟之间的最佳平衡。其独特之处在于支持可控的“思维预算”(thinking budget)——开发者可以根据任务需求,通过API参数动态调整模型在生成响应前进行“思考”的时间和程度。
然而,真正引人注目的革新在于Gemini 2.5 Flash-Lite。这款轻量级模型不仅延迟和成本双低,更针对翻译和分类等高容量、延迟敏感的任务进行了优化,显著缩短了首个token的获取时间并提升了每秒token的解码速度。其“思考”功能默认关闭以进一步优化速度和成本,但仍保留了Gemini 2.5系列的关键特性,包括连接谷歌搜索和代码执行工具,以及多模态输入和百万tokens的上下文长度。
驱动这一系列模型在容量、效率和成本之间实现突破的关键技术之一,是其采用的稀疏混合专家(Sparse Mixture-of-Experts, MoE)模型架构2。传统的大模型通常在每次推理时激活所有模型参数,而稀疏MoE模型则通过学习将输入token动态路由到参数的子集(即“专家”),为每个输入token只激活一小部分模型参数。这种机制使得模型的总容量可以非常庞大,但每次推理的计算和服务成本却能大大降低。这正是谷歌能够提供前所未有的高性价比AI服务,并支持超长上下文窗口的核心技术支撑。
价格战升级与AI普惠:市场格局的深层博弈
Gemini 2.5系列,特别是Flash-Lite的定价策略,无疑是当前AI市场竞争格局中的一次大胆出击。
- Gemini 2.5 Pro的输入价格为1.25美元/百万tokens(约合人民币8.95元),输出价格为10.00美元/百万tokens(约合人民币71.6元)。
- Gemini 2.5 Flash的输入价格为0.3美元/百万tokens(约合人民币2.15元),输出价格为2.5美元/百万tokens(约合人民币17.9元)。
- 而Gemini 2.5 Flash-Lite的价格优势则更为明显,输入价格仅为0.1美元/百万tokens(约合人民币0.7元),输出价格为0.4美元/百万tokens(约合人民币2.9元),比Gemini 2.5 Flash便宜30%—60%13。
这一极具侵略性的定价,尤其是Flash-Lite的百万tokens仅0.7元人民币的输入价格,无疑是对AI能力“商品化”进程的强力推动。它极大地降低了开发者和中小企业使用先进AI模型的经济门槛。过去,高性能大模型的使用成本往往高昂,限制了其在某些对成本敏感或需要大规模并发的场景中的应用。如今,随着像Flash-Lite这样具备百万tokens上下文能力,同时兼顾低延迟和超低成本的模型出现,AI应用的设计空间被显著拓宽。
这种定价策略将直接加剧AI服务市场的竞争。OpenAI、Anthropic、xAI等主流玩家将面临更大的压力,要么跟进降价,要么在性能、独特性或生态系统集成上提供更强的差异化价值。对于谷歌而言,这不仅是为了争夺市场份额,更是为了通过降低使用成本,吸引更多开发者基于其平台(AI Studio和Vertex AI)构建和部署AI应用,从而强化其云服务和AI生态的粘性2。
走向大规模应用:伦理、责任与未来展望
Gemini 2.5系列特别是Flash-Lite的普及,预示着AI技术正加速渗透到更广泛的行业和日常生活中。更低廉的成本和更快的响应速度,将使得诸如实时多语言翻译、智能客服的自动化、海量内容分类与摘要、代码辅助开发等高频、大规模应用成为可能。这不仅将提升各行各业的运营效率,也将催生全新的商业模式和用户体验。
然而,随着AI能力的普惠化,随之而来的伦理和治理挑战也将被放大。当生成式AI触手可及,其潜在的误用、偏见传播、信息茧房加剧以及对就业市场的结构性影响等问题,将需要更前瞻性的思考和更健全的监管框架来应对。作为AI领域的领导者,谷歌在推动技术进步的同时,也肩负着引导行业负责任地开发和部署AI的重任。
谷歌Gemini 2.5系列的发布,特别是Flash-Lite以其极致的性价比,不仅是技术上的一个里程碑,更是AI产业经济结构转型的一个关键信号。它加速了AI能力从实验室走向大众、从高端服务走向普惠商品的步伐,我们正在进入一个AI无处不在、触手可及的新时代。
References
-
腾讯科技(2025/6/19)。谷歌最强大模型Gemini 2.5正式发布,轻量版百万tokens输入价仅0.7元。36氪。检索日期2025/6/19。 ↩︎ ↩︎
-
虎嗅APP(2025/6/19)。谷歌最强大模型终于问世,价格杀到0.7元/百万token。检索日期2025/6/19。 ↩︎ ↩︎
-
36氪(2025/6/19)。谷歌最强大模型Gemini 2.5正式发布,轻量版百万tokens输入价仅0.7元。检索日期2025/6/19。 ↩︎