可灵AI:视频生成领域的商业化突破与前路挑战

温故智新AIGC实验室

视频生成领域正经历从技术奇观到商业化落地的关键跃迁,以快手可灵为代表的中国大模型产品已实现数亿美元的年化收入,标志着该赛道商业可行性的初步验证。然而,技术挑战如模型一致性和稳定性仍存,市场竞争日趋白热化,预示着行业仍处于早期阶段,距“多模态ChatGPT时刻”尚有距离。

深夜,沉浸在一段由AI生成的“刀切玻璃水果”解压视频中,咔擦咔擦的音效与流畅的视觉奇观让人身心放松。又或是被AI动物运动会中柯基和长颈鹿连贯而又荒诞的跳水动作所吸引,它们在短视频平台上的数百万点赞量与转发量,无不昭示着一个新兴内容时代的到来。这股由人工智能驱动的视觉狂潮,正迅速渗透并重塑着数字内容生态,并悄然孵化出新的商业模式。

近期,市场传出消息,快手旗下的视频生成模型可灵(Keling)在推出后的短短10个月内,其年化经常性收入(ARR)已突破1亿美元。1这一速度甚至超越了另一明星AI编程产品Cursor,为一度被投资人误判为“不赚钱”的视频模型赛道注入了一剂强心针。字节跳动Seed图像&视频生成负责人黄伟林也持乐观态度,预言2025年将是图像生成商业化的元年,并预计头部视频生成产品明年的年化收入有望达到5至10亿美元。爱诗科技旗下Pixverse月订阅收入已达千万元人民币,这些数字共同勾勒出AI视频生成领域蓬勃发展的商业图景。

视频生成:从技术奇观到商业突破

2024年春节,OpenAI发布Sora,以其惊人的逼真度震撼了全球,一度让人以为物理世界的模拟器已触手可及。Sora所展现的对复杂场景、多角色交互以及物理世界的理解能力,无疑树立了视频生成领域的全新标杆。然而,随后的发展证明,创新并非一家独大。国内市场,包括可灵、即梦等模型迅速崛起,加之谷歌Veo3的全面追击,使得“Sora不过如此”的论调开始甚嚣尘上。

谷歌Veo3的发布,被业内视为又一个“Sora时刻”,其生成出的卡皮巴拉自拍Vlog、AI切玻璃水果等爆款视频,在社交媒体上迅速传播。这些成功案例不仅展示了模型在生成高质量内容方面的能力,更印证了“基模(base model)”的重要性。可灵AI产品及运营负责人李杨强调,这些爆款视频是创作者利用大模型的“泛化能力”尝试出来的,而非定向优化,这让他们更坚定地加强核心技术模型的能力。

可灵在技术迭代上的投入也得到了市场反馈。今年4月,可灵2.0大师版发布后,在语义响应、动态质量和画面美学上取得了显著提升。一位AI创作者表示,在制作真实电影效果的赛道上,可灵表现最佳,并长期是1080p视频生成的唯一方案。在商业广告片制作中,可灵同样因其操作便捷性和生成效率而备受青睐,某团队透露其对可灵的使用比例高达70%。黄伟林提供的数据也佐证了这种趋势:用户生成图片的下载率一年内提升了3倍,超过60%,用户留存率也从十几个百分点提升至40%左右,这表明AI视频生成工具已跨越了商业化的关键门槛。

市场竞争与技术演进的微妙平衡

尽管商业化势头强劲,但行业远未到高枕无忧的时刻。李杨坦言,今天的模型能力仍存在诸多短板,视频画面和表达是多元素构成的,需要模型成为“六边形战士”,即在语义遵从、运动表现、动态质量、人脸清晰度等各个方面都表现出色,不能顾此失彼。例如,一个模型可能在动漫效果上有所突破,但却牺牲了生成速度;另一个可能追求极致的速度,却在物理模拟能力上有所欠缺。

这种技术上的不均衡,导致了用户体验上的不确定性,被用户戏称为像游戏一样的“抽卡”体验——需要多次尝试才能获得满意结果,从而增加了实际使用成本。例如,可灵大师版生成一条10秒视频需200灵感值,约合20元;即梦AI 3.0 Pro生成同等视频需100积分,约合6.3元。这种按次计费且效果不稳定的模式,使得实际成本难以预估。

更严峻的是市场竞争格局。从业者高菲指出,目前各家产品普遍缺乏“差异化优势”,导致用户忠诚度不高。“现在最大的差异可能是价格,对于创作者而言,谁家生成的价格最便宜我用谁。”这预示着一场潜在的价格战,可能导致行业利润率被进一步压缩。尽管头部产品在营销推广端已能实现收支平衡,但爱诗科技、生数科技、Sand.ai等多家公司的创始人或CEO仍认为,商业化尚未完全跑通,行业仍处于早期阶段。

前瞻:通往多模态“ChatGPT时刻”的挑战

可灵AI的商业成功,无疑是生成式AI应用领域的一个里程碑。它不仅证明了AI视频内容在短视频平台上的巨大市场潜力,也为更广泛的内容创作领域提供了新的效率工具。AI生成ASMR和AI动物运动会等新兴内容形式的兴起,也反映了AI技术如何赋能创作者,催生出前所未有的创意表达。

然而,正如李杨所言,仅仅是商业数字的增长,并不能完全定义行业的成熟。视频生成大模型面临的核心挑战依然是其内在的一致性、可控性以及对复杂世界进行稳定模拟的能力。这不仅涉及到算法层面的突破,也关联到巨量的、高质量的训练数据以及庞大的算力投入。目前,模型生成结果的不确定性,以及在长视频、复杂叙事、人物情感表达等方面的不足,都意味着距离真正意义上的“多模态ChatGPT时刻”——即能像ChatGPT处理文本一样,流畅、精准、可控地处理多模态内容(包括视频、音频、图像)——还有漫长的道路要走。

未来的发展,将不仅仅是单一技术指标的提升,更在于如何构建一个从底层模型到应用场景、从技术创新到商业模式的完整生态。如何在激烈的价格竞争中找到独特定位,如何在技术瓶颈中实现根本性突破,以及如何在快速商业化的同时解决内容真实性、版权、伦理等社会影响问题,将是摆在所有AI视频生成公司面前的共同考题。可灵的成功是令人鼓舞的开端,但真正的挑战才刚刚开始。

引用


  1. 可灵悄悄赚了1个亿·虎嗅·(2025/7/2)·检索日期2025/7/2 ↩︎