TL;DR:
在AIGC视频生成爆发式增长的背景下,多模态理解正从幕后走向核心,成为提升生成内容可控性、真实感和语义连贯性的关键。快手等头部玩家正通过优化DiT模型、精炼数据治理及创新评估体系,以期克服长视频生成、ID保持等技术挑战,并最终驱动AI角色与具身智能的商业化与社会化进程。
2024年,由OpenAI Sora掀起的AIGC视频生成浪潮席卷全球,不仅重塑了影视创作和专业内容生产的边界,更将生成式搜索与推荐引入电商和短视频平台,大幅提升了用户意图理解的精准度。在这场技术革新的深处,多模态理解(Multi-modal Understanding)正作为核心支撑,显著增强了AIGC的可控性和语义响应能力,成为推动行业从“玩具”向“实用”乃至“智能体”演进的“幕后功臣”1。
多模态理解:AIGC视频生成的“幕后功臣”
传统的多模态理解往往侧重于特定任务的性能指标优化,但在AIGC场景下,其核心目标转变为对多源信息的“全面感知与转述”——即将用户的所有想象和现实内容,通过特定表征方式精准注入到生成模型中。以快手“可灵”平台为例,无论是文生视频、图生视频还是视频编辑,其背后都依赖于强大的多模态理解能力。
当前主流的AIGC视频生成架构普遍基于Diffusion Transformer (DiT) 模型,其被广泛认为是提升语义响应能力的关键结构创新。多模态信息融入DiT的主要方式包括:直接通过视觉语言(VL)模型提取输出;利用大语言模型(LLM)的推理能力进行元查询(Meta Query)拼接;以及直接将图像连续信号(如通过IP Adapter)注入DiT,以实现像素级的特征保持,显著提升了身份识别度(ID Preservation)。
在AIGC的工作流中,多模态理解贯穿于训练与推理两大阶段。训练时,它负责对数据进行精准而全面的Captioning,确保图像或视频的每个细节都被准确描述,并注入特殊多模态信息作为Condition。同时,构建Reward Model,利用多模态模型来自动化评估生成内容的质量,例如检测是否存在残肢、物理规律不合理或语义不对齐等问题,是优化生成效果的关键反馈机制。推理时,则需将用户简短模糊的输入转化为与训练分布一致的详细描述,并持续对生成效果进行分析,以避免低质量内容输出。快手高欢强调,将深度图、分割图、骨架图等多种后台策略信息转化为期望的文本描述,是AIGC中多模态理解的重要任务,其目标是实现多模态信息在文本描述中的等效信息密度和格式1。
技术深层挑战与精进之路
要进一步提升多模态理解能力,需要从模型选型、数据处理和评测三个核心维度进行系统性优化。
首先,模型选型不再是单纯追求榜单高分,而应关注模型架构能否最大程度地减少信息损失,具备实际应用价值和灵活性。例如,针对视频数据,传统的采样帧方式可能遗漏关键信息,促使研究者寻找更优的架构来表征视频的视觉Token,如Qwen2VL的3D RoPE和VideoChatFlash的Token压缩,以及快手直接对视频块进行编码通过CLIP训练获取向量表征的方式。
其次,数据处理是制约多模态理解能力提升的关键。高质量、大规模、多格式的数据获取极其困难,促使业界探索通过“专家模型”进行数据蒸馏的方法。这意味着不能盲目崇拜通用大模型(如GPT-4o或Gemini),而是要善用在特定领域表现卓越的小模型,通过合理选择和组合来构建更高效的数据处理流程。Caption的格式也至关重要,从简洁的核心内容描述,到结构化的主体-背景-镜头-风格细述,再到以镜头为单位的剧本式描述,每种格式都有其适用性,且需要结合Vbench等评测榜单的需求精心设计1。
最后,评测体系的科学性直接决定了技术迭代的方向。为避免模型在训练中通过学习奖励机制的漏洞而“刷榜”(Reward Hacking),评测需更客观、全面且稳定。例如,阿里巴巴的CAPability榜单通过Checklist方式评估Caption的覆盖度和准确性,字节跳动则通过提取关键信息并计算Recall和Reward来判断Caption的有效性。构建这样的评测体系,能够引导模型朝向真正的实用价值发展,而非虚假的性能提升1。
从短片到长剧:AIGC的叙事鸿沟与突破
当前AIGC视频生成的一大瓶颈在于其通常仅能生成几秒到十几秒的短视频,远不能满足广告制作、短宣传片甚至影视长片的需求。实现分钟级乃至更长视频的生成,面临着三大核心挑战:剧情连贯性、描述合理性以及视频主角的身份稳定性(ID Consistency)。
为了克服这些难题,业界正探索新的多模态理解方案与DiT等技术的配合。一种行之有效的方法是,借鉴剧本创作逻辑,避免代词指代混乱,明确指定每个关键词所指对象,建立清晰的上下文关联。基于此,可以设计剧本式长视频生成流程:首先确定主体定调,完整描述故事;接着介绍主角,并配以图片,使这些图片贯穿整个视频生成过程,从而确保主角身份不丢失。每个分镜头的内容则按时间线详细描述。这不仅需要多模态理解精准解析剧本意图,更要求DiT在生成每个分镜头时具备强大的上下文感知能力,实现多模态理解与生成模型的深度协作1。此外,近期出现的将AR(Auto-Regressive)模型与多模态理解相结合的研究,也为未来更强的视频控制效果提供了新的可能。
商业化瓶颈与未来生态重塑
AIGC视频生成的发展轨迹,与大语言模型(LLM)的路径呈现出惊人的相似性。初期,两者都经历了一个“刷榜”阶段,模型性能在各类基准测试上迅速飙升。然而,单纯的榜单分数很快暴露出商业化瓶颈,许多早期产品因功能局限而难以盈利。
随后,LLM领域转向探索长上下文处理和长推理技术,催生了诸如Agent(代理)等更具实用价值的产品形态。视频生成领域也正在经历类似的过程:从最初的专用生成、画面质量提升到语义响应能力的优化,再到目前努力提升数据治理水平,以期生成电影级片段、实现更精细的控制力度。快手“可灵”平台通过提供多模态编辑能力,让用户能够直接用图像等方式表达想法,生成创意视频,正是在这一演进路径上的重要实践。
高欢指出,未来的技术突破可能体现在“Unify Model”等相关技术上,这将是一个从数据优化重新回归到模型创新的循环过程。随着AIGC技术从“玩具”属性向“生产力工具”转变,其在动漫制作、特殊运镜、广告营销等领域的商业化潜力将逐步释放,但实现规模化盈利仍需时间,并伴随着对整个内容创作产业链的深层重塑。
AI角色:通往AGI的“具身”愿景
超越纯粹的视频生成,多模态理解更承载着通向具身智能(Embodied AI)和**通用人工智能(AGI)**的宏大愿景。当前数字人技术已相对成熟,但在交互能力上仍显不足。它们可以逼真地进行电商直播或宣传,却缺乏像Character AI那样与用户进行自然、情感化对话的能力。
长远来看,如果数字人能够真正成为具备交互能力的“AI角色”,在工作或生活中为人类提供必要的支持,甚至成为情感陪伴的对象,那么其社会价值将是颠覆性的。这不仅仅是技术上的突破,更是对“人类-AI关系”的深层哲学思辨。它意味着AI不再仅仅是工具,而是具备某种形式的“存在感”和“主体性”。这种人机共生的未来图景,需要多模态理解在复杂场景中的持续学习、推理和交互能力达到前所未有的高度。快手等公司在AIGC领域的投入,正是在为实现这一具身智能的宏伟目标奠定基础,使其从技术突破的表象,升华至对人类文明进程的深远影响和变革意义。