TL;DR:
上海人工智能实验室与复旦大学联合推出的POLAR奖励模型,通过开创性的对比学习预训练范式,首次在奖励模型领域验证了“缩放法则”。这不仅显著降低了对昂贵人工标注数据的依赖,更以其小巧的参数规模超越了现有巨型奖励模型,预示着大模型对齐人类偏好进入了一个高效、可规模化且更普惠的新纪元。
自OpenAI提出强化微调(Reinforcement Fine-tuning, RFT)技术以来,如何让大型语言模型(LLM)更好地“理解人类偏好”并与之对齐,一直是人工智能领域的核心挑战。奖励模型(Reward Model, RM)作为RFT过程中的“打分器”,其准确度和泛化性直接决定了模型后训练(post-training)的效果。然而,传统奖励模型严重依赖昂贵且难以规模化的人工标注数据,并且在处理开放式、细粒度问题时,往往表现出泛化性差、无法提供精细偏好区分的固有缺陷,这无疑是限制LLM能力进一步释放的“隐形天花板” 1。
现在,来自上海人工智能实验室和复旦大学的研究人员,以其最新提出的奖励模型POLAR(POlicy DiscriminAtive LeARning)突破了这一瓶颈,不仅“填补了OpenAI去年挖的坑”,更首次在奖励模型领域展现出与大语言模型类似的Scaling Law(缩放法则),为LLM的强化学习链路打通了至关重要的一环 2。
技术原理与创新点解析
POLAR的核心创新在于其**策略判别学习(Policy Discriminative Learning)**范式,它彻底颠覆了传统的“基于绝对偏好”的奖励建模方式。不同于试图直接预测人类的绝对偏好,POLAR的目标是衡量训练策略与目标策略之间的“距离” 3。这意味着它更关注模型输出与理想输出之间的相对差异,而非仅仅是简单的对错判断。
其实现路径尤为精妙:
- 对比学习预训练范式:POLAR在预训练阶段采用了大规模、自动化合成数据构建的对比学习方式。它将“同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例”1。通过这种无偏的优化目标,POLAR能够隐式地学习和建模策略分布的差异和距离。这一机制使得POLAR的预训练语料极易扩展,研究团队成功利用了多达131个Base LLM和53个Chat LLM组成的策略模型池,构建了高达0.94T(1.8B模型)和3.6T(7B模型)token的预训练数据。
- 解耦绝对偏好与可扩展性:通过对比学习,POLAR无需依赖海量且昂贵的人类偏好标注数据进行大规模预训练,这从根本上解决了传统奖励模型的数据瓶颈。它能够识别出即使是微小的语义或风格差异,并给出精准的偏序关系打分。例如,在生物基因领域,POLAR能准确区分语义相似但排名不同的回复;在开放式问题如幽默概括《三体》或成语接龙中,它也能基于参考答案给出细致入微的评分,而非简单的0/1判断 1。
- 奖励模型领域的“缩放法则”:POLAR最令人振奋的突破在于其展现出的Scaling效应。实验数据显示,POLAR的验证集损失随着模型参数N的增加呈幂律关系下降(R值0.9886),并随最优训练计算量C的增加呈幂律关系下降(R值0.9912)1。这与大语言模型在Next Token Prediction任务中的Scaling Law高度相似,首次证明了奖励模型也可以通过持续投入计算资源和模型规模,实现性能的持续提升和泛化能力的增强。这无疑为奖励模型的未来发展指明了清晰且可行的路径,打破了长期以来困扰强化学习领域的扩展性僵局。
产业生态与商业价值重塑
POLAR的出现,对AI产业生态具有颠覆性的影响,尤其体现在其显著的降本增效潜力。 首先,它大幅降低了AI模型对齐的成本。传统RLHF(基于人类反馈的强化学习)流程中,高质量偏好数据的收集和标注是耗时耗力且成本高昂的环节,往往需要专业团队进行数月乃至数年的工作。POLAR通过自动化合成数据进行预训练,将对大规模偏好数据的依赖降至最低,使得企业和研究机构能够以更低的门槛和更快的速度开发和迭代高对齐度的LLM。
其次,POLAR有望加速LLM的商业化落地和普及。目前,很多定制化或垂域的LLM在实际应用中仍面临“幻觉”、偏离用户意图等问题,而传统方法难以高效解决。POLAR使得企业能够以更经济、更高效的方式,对特定场景的LLM进行强化微调,显著提升其在企业级应用中的性能、可靠性和安全性。这意味着,无论是在客服、内容生成、智能编码还是医疗诊断等领域,能够高度理解和满足用户偏好的AI将不再是少数头部企业的“奢侈品”,而是有望成为普惠的商业工具。
更重要的是,POLAR仅凭1.8B和7B的参数量,便在下游RL效果上超越了参数量高达其15倍甚至40倍的SOTA奖励模型(如Skywork-Reward-27B和WorldPM-72B-UltraFeedback)1。这种**“小模型胜巨兽”的效率优势,将深刻影响大模型军备竞赛的格局。它预示着未来AI发展可能不仅仅是参数规模的无限膨胀,而是更加注重关键组件(如奖励模型)的效率和创新**,从而实现整体系统的性能飞跃。这为初创企业和中小团队提供了“以巧破力”的竞争机会,有助于构建更加多元、健康的产业生态。
迈向更普惠、更人性化的AI
POLAR的突破不仅具有技术和商业价值,更深远的意义在于其对AI伦理和社会影响的潜在贡献。让AI“更懂人类”,是构建AGI(通用人工智能)和确保AI有益于人类文明的关键。POLAR通过对“策略距离”的精细化建模,使得AI能够更准确地捕捉人类偏好中的细微差异和复杂性,而不仅仅是简单的黑白判断。这对于提升AI在开放、主观任务(如创意写作、情感交流、道德推理)中的表现至关重要 4。
批判性地看,自动化合成数据虽然解决了规模问题,但也需警惕其潜在的偏见放大问题。如果用于合成数据的初始模型或数据源本身存在偏差,那么即使是对比学习也可能无意中继承或强化这些偏见。因此,如何在自动化生产数据时融入多样性、公平性和代表性,将是未来需要深入探讨的伦理议题。然而,POLAR提供了一种无需大量人工干预的偏好学习机制,这为未来更复杂的AI伦理对齐提供了新的技术工具,例如,通过设计特定的策略模型来代表不同的伦理准则,从而让奖励模型学习不同价值观体系下的“最优策略”。
未来发展路径与潜在机遇
POLAR的Scaling Law效应揭示了一条明确的未来发展路径:通过持续增加计算资源和模型规模,POLAR有望发展成一个更通用、更强大的奖励模型。这为未来LLM的后训练提供了更多可能性,尤其是在RFT等强化学习框架下。
未来3-5年,我们可以预见:
- “奖励模型即服务”(RMaaS)的兴起:随着POLAR等高效奖励模型的普及,专门提供奖励模型API或服务将成为一个新兴的商业模式。企业无需自行训练复杂的RM,即可利用API进行高效的LLM对齐。
- 更精细化的用户意图理解:奖励模型的进步将使AI助手、聊天机器人等应用能够更精准地理解用户复杂、隐晦的需求和情感,提供更个性化、更具共情力的交互体验。
- 多模态对齐的加速:POLAR的对比学习范式和Scaling Law有望推广至多模态领域,解决视觉、音频等非文本模态与人类偏好的对齐问题,推动多模态AI的智能化水平。
- AI安全与可信性的新防线:一个能够精准判别“最优策略”的奖励模型,将成为构建更安全、更可信AI系统的基石。它有助于识别和避免有害、有偏见或不符合人类价值观的AI输出,为AI的安全对齐提供更强的技术保障 5。
POLAR的诞生,标志着奖励模型领域正式告别了野蛮生长的阶段,迈入了具备系统性预训练和可规模化扩展的新纪元。它不仅“打通了RL链路Scaling的最后一环”,更可能成为撬动通用人工智能实现路径的关键一子,最终推动AI更好地服务于人类文明进程。
引用
-
POLAR: Policy Discriminative Learning for Generalizable Reward Models·arXiv·Yi-Chen Zou et al. (2025/7/5)·检索日期2025/7/11 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
奖励模型首现Scaling Law,1.8B给70B巨兽上了一课-36氪·36氪·新智元 (2025/7/11)·检索日期2025/7/11 ↩︎
-
POLAR:重新定义奖励模型——基于策略判别器的通用奖励学习新范式·知乎专栏·上海人工智能实验室 (2025/7/11)·检索日期2025/7/11 ↩︎
-
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR - 新浪财经·新浪财经·新智元 (2025/7/10)·检索日期2025/7/11 ↩︎
-
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law - 新浪财经·新浪财经·新智元 (2025/7/11)·检索日期2025/7/11 ↩︎