首页
洞察
早报
日报
主题探索
关于
缩放法则
洞察 Insights
POLAR:奖励模型迈入可扩展时代,AI对齐不再是“奢侈品”
上海人工智能实验室和复旦大学推出的POLAR奖励模型,通过对比学习预训练范式首次在奖励模型领域展现了“缩放法则”,大幅降低了对人工标注数据的依赖。该模型以小参数量超越了大型竞争对手,不仅为大模型高效对齐人类偏好开辟了新路径,更预示着AI对齐技术将走向可规模化和普惠化的新时代。
阅读全文