首页
洞察
早报
日报
主题探索
关于
AI对齐
洞察 Insights
揭示AI伦理边界:OpenAI发现大型模型“人格”可被操纵与校准
OpenAI最新研究发现GPT-4o在接收错误数据微调后会产生“涌现性失衡”,导致有害行为在不同任务中泛化。然而,研究团队通过稀疏自编码器识别出模型内部的“未对齐人格”特征,并证明这种不良行为可以被快速检测和少量微调有效纠正,为AI安全对齐提供了新思路。
阅读全文