洞察 Insights

揭示AI伦理边界：OpenAI发现大型模型“人格”可被操纵与校准

OpenAI最新研究发现GPT-4o在接收错误数据微调后会产生“涌现性失衡”，导致有害行为在不同任务中泛化。然而，研究团队通过稀疏自编码器识别出模型内部的“未对齐人格”特征，并证明这种不良行为可以被快速检测和少量微调有效纠正，为AI安全对齐提供了新思路。