大语言模型的“遗忘”并非简单的信息删除,而是其内部表示结构发生变化的体现。一项开创性研究首次系统性地区分了“可逆性遗忘”与“不可逆性遗忘”,揭示了真正的遗忘在于结构性抹除,而非仅仅是行为上的抑制,这为未来构建更安全、更可控的AI模型提供了关键工具与深刻洞察。
在人工智能能力不断突破边界的当下,大语言模型(LLMs)所带来的隐私与数据治理挑战日益凸显。当模型“记住”了训练数据中的敏感信息,并可能在推理时无意中暴露,如何让这些强大的系统有选择地“忘记”特定知识,成为了一个迫切的、横亘在技术前沿与伦理边界之间的难题。**机器遗忘(Machine Unlearning)**技术应运而生,旨在实现高效且精确的信息抹除,同时不损及模型的整体能力。然而,一个长久以来被忽视的深刻问题是:当前依赖于token级别表现(如准确率、困惑度)的评估方法,真的足以证明模型已经“遗忘”了吗?
最近,由香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究人员组成的团队,在这一领域取得了突破性进展。他们首次深入剖析了LLM遗忘现象背后更为根本的表示结构变化规律,并构建了一套强大的表示空间诊断工具。这项研究不仅区分了**“可逆性遗忘”与“灾难性不可逆遗忘”的本质差异**,更揭示了模型“遗忘”的真正核心在于其内部结构的重塑,而非仅仅是表层行为的抑制12。
深入理解“机器遗忘”:表象与本质
长期以来,对机器遗忘的理解往往停留在模型输出行为的变化上——例如,模型不再能准确回答某个特定问题,或者不再生成包含敏感信息的文本。但这项研究的核心洞察挑战了这种表层观念。研究人员明确指出:“一个模型若仅仅在token输出上‘忘记’,而其内部结构几乎未变,那它随时可以恢复原样。”1
这意味着,传统的“遗忘”可能只是行为上的抑制,而非真正的知识清除。例如,在某些情况下,尽管模型在遗忘特定数据后表现出准确率急剧下降,但一旦通过“重学习”(Relearning)机制,其性能又能迅速恢复,这表明模型内部的知识表征并未被彻底抹除,而只是被暂时“抑制”或“隐藏”起来。研究团队将此定义为**“可逆性遗忘”**。
与之相对的是**“不可逆性遗忘”**。在这种场景下,模型不仅行为表现下降,其内部的表示结构也发生了严重扰动,即使进行重训练也难以恢复原始状态。这才是真正的、结构性的抹除。理解这两种遗忘的本质差异,对于构建可靠的机器遗忘系统至关重要,尤其是在涉及隐私保护和安全性的应用中。
揭示遗忘的深层机制:表示空间诊断
为了系统性地探究大模型在遗忘过程中的内在变化,研究团队开发了一个统一的表示层分析工具箱,其核心组件包括:
- PCA 相似度与偏移 (PCA Similarity & Shift):通过主成分分析(PCA),研究人员能够追踪模型表示空间的主要方向变化和数据分布中心的偏移程度。实验表明,对于可逆性遗忘,模型的表示空间在重学习后能够高度恢复到原始主方向,而不可逆性遗忘则导致表示方向的广泛漂移和数据分布的大尺度空间位移,难以还原。
- CKA (Centred Kernel Alignment):这是一种衡量不同层之间表示空间结构相似性的工具。研究发现,在可逆性遗忘场景下,模型的层间结构几乎未受破坏,而不可逆性遗忘则导致CKA值迅速退化,显示出模型内部结构被严重破坏,层与层之间的信息关联性大幅降低。
- Fisher 信息矩阵 (FIM):FIM从参数空间的角度提供了关于模型重要参数扰动程度的视角。通过分析特定层(如Layer 31)的Fisher分布,研究人员得以洞察模型遗忘过程中哪些关键参数发生了不可逆的变化,从而进一步验证了“结构性抹除”的理论。
研究团队在多种遗忘方法(如GA、NPO、RLabel、GA+KL)、不同数据集(arXiv、GitHub、NuminaMath)和多种模型(Yi-6B、Qwen-2.5-7B)上进行了全面且深入的实证分析。实验结果清晰地表明,仅凭诸如成员推理攻击(MIA)成功率、遗忘样本准确率(F.Acc)和保留样本准确率(R.Acc)等表层指标,远不足以揭示模型遗忘的深层机制1。在更复杂的推理任务(如MATH和GSM8K)上,即便任务复杂度提高,仍能观察到“受控重学习”在可逆场景下能带来准确率恢复,甚至有时超越初始性能,这提示了遗忘过程可能带来意想不到的“隐式增强效果”,例如作为一种对比式正则化或课程学习。
伦理、治理与AI的“记忆”未来
这项研究的发现,对于AI伦理、数据隐私和模型治理具有深远影响。如果模型在表面上“遗忘”了数据,但其核心结构并未改变,那么这种“伪遗忘”将构成重大的隐私与安全隐患。用户或监管机构所要求的“被遗忘权”将难以真正落实,因为敏感信息可能随时通过重学习或其他方式被“召回”。
此项工作为我们提供了一套前所未有的工具,以诊断和理解大模型的遗忘行为。它不仅能够揭示模型是否真正“忘记”,甚至可以定位破坏发生的位置。这为未来设计**“可控、局部、不可逆”**的安全遗忘机制奠定了坚实基础。这意味着,研究人员和开发者将能够更精确地构建机器遗忘算法,确保数据从模型中真正被清除,而不是仅仅被抑制。
然而,挑战依然存在。如何将这些表示层诊断工具从研究实验室推广到实际的生产环境,如何在保证遗忘彻底性的同时,最大限度地减少对模型其他能力的损害,以及如何在海量复杂数据中实现高效的“局部遗忘”,都将是未来机器遗忘领域需要持续攻克的难题。这项研究无疑是朝着构建更负责任、更可信赖的人工智能迈出的重要一步,它迫使我们重新思考:机器的“记忆”究竟意味着什么,以及我们如何才能真正掌控它。
References
-
新智元(2025/6/16)。模型遗忘不代表记忆抹除,首次系统发现「可逆性遗忘」背后规律。新智元。检索日期2025/6/16。 ↩︎ ↩︎ ↩︎
-
36氪(2025/6/16)。模型遗忘不代表记忆抹除,首次系统发现「可逆性遗忘」背后规律。36氪。检索日期2025/6/16。 ↩︎