当AI“一字不差”背诵原作:版权法庭上的胜利与隐忧

温故智新AIGC实验室

近期针对大型语言模型训练数据的版权诉讼,表面上以AI公司的胜利告终,但法官判词中的细微之处,揭示了这场法律博弈远未结束的复杂性。尤其当AI被证实能够“一字不差”地复现受版权保护的文本时,未来的侵权风险和创作者市场的结构性变化,将是行业必须直面的深刻挑战。

在人工智能技术飞速发展的当下,其与既有法律框架,特别是版权法之间的冲突,正日益成为全球关注的焦点。一系列围绕AI训练数据合法性的诉讼,如迪士尼与环球影业起诉Midjourney,以及Getty Images指控Stability AI侵权等,将“用于训练模型的海量数据是否构成‘赃物’”这一核心问题推向风口浪尖。近期,Anthropic和Meta在几桩备受瞩目的版权官司中获得了看似决定性的胜利,然而,细致审视法官的判词,不难发现这场胜利背后,隐藏着错综复杂的法律伏笔与技术深层影响。

训练与输出:模糊的界限与法律的预警

表面上看,作家们指控Anthropic和Meta使用其受版权保护的书籍训练大模型构成盗窃,而AI公司则以“变革性使用”(transformative use)为由,主张这属于法律允许的“合理使用”(fair use)。法官们采纳了AI公司的辩护,认为模型训练与直接复制售卖书籍性质不同,具有“变革性”,且原告未能证明其实际损失。这使得新闻头条普遍宣告AI公司“胜诉”。

然而,真正的玄机恰恰在于判决书的细节。在Meta的案件中,Chhabria法官毫不掩饰地批评了原告的诉讼策略,直言他们的“问题问错了,证据也拿错了”。他明确指出:“判决并不意味着Meta的行为就合法了,只是因为这批原告没能说服我。” 这种近乎“诉讼指南”式的评论,无疑在提醒版权方,下次若有更懂行的原告带着更有力的证据,结果或将截然不同。

与此同时,审理Anthropic案的Alsup法官则对训练数据来源的“原罪”问题深感忧虑。他强调,尽管AI公司辩称是“学习”,但如果训练数据来自盗版网站,这种非法获取行为就无法轻易被“合理使用”的盾牌所掩盖。他警告道:“你们明明有合法渠道,却偏要走捷径,用非法手段获取的东西,别指望能用‘合理使用’这块挡箭牌来洗白。” 这番话无疑在AI公司看似坚固的胜利堡垒上预埋了一颗定时炸弹,意味着历史遗留的训练数据来源问题,随时可能被翻旧账。1

AI的“记忆”与潜在的“盗版”输出

这两场官司巧妙地绕开了一个更具爆炸性的问题:AI“说”出来的话,算不算侵权? 训练过程可以被解释为“学习”,但如果AI的输出直接复制了原作内容,性质便会截然不同。近期的一项研究揭示了一个令人不安的事实:Meta的大模型记住了《哈利·波特与魔法石》超过40%的原文。这意味着,AI不再仅仅是一个“学生”,它可能成为一个“藏着海量盗版书的移动硬盘”。12

Alsup法官对此也划下了明确的红线:“如果AI的输出内容直接抄袭了原作,那就是另一回事了。版权方完全可以拿着这些证据,再告一次,而且胜算会大得多。” 这句话为未来的诉讼指明了方向。当AI模型的“记忆”能力变得如此强大,以至于能够精确复现受版权保护的内容时,其输出便从“变革性”学习的产物,转变为直接的复制品,这将彻底颠覆现有“合理使用”的辩护逻辑。

产业格局与未来博弈

这次看似的胜利,对于大型科技公司如Meta和OpenAI而言,更像是一次宝贵的时间窗口。这些拥有雄厚财力和顶尖律师团队的巨头,已经开始积极地与各大媒体和出版商签署授权协议,将版权问题从一个不确定的法律风险,逐渐转化为可计算的商业成本。这意味着,他们在短期内可以通过支付高昂的授权费用,获取合法数据以规避潜在的侵权风险,从而保持其在AI技术竞赛中的领先地位。

然而,对于那些规模较小、严重依赖开源数据或缺乏谈判议价能力的新兴AI公司而言,警报远未解除。他们没有雄厚的资本去支付天价的授权费,也经不起漫长的官司消耗。一旦版权的“清算”全面开始,特别是当法律焦点转向AI输出内容的直接侵权时,这些小型参与者很可能成为第一批倒下的牺牲品,从而加剧AI产业的集中化趋势。

而对于广大的内容创作者,如作家、艺术家和设计师而言,局面则更为复杂。一方面,他们或许有机会通过与AI公司的授权协议获得新的收入来源,但另一方面,一个被生成式AI内容冲击得七零八落的市场,其整体价值能否维持,这笔授权费能否弥补原创内容价值的结构性贬值,仍然是一个悬而未决的问题。

说到底,这两场官司并没有提供最终的答案,反而让关于AI版权的深层问题变得更加具体、更加棘手。这场围绕数据、创意与AI的博弈,并未因几次判决而终结,它只是从法庭上的唇枪舌剑,延伸到了谈判桌前的真金白银的较量。这预示着,未来几年内,我们仍将见证版权法在数字时代,特别是AI时代,如何重新定义知识产权的边界,以及它将如何塑造人类创造力与机器智能共存的全新生态。

引用


  1. AI一字不差背诵《哈利·波特》,居然不算盗版?地表最强法务迪士尼这次遇到对手了·APPSO·发现明日产品的(2025/6/30)·检索日期2025/6/30 ↩︎ ↩︎

  2. AI一字不差背诵《哈利·波特》,居然不算盗版?地表最强法务迪士尼这次遇到对手了-36氪·36氪·爱范儿(2025/6/27)·检索日期2025/6/30 ↩︎