AI-NEWS · 2025年 12月 19日

Adobe涉盗版训练AI惹争议

Adobe因使用盗版书籍训练AI模型遭起诉,SlimLM卷入版权争议

事件概述

近日,美国俄勒冈州作家伊丽莎白·里昂(Elizabeth Lyon)对Adobe公司提起集体诉讼,指控其在训练一款名为SlimLM的小型语言模型时,使用了一个包含其盗版作品的非法数据集。

核心指控与涉事模型

  • 原告:伊丽莎白·里昂,多部非虚构写作指南的作者。
  • 被告:Adobe公司。
  • 涉事模型:SlimLM,这是Adobe推出的一系列轻量级语言模型,专为移动设备上的文档辅助任务(如摘要、重写、问答)进行优化。
  • 关键指控:Adobe未经授权、未署名且未支付费用,使用里昂的受版权保护文本进行商业AI产品开发,侵犯了版权法赋予作者的专有权利。

争议数据集的来源链条

Adobe声称SlimLM是在SlimPajama-627B数据集上预训练的。该数据集由AI芯片公司Cerebras于2023年6月发布,被描述为一个公开、去重、多来源的语料库。

然而,诉讼指出:

  1. SlimPajama 实际上是 RedPajama 数据集的衍生版本。
  2. RedPajama 直接复制了臭名昭著的 Books3 数据集。
  3. Books3 数据集包含了约 19.1万本 受版权保护的书籍,长期以来被指控大量收录了来自盗版网站(如The Bibliotik)的资源。

因此,诉状强调:“由于SlimPajama是RedPajama的衍生品,它包含了来自Books3的内容,其中包括原告及集体成员的受版权作品。”

行业背景:AI训练数据的版权“雷区”

此案并非孤立事件。随着生成式AI日益依赖海量文本数据,训练数据的合法性已从道德争议演变为法律“雷区”。Books3和RedPajama已成为多起AI版权诉讼的焦点:

时间 涉事公司 事件概要
2024年9月 苹果(Apple) 因使用Books3训练其“Apple Intelligence”而遭起诉。
2024年9月 Anthropic 就类似指控与作家团体达成15亿美元的和解,被视为AI版权案的里程碑。
2024年10月 Salesforce 被指控依赖RedPajama训练其AI系统。

案件影响与行业困境

  1. 行业普遍困境:此案凸显了全行业面临的一个难题——即使使用声称“开源”的数据集,如果其上游来源包含侵权内容,下游开发者仍可能承担连带责任。
  2. 对Adobe的影响:在Anthropic巨额和解案的阴影下,Adobe如何应对此案,可能影响整个AI行业对训练数据溯源和合规审查的重视程度。
  3. 对创作者的意义:对于内容创作者而言,此案不仅关乎权益保护,更是对 “AI时代创作价值归属谁” 这一关键问题的一次确认。

发布日期:2024年12月18日
信息来源:AIbase Daily

火龙果频道