AI-NEWS · 2025年 12月 19日

Adobe涉盗版训练AI惹争议

Adobe因使用盗版书籍训练AI模型遭起诉，SlimLM卷入版权争议

事件概述

近日，美国俄勒冈州作家伊丽莎白·里昂（Elizabeth Lyon）对Adobe公司提起集体诉讼，指控其在训练一款名为SlimLM的小型语言模型时，使用了一个包含其盗版作品的非法数据集。

核心指控与涉事模型

原告：伊丽莎白·里昂，多部非虚构写作指南的作者。
被告：Adobe公司。
涉事模型：SlimLM，这是Adobe推出的一系列轻量级语言模型，专为移动设备上的文档辅助任务（如摘要、重写、问答）进行优化。
关键指控：Adobe未经授权、未署名且未支付费用，使用里昂的受版权保护文本进行商业AI产品开发，侵犯了版权法赋予作者的专有权利。

争议数据集的来源链条

Adobe声称SlimLM是在SlimPajama-627B数据集上预训练的。该数据集由AI芯片公司Cerebras于2023年6月发布，被描述为一个公开、去重、多来源的语料库。

然而，诉讼指出：

SlimPajama 实际上是 RedPajama 数据集的衍生版本。
RedPajama 直接复制了臭名昭著的 Books3 数据集。
Books3 数据集包含了约 19.1万本 受版权保护的书籍，长期以来被指控大量收录了来自盗版网站（如The Bibliotik）的资源。

因此，诉状强调：“由于SlimPajama是RedPajama的衍生品，它包含了来自Books3的内容，其中包括原告及集体成员的受版权作品。”

行业背景：AI训练数据的版权“雷区”

此案并非孤立事件。随着生成式AI日益依赖海量文本数据，训练数据的合法性已从道德争议演变为法律“雷区”。Books3和RedPajama已成为多起AI版权诉讼的焦点：

时间	涉事公司	事件概要
2024年9月	苹果（Apple）	因使用Books3训练其“Apple Intelligence”而遭起诉。
2024年9月	Anthropic	就类似指控与作家团体达成15亿美元的和解，被视为AI版权案的里程碑。
2024年10月	Salesforce	被指控依赖RedPajama训练其AI系统。

案件影响与行业困境

行业普遍困境：此案凸显了全行业面临的一个难题——即使使用声称“开源”的数据集，如果其上游来源包含侵权内容，下游开发者仍可能承担连带责任。
对Adobe的影响：在Anthropic巨额和解案的阴影下，Adobe如何应对此案，可能影响整个AI行业对训练数据溯源和合规审查的重视程度。
对创作者的意义：对于内容创作者而言，此案不仅关乎权益保护，更是对 “AI时代创作价值归属谁” 这一关键问题的一次确认。

发布日期：2024年12月18日
信息来源：AIbase Daily

火龙果频道

您可能还喜欢...