AI-NEWS · 2026年 1月 21日

英伟达陷盗版书训练AI风波

NVIDIA 陷入版权风暴:被指控主动联系影子图书馆获取数百万盗版书籍训练AI

发布日期:2026年1月20日
来源:AIbase Daily

核心指控

全球芯片巨头英伟达(NVIDIA)近期因AI模型训练数据来源陷入法律纠纷。一份提交至加州法院的修订起诉书披露了惊人细节:NVIDIA被指控为在竞争中保持领先,主动联系全球知名盗版电子书网站Anna‘s Archive,以获取数百万本受版权保护的书籍

事件详情

  • 原告方:包括Abdi Nazemian在内的多位作者。
  • 关键证据:内部电子邮件显示,在2023年开发者大会的交付压力下,NVIDIA内部战略团队成员直接询问Anna‘s Archive能提供何种资源,并表示愿意将其纳入大语言模型进行预训练。
  • 指控内容:尽管被明确告知该网站馆藏为非法获取,NVIDIA管理层仍在一周内为项目开了绿灯,从而获得了约500TB的海量数据访问权限。
  • 其他数据源:诉状还指出,NVIDIA可能使用了其他“影子图书馆”的数据源,如LibGen、Sci-Hub和Z-Library。

侵权指控升级

原告方不仅指控NVIDIA在内部训练过程中违规,还指出NVIDIA向企业客户分发工具,帮助他们自动获取包含盗版作品的数据集,因此面临“替代侵权”和“共同侵权”的指控。NVIDIA此前曾试图以“合理使用”为由辩护,但随着内部邮件等关键证据的披露,案件目前更倾向于对版权持有者有利。

案件要点梳理

  1. 卷入集体诉讼:数位知名作者联合指控NVIDIA大规模使用盗版书籍训练其核心模型(如NeMo和Megatron)。
  2. 主动联系盗版源:内部邮件显示,NVIDIA主动联系Anna‘s Archive,甚至询问如何通过付费获得500TB数据的高速下载权限。
  3. 侵权指控升级:指控从内部训练侵权,扩展到通过提供自动化脚本间接助长盗版数据的二次传播。

行业背景关联

此案发生在全球AI竞争白热化、训练数据版权问题日益突出的背景下。与此同时,中国生成式AI领域的竞争已进入用户争夺新阶段,例如百度文心一言月活跃用户已突破2亿。全球AI服务器市场也预计在2026年迎来爆发,出货量预计同比增长28.3%,远高于整体服务器市场**12.8%**的增速,增长动力正从模型训练转向推理应用。

总结

NVIDIA此次诉讼的核心在于其被指控系统性、有意地使用盗版内容训练AI,且行为涉及从获取到分发的多个环节。此案结果可能对AI行业训练数据的合法获取边界产生深远影响。

火龙果频道