NVIDIA 陷入版权风暴：被指控主动联系影子图书馆获取数百万盗版书籍训练AI

发布日期：2026年1月20日
来源：AIbase Daily

核心指控

全球芯片巨头英伟达（NVIDIA）近期因AI模型训练数据来源陷入法律纠纷。一份提交至加州法院的修订起诉书披露了惊人细节：NVIDIA被指控为在竞争中保持领先，主动联系全球知名盗版电子书网站Anna‘s Archive，以获取数百万本受版权保护的书籍。

事件详情

原告方：包括Abdi Nazemian在内的多位作者。
关键证据：内部电子邮件显示，在2023年开发者大会的交付压力下，NVIDIA内部战略团队成员直接询问Anna‘s Archive能提供何种资源，并表示愿意将其纳入大语言模型进行预训练。
指控内容：尽管被明确告知该网站馆藏为非法获取，NVIDIA管理层仍在一周内为项目开了绿灯，从而获得了约500TB的海量数据访问权限。
其他数据源：诉状还指出，NVIDIA可能使用了其他“影子图书馆”的数据源，如LibGen、Sci-Hub和Z-Library。

侵权指控升级

原告方不仅指控NVIDIA在内部训练过程中违规，还指出NVIDIA向企业客户分发工具，帮助他们自动获取包含盗版作品的数据集，因此面临“替代侵权”和“共同侵权”的指控。NVIDIA此前曾试图以“合理使用”为由辩护，但随着内部邮件等关键证据的披露，案件目前更倾向于对版权持有者有利。

案件要点梳理

卷入集体诉讼：数位知名作者联合指控NVIDIA大规模使用盗版书籍训练其核心模型（如NeMo和Megatron）。
主动联系盗版源：内部邮件显示，NVIDIA主动联系Anna‘s Archive，甚至询问如何通过付费获得500TB数据的高速下载权限。
侵权指控升级：指控从内部训练侵权，扩展到通过提供自动化脚本间接助长盗版数据的二次传播。

行业背景关联

此案发生在全球AI竞争白热化、训练数据版权问题日益突出的背景下。与此同时，中国生成式AI领域的竞争已进入用户争夺新阶段，例如百度文心一言月活跃用户已突破2亿。全球AI服务器市场也预计在2026年迎来爆发，出货量预计同比增长28.3%，远高于整体服务器市场**12.8%**的增速，增长动力正从模型训练转向推理应用。

总结

NVIDIA此次诉讼的核心在于其被指控系统性、有意地使用盗版内容训练AI，且行为涉及从获取到分发的多个环节。此案结果可能对AI行业训练数据的合法获取边界产生深远影响。

火龙果频道

近期新闻

AI-NEWS · 2026年 1月 21日

英伟达陷盗版书训练AI风波

NVIDIA 陷入版权风暴：被指控主动联系影子图书馆获取数百万盗版书籍训练AI

核心指控

事件详情

侵权指控升级

案件要点梳理

行业背景关联

总结

您可能还喜欢...

AI-NEWS · 2026年 1月 21日

NVIDIA 陷入版权风暴：被指控主动联系影子图书馆获取数百万盗版书籍训练AI

核心指控

事件详情

侵权指控升级

案件要点梳理

行业背景关联

总结

您可能还喜欢...

NVIDIA AI Small Model Controls Humanoid Robots, 1.5M Parameters Outperform Professional Systems

Qwen秒辨50情绪

京东发布JoyAI大模型