NVIDIA被指控秘密联系Anna's Archive获取盗版数据训练AI

发布日期：2026年1月20日 | 来源：AIbase Daily

核心指控

近期，英伟达（NVIDIA）在一项集体诉讼中被指控，曾直接联系知名盗版电子书库Anna's Archive，试图获取高达500TB的盗版电子书数据，用于其大语言模型的训练。此举引发了图书作者的强烈反对，他们认为英伟达的行为不仅侵犯版权，更显示出在竞争压力下采取的极端手段。

涉事方：Anna's Archive是一个知名的盗版电子书存储库，其数据来源被多次警告为非法获取。
内部证据：诉讼文件显示，数位图书作者引用了英伟达的内部通信记录，表明该公司曾试图与Anna's Archive合作，将这些盗版图书纳入其大语言模型的预训练数据中。
竞争背景：过去几年，英伟达不仅在显卡市场占据优势，也一直在训练自己的AI模型（如NeMo、Retro-48B）。为了追赶OpenAI的ChatGPT等竞争对手，英伟达急于在2023年秋季的开发者日上展示其最新大模型，据称为此选择了盗版资源作为“捷径”。
其他来源：作者方还透露，英伟达不仅联系了Anna's Archive，还从其他盗版网站如LibGen、Sci-Hub和Z-Library下载书籍。

科技界将持续关注此案的进展，观察这场AI发展与版权保护之间的博弈将如何演变。

（本文信息整理自AIbase Daily报道，已移除无关的导航、广告及推荐内容。）