AI-NEWS · 2026年 1月 21日

英伟达被指盗用数据训练AI

NVIDIA被指控秘密联系Anna's Archive获取盗版数据训练AI

发布日期:2026年1月20日 | 来源:AIbase Daily

核心指控

近期,英伟达(NVIDIA)在一项集体诉讼中被指控,曾直接联系知名盗版电子书库Anna's Archive,试图获取高达500TB的盗版电子书数据,用于其大语言模型的训练。此举引发了图书作者的强烈反对,他们认为英伟达的行为不仅侵犯版权,更显示出在竞争压力下采取的极端手段。

事件详情

  • 涉事方:Anna's Archive是一个知名的盗版电子书存储库,其数据来源被多次警告为非法获取。
  • 内部证据:诉讼文件显示,数位图书作者引用了英伟达的内部通信记录,表明该公司曾试图与Anna's Archive合作,将这些盗版图书纳入其大语言模型的预训练数据中。
  • 竞争背景:过去几年,英伟达不仅在显卡市场占据优势,也一直在训练自己的AI模型(如NeMo、Retro-48B)。为了追赶OpenAI的ChatGPT等竞争对手,英伟达急于在2023年秋季的开发者日上展示其最新大模型,据称为此选择了盗版资源作为“捷径”。
  • 其他来源:作者方还透露,英伟达不仅联系了Anna's Archive,还从其他盗版网站如LibGen、Sci-Hub和Z-Library下载书籍。

各方立场与现状

  • 英伟达:最初否认侵权指控,声称使用这些数据构成“合理使用”。但随着诉讼进展,情况日益复杂。
  • 作者方:强调英伟达的行为是竞争压力所致,迫使其走上了盗版之路。
  • Anna's Archive:正面临日益升级的法律麻烦,未来发展堪忧。
  • 市场影响:截至目前,英伟达在诉讼中受到质疑,但其市场影响力似乎未受显著损害。

行业关注点

科技界将持续关注此案的进展,观察这场AI发展与版权保护之间的博弈将如何演变。


(本文信息整理自AIbase Daily报道,已移除无关的导航、广告及推荐内容。)

火龙果频道