AI-NEWS · 2025年 1月 10日

Meta涉嫌版权侵权训练AI

Meta面临版权侵权诉讼

Meta正面临着一起涉及其使用盗版电子书和文章数据集来训练Llama AI模型的版权侵权诉讼。原告律师声称,Meta CEO马克·扎克伯格批准了这一行为。

关键点总结

  1. 指控细节

    • 扎克伯格在去年年底承认批准了使用名为LibGen的数据集进行Llama相关培训。
    • LibGen是一个提供大量受版权保护的学术出版物的“链接聚合器”,尽管面临多起诉讼和禁令,它仍继续提供来自主要出版商的内容。
  2. 内部认知

    • Meta的一些员工承认LibGen是“已知的盗版数据集”,使用该数据可能会对与监管机构谈判产生负面影响。
  3. 技术违规行为

    • Meta工程师尼古拉伊·巴什利科夫被指控编写脚本去除LibGen电子书中的版权信息。
    • 公司还涉嫌从科学期刊文章中移除版权声明和源元数据,以掩盖侵权行为。
  4. 分发问题

    • 据称Meta通过种子下载(Torrenting)方式获取LibGen内容,并协助分发这些盗版文件。尽管工程师们对这种行动的合法性表示疑虑,但该做法在AI生成负责人阿赫迈德·阿尔-达勒的支持下继续进行。

相关背景

  • 《纽约时报》去年四月的一篇报道指出,Meta为了加速AI数据收集过程而采取了一些捷径。
  • Meta高层认为谈判版权许可耗时过长,并主要依靠公平使用原则作为辩护依据。

案件进展与影响

  1. 案件状态

    • 目前该诉讼尚未得出结论,且仅涉及早期的Llama模型。尽管2023年法院驳回了几起与AI相关的版权诉讼,但本案件中的指控仍可能对Meta造成负面影响。
  2. 法官观点

    • 首席法官文斯·查布里亚拒绝了Meta要求驳回大部分文件的请求,指出删除这些文档显然是为了避免负面报道而非保护敏感信息。

行业讨论

此案例将引发更广泛的关于科技公司如何利用受版权保护的作品来训练AI模型的讨论,特别是在公平使用和版权保护之间的界限问题上。

Source:https://www.aibase.com/news/14605