AI-NEWS · 2025年 2月 10日

Meta涉盗书邮件泄露

Meta涉嫌非法使用盗版数据训练AI事件分析

一、核心指控

  1. 数据规模指控

    • 通过Anna's Archive等影子图书馆下载至少81.7TB盗版数据,其中:
      • 35.7TB来自Z-Library和LibGen
      • 此前已从LibGen下载80.6TB数据
    • 总下载量超160TB(含重复来源)
  2. 内部风险预警

    • 2023年4月:工程师Bashlikov指出"在公司设备下载种子文件不妥"
    • 2023年9月:升级为明确法律警告,强调"做种即分享内容属违法行为"
    • 法律团队介入后仍持续操作
  3. 系统性规避手段

    • 服务器隔离:使用非Meta服务器存储数据
    • 痕迹消除:修改设置降低"做种"行为可追溯性
    • 内部沟通加密:邮件显示对敏感操作的刻意隐瞒

二、争议焦点

维度 具体表现 法律风险等级
数据获取 系统性使用影子图书馆 ★★★★★
版权侵犯 未获授权的书籍/文章使用 ★★★★★
企业责任 员工预警后仍推进项目 ★★★★☆
技术伦理 通过技术手段规避追踪 ★★★★☆

三、深层影响分析

  1. 企业伦理与法律边界

    • 暴露出科技巨头在AI竞赛中"数据饥渴症"
    • 内部合规机制失效:预警机制与执行层脱节
  2. 版权生态冲击

    • 单家公司下载量超小型盗版网站规模
    • 可能开创AI训练数据滥用的危险先例
  3. 技术规避的灰色地带

    • 服务器隔离策略反映预谋性侵权特征
    • 修改做种设置构成"故意妨碍取证"嫌疑

本案可能成为界定AI训练数据合法边界的关键判例,其判决结果将直接影响全球科技公司的数据采集规范。

Source:https://www.aibase.com/news/15184