AI-NEWS · 2024年 7月 18日

人工智能“偷师”YouTube,苹果、英伟达、Anthropic卷入争议

人工智能“偷师”YouTube,苹果、英伟达、Anthropic卷入争议

主要内容

  1. 争议背景

    • 科技巨头如苹果、英伟达、Anthropic和Salesforce使用了来自173,536个YouTube视频的字幕数据来训练AI模型。这些视频来自超过48,000个频道。
    • YouTube明确禁止未经许可抓取其平台材料。
  2. 受影响的频道和视频

    • 包括教育和在线学习频道如Khan Academy、MIT和哈佛的视频字幕,以及华尔街日报、NPR和BBC等媒体的视频被用于训练。
    • 著名YouTuber如MrBeast、Marques Brownlee、Jacksepticeye和PewDiePie的视频也被用于训练AI。
  3. 创作者的反应

    • 创作者如《David Pakman Show》的主持人David Pakman对未获授权使用其视频表示愤怒,并认为应得到补偿。
    • Nebula的CEO Dave Wiskus直言这是盗窃行为。
  4. 数据集的重要性

    • AI公司通过获取高质量的数据来竞争,YouTube Subtitles和其他类型的语音转文本数据是潜在的“金矿”。
    • 谷歌(拥有YouTube)也被指使用平台视频文本来训练模型,但声称经过了创作者同意。
  5. 法律和伦理问题

    • 涉及版权和伦理的争议,许多创作者担心他们的工作被用于训练AI,可能会取代他们的工作。
    • 一些创作者已经开始监控并提交删除通知,以防止未经授权使用他们的作品。
  6. 未来的不确定性

    • 全职YouTuber担心AI生成类似内容,甚至复制他们的作品。
    • AI技术的发展导致假视频泛滥,例如Pakman发现一个模仿他声音和剧本的假视频。
  7. GitHub代码与法律漏洞

    • EleutherAI的联合创始人Sid Black创建了一个脚本,通过495个搜索词收集了大量YouTube字幕数据。
    • 尽管YouTube服务条款禁止自动化手段访问其视频,但该脚本仍在GitHub上被超过2000名用户收藏或认可。
  8. 官方回应

    • Google发言人Jack Malon表示,公司采取措施防止滥用和未经授权的抓取,但未回应其他公司使用这些材料的问题。
  9. 特殊案例

    • 《Einstein Parrot》频道的视频也被用于训练AI,鹦鹉的看护人Marcia对AI模仿鹦鹉的行为感到困扰,担心未知方式使用这些数据。

总结

科技巨头未经许可使用YouTube视频字幕数据训练AI模型,引发版权和伦理争议。创作者们要求补偿,并对未来AI可能取代他们的工作表达担忧。尽管有防止滥用的措施,一些脚本仍能抓取数据,相关法律和伦理问题亟待解决。

Source:https://www.aibase.com/news/10298