人工智能“偷师”YouTube,苹果、英伟达、Anthropic卷入争议
主要内容
-
争议背景:
- 科技巨头如苹果、英伟达、Anthropic和Salesforce使用了来自173,536个YouTube视频的字幕数据来训练AI模型。这些视频来自超过48,000个频道。
- YouTube明确禁止未经许可抓取其平台材料。
-
受影响的频道和视频:
- 包括教育和在线学习频道如Khan Academy、MIT和哈佛的视频字幕,以及华尔街日报、NPR和BBC等媒体的视频被用于训练。
- 著名YouTuber如MrBeast、Marques Brownlee、Jacksepticeye和PewDiePie的视频也被用于训练AI。
-
创作者的反应:
- 创作者如《David Pakman Show》的主持人David Pakman对未获授权使用其视频表示愤怒,并认为应得到补偿。
- Nebula的CEO Dave Wiskus直言这是盗窃行为。
-
数据集的重要性:
- AI公司通过获取高质量的数据来竞争,YouTube Subtitles和其他类型的语音转文本数据是潜在的“金矿”。
- 谷歌(拥有YouTube)也被指使用平台视频文本来训练模型,但声称经过了创作者同意。
-
法律和伦理问题:
- 涉及版权和伦理的争议,许多创作者担心他们的工作被用于训练AI,可能会取代他们的工作。
- 一些创作者已经开始监控并提交删除通知,以防止未经授权使用他们的作品。
-
未来的不确定性:
- 全职YouTuber担心AI生成类似内容,甚至复制他们的作品。
- AI技术的发展导致假视频泛滥,例如Pakman发现一个模仿他声音和剧本的假视频。
-
GitHub代码与法律漏洞:
- EleutherAI的联合创始人Sid Black创建了一个脚本,通过495个搜索词收集了大量YouTube字幕数据。
- 尽管YouTube服务条款禁止自动化手段访问其视频,但该脚本仍在GitHub上被超过2000名用户收藏或认可。
-
官方回应:
- Google发言人Jack Malon表示,公司采取措施防止滥用和未经授权的抓取,但未回应其他公司使用这些材料的问题。
-
特殊案例:
- 《Einstein Parrot》频道的视频也被用于训练AI,鹦鹉的看护人Marcia对AI模仿鹦鹉的行为感到困扰,担心未知方式使用这些数据。
总结
科技巨头未经许可使用YouTube视频字幕数据训练AI模型,引发版权和伦理争议。创作者们要求补偿,并对未来AI可能取代他们的工作表达担忧。尽管有防止滥用的措施,一些脚本仍能抓取数据,相关法律和伦理问题亟待解决。