人工智能“偷师”YouTube，苹果、英伟达、Anthropic卷入争议

主要内容

争议背景：
- 科技巨头如苹果、英伟达、Anthropic和Salesforce使用了来自173,536个YouTube视频的字幕数据来训练AI模型。这些视频来自超过48,000个频道。
- YouTube明确禁止未经许可抓取其平台材料。
受影响的频道和视频：
- 包括教育和在线学习频道如Khan Academy、MIT和哈佛的视频字幕，以及华尔街日报、NPR和BBC等媒体的视频被用于训练。
- 著名YouTuber如MrBeast、Marques Brownlee、Jacksepticeye和PewDiePie的视频也被用于训练AI。
创作者的反应：
- 创作者如《David Pakman Show》的主持人David Pakman对未获授权使用其视频表示愤怒，并认为应得到补偿。
- Nebula的CEO Dave Wiskus直言这是盗窃行为。
数据集的重要性：
- AI公司通过获取高质量的数据来竞争，YouTube Subtitles和其他类型的语音转文本数据是潜在的“金矿”。
- 谷歌（拥有YouTube）也被指使用平台视频文本来训练模型，但声称经过了创作者同意。
法律和伦理问题：
- 涉及版权和伦理的争议，许多创作者担心他们的工作被用于训练AI，可能会取代他们的工作。
- 一些创作者已经开始监控并提交删除通知，以防止未经授权使用他们的作品。
未来的不确定性：
- 全职YouTuber担心AI生成类似内容，甚至复制他们的作品。
- AI技术的发展导致假视频泛滥，例如Pakman发现一个模仿他声音和剧本的假视频。
GitHub代码与法律漏洞：
- EleutherAI的联合创始人Sid Black创建了一个脚本，通过495个搜索词收集了大量YouTube字幕数据。
- 尽管YouTube服务条款禁止自动化手段访问其视频，但该脚本仍在GitHub上被超过2000名用户收藏或认可。
官方回应：
- Google发言人Jack Malon表示，公司采取措施防止滥用和未经授权的抓取，但未回应其他公司使用这些材料的问题。
特殊案例：
- 《Einstein Parrot》频道的视频也被用于训练AI，鹦鹉的看护人Marcia对AI模仿鹦鹉的行为感到困扰，担心未知方式使用这些数据。

总结

科技巨头未经许可使用YouTube视频字幕数据训练AI模型，引发版权和伦理争议。创作者们要求补偿，并对未来AI可能取代他们的工作表达担忧。尽管有防止滥用的措施，一些脚本仍能抓取数据，相关法律和伦理问题亟待解决。

Source:https://www.aibase.com/news/10298

近期新闻

AI-NEWS · 2024年 7月 18日

人工智能“偷师”YouTube，苹果、英伟达、Anthropic卷入争议

人工智能“偷师”YouTube，苹果、英伟达、Anthropic卷入争议

主要内容

总结

您可能还喜欢...

AI-NEWS · 2024年 7月 18日

人工智能“偷师”YouTube，苹果、英伟达、Anthropic卷入争议

主要内容

总结

您可能还喜欢...

小米大模型入选双顶会

马斯克发布Grok 1.0

Pika推出AI视频特效