归纳总结
事件背景
- 一项调查显示,包括苹果在内的多家科技巨头使用YouTube视频字幕数据训练AI模型。
- 数据覆盖超过170,000个视频,涉及知名创作者如MKBHD和Mr. Beast。
苹果公司回应
- 苹果澄清其开源模型OpenELM未用于任何AI或机器学习功能,包括Apple Intelligence。
- 强调OpenELM仅用于研究目的,并发布于今年4月,以推动开源大语言模型的发展。
- OpenELM以开源形式发布,可在苹果的机器学习研究网站上获取。
声明细节
- 苹果表示Apple Intelligence模型是在授权数据上训练的,包括特定功能选择的数据和通过网络爬虫收集的公开数据。
- 苹果目前没有计划开发OpenELM的新版本。
行业影响
- 除苹果外,Anthropic和NVIDIA等公司也使用了"YouTube字幕"数据集来训练AI模型。
- 该数据集是非营利组织EleutherAI的大型数据集"The Pile"的一部分。
讨论焦点
- 事件引发了关于AI训练数据来源及其对隐私和版权影响的讨论。
- 尽管苹果澄清了OpenELM的用途,但科技公司使用公开数据训练AI模型的做法仍需关注。