AI-NEWS · 2024年 7月 25日

阻止AI模型获取训练数据的网络域名数量快速增加

归纳总结

数据访问限制加剧

  • 时间范围:2023年4月到2024年4月
  • 屏蔽内容比例:从约1%上升至5-7%
  • 重点领域:新闻网站的屏蔽比例从3%激增至45%

高质量数据减少

  • 影响:高质量新闻内容在AI训练数据中的占比下降,可能被低质量的企业和电商内容取代。
  • 结果:未来的AI模型可能只能学习到较少、更有偏见和过时的信息。

高成本与许可问题

  • 获取成本:Meta的首席执行官马克·扎克伯格表示,获取足够的版权数据以训练一个优秀的AI模型几乎是不可能或非常昂贵的。
  • 许可协议:高质量内容提供者可能通过与AI公司达成许可协议找到新的收入来源。
  • 行业动向:OpenAI已与多家出版商达成数百万美元的交易,预计其他公司也将效仿这一做法,除非法律判决发生重大变化。

Source:https://www.aibase.com/news/10580