AI-NEWS · 2024年 11月 30日

蓝 sky 用户数据被采集:百万公开帖子用于AI训练

蓝天社交平台数据泄露事件分析

近期,社交媒体平台蓝天(Bluesky)遭遇了一起重要的数据抓取事件。机器学习专家Daniel van Strien从Bluesky的API中抓取了超过一百万条公共用户帖子,并将这些数据上传到了人工智能公司Hugging Face。

关键点

  1. 大规模数据抓取:一位机器学习专家从Bluesky平台上抓取了一百万条公共帖子,并将其上传到AI公司Hugging Face用于机器学习研究。
  2. 缺乏用户同意:Bluesky的用户并未同意他们的内容被用作这些目的。尽管平台并没有明令禁止这种行为,其API提供了“聚合的时间线公共数据流”,其中包括了发帖、点赞、关注及账户更改等多种信息。因此,理论上第三方开发者可以获取Bluesky的内容。
  3. 引发用户担忧:此次事件引发了用户的广泛担忧,特别是那些由于竞争对手X平台的新AI培训政策而转移到Bluesky的用户。在报告发布后不久,Van Strien从Hugging Face删除了相关数据,并表示歉意。

蓝天平台回应

  • 一位蓝天代表称,“Bluesky是一个开放和公共的社会网络,与其他网站一样。”虽然robots.txt文件通常不会阻止外部公司抓取这些网站的数据,但情况类似。他们希望找到一种方法让用户能够向第三方开发者表明是否同意使用他们的数据,并期待外部组织尊重用户的同意。
  • 蓝天正在积极讨论如何实现这一目标。

结论

此次事件揭示了开放平台在保护用户隐私与支持技术创新之间面临的挑战。尽管蓝天并未明令禁止此类行为,但明确的沟通机制和用户的透明知情权显得尤为重要。Van Strien删除数据并道歉的行为也为第三方开发者提供了一个参考范例,在技术探索中重视用户同意和数据使用的道德原则。

Source:https://www.aibase.com/news/13581