AI-NEWS · 2024年 7月 26日

Anthropic的爬虫机器人无视网站反AI抓取政策遭吐槽

归纳总结:

  1. 事件概述

    • Anthropic 的 ClaudeBot 网络爬虫频繁访问 iFixit 网站,涉嫌违反使用条款。
    • iFixit CEO Kyle Wiens 表示,爬虫未经授权使用内容并占用开发资源,已采取措施限制爬虫访问。
  2. 相关反馈

    • Read the Docs 联合创始人 Eric Holscher 和 Freelancer.com CEO Matt Barrie 也报告了类似问题。
    • Reddit 上几个月的帖子显示,Anthropic 的抓取活动增加,导致网站负担加重。
  3. 技术应对

    • iFixit 在 robots.txt 文件中添加 crawl-delay 扩展以限制爬虫访问频率。
    • Linux Mint 网页论坛在今年4月因 ClaudeBot 抓取活动发生站点故障。
  4. 行业现象

    • AI 公司如 OpenAI 通常通过 robots.txt 文件拒绝爬虫访问,但该方法缺乏灵活性。
    • Perplexity 公司被发现完全忽略 robots.txt 排除规则。
  5. 保护数据行动

    • 多家公司通过修改 robots.txt 文件尝试保护数据不被用于 AI 训练。
    • Reddit 最近也在打击网络爬虫方面采取了行动。

深度观点:

  • 行业挑战:AI 技术的发展带来数据抓取与隐私保护之间的矛盾。尽管 robots.txt 是一种普遍手段,但其局限性显著。
  • 企业反应:各公司纷纷采取技术和政策措施应对未经授权的数据抓取,但效果有限。
  • 未来趋势:需要更灵活和强有力的技术手段以及法律法规来规范 AI 爬虫行为,以平衡创新和数据隐私保护。

Source:https://www.aibase.com/news/10609