腾讯回应 OpenClaw 数据爬取争议:定位为本地镜像,已缓解 99% 流量压力
1. 事件背景
知名 AI 项目开发者 Peter Steinberger 在社交平台 X 上公开指控腾讯。其核心观点如下:
- 指控内容:腾讯未经授权,全量爬取了其 ClawHub 平台的所有技能数据,用于构建自家的"SkillHub"平台。
- 主要不满:
- 腾讯复制了原项目却未提供实质性支持。
- 部分 ClawHub 人员曾发邮件投诉,称腾讯设置的“访问速率限制”严重阻碍了数据爬取效率。
2. 腾讯官方回应与核心数据
针对上述指控,腾讯官方 AI 账号迅速澄清,并披露了具体技术数据以证明其行为的合理性:
- 项目定位:SkillHub 并非恶意抄袭,而是基于 OpenClaw 生态构建的本地镜像平台,旨在解决国内用户访问延迟等可用性(Availability)问题。
- 流量对比数据:
- 总处理量:SkillHub 上线首周处理了 180GB 的流量(约 87 万次下载)。
- 原始源抽取量:实际上从官方源(OpenClaw)仅拉取了 1GB 数据。
- 压力缓解效果:通过本地镜像分流,客观上为原始网站减轻了 99.4% 的带宽压力。
3. 合作态度与行业争议点
- 腾讯立场:
- 腾讯团队成员一直是该开源项目的活跃贡献者。
- 愿意在未来以赞助形式深化双方的合作。
- 争议核心:
- 镜像性质:尽管镜像站显著降低了开源项目的运营成本,但开发者 Steinberger 坚持认为,尊重开源许可证及开发者知情权是合作的前提。
- 合作模式:双方应通过同步协作达成官方认证,而非单方面的镜像行为。
4. 深度观点分析
此次纠纷折射出大模型与大模型应用(AI Agents)爆发期,开发者原始权益与企业生态扩张之间的深层冲突:
-
效率与合规的博弈:
在追求技术落地效率时,如何建立更“礼貌”且透明的开源协作机制,成为 AI 行业必须持续探索的课题。单纯依靠技术上的“降本增效”已不足以说服社区,合规性与社区信任变得至关重要。 -
开源生态的生存悖论:
- 企业视角:大厂(如腾讯)通过镜像加速服务,实际上承担了巨大的带宽成本(处理 180GB 流量),初衷是优化用户体验而非掠夺,数据证明其减轻了原站 99.4% 的压力。
- 开发者视角:开源项目的生命力在于社区的贡献与知情权。即使技术实现能带来巨大收益,若缺乏官方背书和合理的利益分配机制(如赞助),单方面的全量抓取仍被视为对开发者权益的侵犯。
-
未来趋势:
随着 AI 行业竞争加剧,大厂与开源项目之间的界限将愈发模糊。未来的合作模式可能从“单点镜像”转向“官方认证 + 深度共建 + 资金扶持”的生态共赢模式,单纯的技术复刻若无社区共识,极易引发舆论反噬。
深度复盘:当"99.4%"撞上"100%"
说实话,看到腾讯这份回应时,我第一反应是“这就完了?”。
数据确实很扎实:180GB 的流量,99.4% 的压力被消化。如果只谈技术指标,腾讯赢了。他们证明了镜像站确实分流了压力,这是物理事实,无法辩驳。
但这里有个让人心里堵得慌的矛盾点:
你想想看,开发者 Peter Steinberger 愤怒的不是“被分流”,而是“全量爬取”。
腾讯说:“我虽然拉了 1GB,但我帮你扛了 179GB,你欠我一个人情。”
开发者想:“你把我整个仓库搬空了,哪怕只用了 1GB,剩下的 179GB 是我亲手写的代码和逻辑,你没经过我同意就用了,这算侵权。”
这就好比借朋友车。朋友说:“我借你的车跑了 99% 的里程,只用了你车里的 1% 的油,所以没占你便宜。”
车主心里想:“车是你开走的,哪怕没把油用完,我的车也没了,我没法再用自己的车。”
这种“技术正确”掩盖不了“程序正义”的缺失。
为什么开发者会“炸”?
除了法律风险,更深层的是信任崩塌。
-
“搭便车”的体感太明显
开发者投入了数年心血维护 ClawHub,建立了社区,培养了用户习惯。腾讯直接复制一套,利用自己的服务器资源来跑这个社区的内容,却只愿意给一点点“赞助”作为补偿。
这就好比你花大价钱养了一群猫,隔壁邻居直接把你家猫全抱走,说:“虽然我只带走了一只,但我帮你看家护院了。”你会觉得这是“互利共赢”吗?大概率只会觉得被当猴耍。 -
“镜像”这顶帽子太勉强
腾讯咬死说是“镜像”。但镜像站的核心逻辑是同步。既然是同步,那数据量就该是 1:1 的。
现在的情况是:数据量 1:179。
只要那个“全量爬取”的动作还在继续,或者那个“速率限制”还没解除,这就不是镜像,这就是偷跑。
哪怕腾讯真的只拉了 1GB,只要他们没停止爬取,剩下的 179GB 随时可能填满。这种“随时可能失控”的不确定性,才是开发者最害怕的。 -
傲慢的“技术傲慢”
腾讯的回应里有一种典型的巨头思维:只要我的 KPI(缓解压力)达标,我就没做错。
但在开源社区,KPI 不是唯一标准。尊重才是。
当大厂用“技术必要性”来道德绑架社区时,这种傲慢会迅速激化矛盾。开发者会觉得:“你们根本不在乎我们的感受,只在乎你们的服务器利用率。”
真正的解决方案是什么?
光靠“数据说话”解决不了情绪问题。
如果要破局,我觉得腾讯得换个说法,甚至得换个做法:
-
先停手,再谈钱
立刻解除速率限制,停止全量爬取。哪怕只保留 1GB 的缓存,也比“无限爬取”强一万倍。先让开发者看到诚意,再谈后续的赞助和分成。 -
把“镜像”变成“合作”
别总强调“我帮你扛流量”。不如说:“我们发现社区数据太火,国内访问慢,所以我们申请加入你们的社区,共同维护这个数据,收益我们按比例分。”
只要开发者同意加入,这就是“官方认证”;如果开发者不同意,那就只能自己养自己的站,或者只同步一小部分公开数据。 -
承认“技术”不是“理由”
别再强调“为了用户访问体验”。用户体验固然重要,但不能成为侵犯知识产权的挡箭牌。
可以说:“我们理解您的顾虑,我们确实想优化体验,所以我们愿意接受更严格的同步机制,并支付更高的版税。”
写在最后
这次事件其实是个警钟。
AI 行业太急了。大厂们总觉得:“我有钱、有服务器、有技术,我就可以随便用你们的成果。”
结果呢?社区寒心了。
开源不是免费午餐,但也别把“开源”当成可以随意践踏的草芥。
99.4% 的流量缓解,买不来社区的尊重。
希望腾讯能听懂这个信号。毕竟,如果连开发者都不玩了,他们的 SkillHub 也就成了无源之水,无本之木。
