视频会议巨头Zoom以联邦AI策略在全球最严苛AI评测中刷新纪录
核心事件
2026年1月16日,视频会议软件巨头Zoom宣布,其人工智能系统在顶级基准测试“人类最后考试”(Humanity's Last Exam, HLE)中取得了48.1分的成绩,打破了此前由谷歌Gemini3Pro保持的45.8分的世界纪录。这一结果标志着长期由谷歌、OpenAI、Anthropic等实验室主导的大模型“武当峰会”格局被打破。
技术策略:联邦AI方法
面对“非核心模型厂商如何超越模型巨头”的疑问,Zoom首席技术官、前微软AI负责人黄学东提出了一种截然不同的策略——联邦AI方法,而非投入巨资训练自身的万亿参数大模型。该策略的核心架构包括:
- Z-Scorer(核心大脑):负责实时评估来自OpenAI、谷歌、Anthropic等多个模型的响应,并为特定任务选择最优解。
- 探索-验证-联合策略:这是一个智能体工作流,促使多个AI系统进行“辩证协作”,相互挑战并完善推理结果。
- 流量控制器:本质上是一个高度智能的AI“调度中心”,通过整合而非自研,实现了超越任何单一模型的性能。
行业争议:创新还是“偷家”?
Zoom的成就引发了开发者社区的激烈争论。
- 批评观点:以工程师Max Rumpf为代表的批评者认为,Zoom只是通过API“包装”了他人的成果,在基准测试中获得高分对实际用户意义有限,并称此举为“剽窃他人劳动”,缺乏实质性的技术贡献。
- 支持观点:开发者朱洪成等观察家则认为,在AI评测中胜出必然需要“模型联邦”。这类似于数据竞赛平台Kaggle上的胜者总是依赖模型集成而非单打独斗。从商业角度看,此策略极为巧妙:既避免了昂贵的算力投资,又让Zoom能在供应商之间灵活切换,完全避免了供应商锁定。
从排名到产品:AI Companion 3.0的实践检验
黄学东将这一成就视为Zoom战略的验证。对于Zoom的3亿用户而言,更具意义的竞争将发生在即将推出的AI Companion 3.0产品中。联邦AI策略能否在实际应用场景中带来优质体验,将是下一步的考验。
深度观点
- 路径创新:Zoom的案例展示了一条不同于科技巨头的AI发展路径——通过“集成智能”而非“原始智能”实现突破,为资源有限的非传统AI公司提供了新思路。
- 商业逻辑优先:其策略的核心驱动力是明确的商业考量:控制成本、保持供应链灵活性、快速将尖端能力产品化。这反映了AI技术竞争正从纯研发转向研发与商业整合并重的阶段。
- 评测与实用的鸿沟:围绕此事的争议,本质上是AI领域长期存在的“基准测试性能”与“实际应用价值”之间差异的又一次凸显。它促使业界思考评测体系的完善方向。
整理自AIbase于2026年1月16日的报道。文中提及的其他AI新闻(如Anthropic进军印度、Grok图像争议、Opera AI发布等)为同期资讯,与核心事件无直接关联,已在此摘要中略去。
