AI-NEWS · 2026年 2月 10日

Claude 4.6超越GPT-5.2

AI模型性能基准测试：Claude Opus 4.6 显著超越 GPT-5.2

根据AIbase于2026年2月9日发布的最新信息，大型模型的竞争格局再次被重塑。Anthropic公司的旗舰模型Claude Opus 4.6在权威的“Artificial Analysis Intelligence Index”基准测试中，凭借卓越表现正式登顶。

核心测试结果

该指数综合评估了包括编程、智能体任务和科学推理在内的十项深度测试。Claude Opus 4.6在以下关键领域取得了第一名：

智能体任务工作
终端编程
物理研究主题

性能与效率数据深度分析

尽管Claude Opus 4.6在测试中展现出领先性能，但其运营成本和效率数据揭示了更深层次的竞争态势：

运营成本：Opus 4.6的运营成本为 2,486，略高于OpenAI的GPT-5.2（成本为 2,304）。
输出效率：在测试中，Opus 4.6消耗了约 5800万 输出令牌。虽然这个数字是其前代版本4.5的两倍，但与GPT-5.2惊人的 1.3亿 令牌消耗量相比，其效率显著更高。Opus 4.6的令牌消耗量仅为GPT-5.2的约44.6%，凸显了其在处理相同或更复杂任务时可能具有更高的计算效率。

可用性与未来挑战

当前可用性：Claude Opus 4.6模型已在Claude.ai平台全面可用，并支持通过Google Vertex和AWS Bedrock等主流云服务进行调用。
面临的挑战：Anthropic的领先地位正面临严峻挑战。行业巨头OpenAI的新编程工具Codex 5.3已进入测试列表。分析人士指出，一旦Codex 5.3完成所有基准测试，其在代码编写及相关逻辑领域的优势很可能助其重夺榜首。“最智能模型”之争远未结束。

相关动态简报

同期AI领域还有其他值得关注的相关动态：

Claude Opus 4.6发布：该模型于2026年2月5日发布，距上一版本仅两个月，迭代迅速。核心进展聚焦于“自主性”和“任务持久性”，首次在Opus级别引入了100万令牌的上下文窗口。
模型免费试用：ZenMux平台已将Claude Opus 4.6加入其免费套餐并提供两周免费试用，被视为给行业带来的重要福利。
高性能模式：Claude Opus 4.6推出了“快速模式”，响应速度提升2.5倍，但成本最高可达标准模式的6倍。
AI协作编程突破：由Anthropic的Nicholas Carlini带领的团队，使用16个Claude Opus 4.6智能体，在两周内以最少的人力监督，用Rust语言自主开发了一个功能完整的C编译器，编写了约10万行代码。
行业竞争动态：Anthropic紧急修改了其超级碗广告文案，删除了与OpenAI的直接对比内容，可能意在缓和公开竞争态势。同时，该公司正进行超过200亿美元的新一轮融资，若成功其估值将大幅跃升。
OpenAI硬件动向：OpenAI的首款AI硬件“Dime”被曝是智能耳塞，而非手机，战略转向音频可穿戴设备市场。

火龙果频道

您可能还喜欢...