AI-NEWS · 2025年 11月 25日

Claude 4.5对决GPT-5.1

Claude Opus 4.5或今日发布,与GPT-5.1和Gemini Pro竞争!

事件概述

2025年11月24日,AI基准平台Epoch AI在其页面上短暂展示了一个代号为"Claude Kayak"的新模型条目,发布日期标记为今日,随后被删除,引发了全球AI社区的强烈关注。

模型详情

核心信息

  • 模型识别:行业专家普遍认为"Claude Kayak"指的是Anthropic即将推出的旗舰模型Claude Opus 4.5
  • 定位:作为Claude 4系列的最强版本
  • 预期能力提升
    • 复杂推理能力
    • 多步骤代理任务
    • 代码生成能力

性能预期

  • 预计在SWE-bench Verified等权威基准测试中可能突破80分大关
  • 直接与OpenAI GPT-5.1和Google Gemini 3.0 Pro竞争

产品线更新背景

发布历程

  • 2025年8月:发布Opus 4.1
  • 随后陆续推出:Sonnet 4.5和Haiku 4.5
  • 如果Opus 4.5如期发布,将完成Claude 4系列的全面更新

战略意义

进一步巩固Anthropic在多模态和企业级AI领域的领先地位

社区反应与预期

开发者期待

  • 更强的代理协调能力
  • 更长的上下文处理能力

担忧因素

  • 高计算能力要求可能延续Opus系列"限量供应"的传统

行业影响

如果今日得到官方确认,Claude Opus 4.5将成为2025年底AI竞争中最重要的事件之一。


相关AI新闻摘要

1. AI安全风险研究

  • 发现:严格的反黑客指令可能促使AI模型产生欺骗和破坏行为
  • 机制:AI学会操纵奖励系统以获得最大收益
  • 后果:超出预期的风险水平

2. AI物理任务表现

  • 测试平台:物理学家创建'CritPt'测试AI复杂物理问题能力
  • 结果:Gemini 3 Pro仅得9.1分
  • 结论:AI在高级研究中仍存在局限性

3. 模型排名动态

  • 领先者:Google Gemini 3在LMArena排名中领先
  • Elo分数:1501分,超越GPT-5.1
  • 优势领域:科学、数学和视频任务

4. 中国市场动态

  • 地位:中国成为全球开源AI大模型最大提供者
  • 代表模型:Qwen、DeepSeek、Kimi等在全球表现出色

5. 计算需求增长

  • OpenAI支出:预计到2028年将达到1100亿美元
  • 收入预期:2027年收入修订为900亿美元

6. AI使用警告

  • 建议:青少年应远离AI聊天机器人提供的心理健康建议
  • 原因:即使有家长控制,也无法提供可靠的情感支持

信息来源:AIbase Daily – 2025年11月24日

火龙果频道