AI-NEWS · 2025年 11月 21日

OpenAI发布GPT-5.1

OpenAI发布GPT-5.1-Codex-Max:引入上下文压缩机制,SWE-bench准确率提升至77.9%

核心特性

上下文压缩机制:模型引入"动态压缩"机制,能够自动组织内存并在任务执行期间保留关键状态,显著降低长会话中信息丢失的风险。

专业定位:专为复杂软件工程项目设计,支持数万行代码的上下文一致性生成。

性能数据

  • SWE-bench准确率:从73.7%提升至77.9%
  • 独立贡献软件工程师任务:跃升至79.9%
  • token消耗:减少约12%
  • 不良内容检测得分:从0.860提升至0.920

部署与定价

可用渠道

  • ChatGPT Enterprise
  • API
  • GitHub Copilot

定价策略

  • 输入token:5美元/百万
  • 输出token:15美元/百万
  • 批量调用:享受50%折扣

未来发展:计划于2026年第一季度推出"Codex-Max-Enterprise"专用版本,支持私有部署和自定义代码风格规则。

技术说明

OpenAI指出,虽然模型性能有所提升,但网络安全能力尚未达到"高能力"标准,仍需要人工审核。

相关AI新闻摘要

Google发布Gemini 3

  • 发布时间:2025年11月19日
  • 核心特性:首次提供100万token上下文窗口,原生支持文本、图像、视频和代码的多模态推理
  • 性能表现:在GPQA测试中准确率达91.9%,在LMArena上以1501分排名第一,超越GPT-5.1和Claude 4.5
  • 技术特色:采用Deep Think推理模式,通过"思维签名"实现思维链产品化

国内AI进展

  • Kimi K2模型:成功集成到全球知名AI搜索应用Perplexity,成为该平台唯一国产模型
  • 阿里云降价:通义千问3-Max核心调用费用减半,缓存命中仅收费10元
  • 智谱GLM-4.6:在LMArena最新排名中与Claude、GPT-5并列第一

其他重要更新

  • GPT-5.1增强:引入自适应推理,根据查询复杂度调整处理速度
  • ChatGPT群聊功能:在韩国和新西兰试点,允许多用户同时与AI交互
  • 情感智能升级:GPT-5.1新增6种个性风格,首次进行情感依赖安全评估

火龙果频道