OpenAI发布GPT-5.1-Codex-Max:引入上下文压缩机制,SWE-bench准确率提升至77.9%
核心特性
上下文压缩机制:模型引入"动态压缩"机制,能够自动组织内存并在任务执行期间保留关键状态,显著降低长会话中信息丢失的风险。
专业定位:专为复杂软件工程项目设计,支持数万行代码的上下文一致性生成。
性能数据
- SWE-bench准确率:从73.7%提升至77.9%
- 独立贡献软件工程师任务:跃升至79.9%
- token消耗:减少约12%
- 不良内容检测得分:从0.860提升至0.920
部署与定价
可用渠道:
- ChatGPT Enterprise
- API
- GitHub Copilot
定价策略:
- 输入token:5美元/百万
- 输出token:15美元/百万
- 批量调用:享受50%折扣
未来发展:计划于2026年第一季度推出"Codex-Max-Enterprise"专用版本,支持私有部署和自定义代码风格规则。
技术说明
OpenAI指出,虽然模型性能有所提升,但网络安全能力尚未达到"高能力"标准,仍需要人工审核。
相关AI新闻摘要
Google发布Gemini 3
- 发布时间:2025年11月19日
- 核心特性:首次提供100万token上下文窗口,原生支持文本、图像、视频和代码的多模态推理
- 性能表现:在GPQA测试中准确率达91.9%,在LMArena上以1501分排名第一,超越GPT-5.1和Claude 4.5
- 技术特色:采用Deep Think推理模式,通过"思维签名"实现思维链产品化
国内AI进展
- Kimi K2模型:成功集成到全球知名AI搜索应用Perplexity,成为该平台唯一国产模型
- 阿里云降价:通义千问3-Max核心调用费用减半,缓存命中仅收费10元
- 智谱GLM-4.6:在LMArena最新排名中与Claude、GPT-5并列第一
其他重要更新
- GPT-5.1增强:引入自适应推理,根据查询复杂度调整处理速度
- ChatGPT群聊功能:在韩国和新西兰试点,允许多用户同时与AI交互
- 情感智能升级:GPT-5.1新增6种个性风格,首次进行情感依赖安全评估
