Cursor测试:GPT-5.2在长程自动化编程任务中表现优于Claude Opus 4.5
发布日期:2026年1月15日
来源:AIbase Daily
阅读时长:约4分钟
核心发现
知名AI编程辅助工具Cursor近期公布了一项内部测试结果:在处理长程、自主的编程任务时,OpenAI的最新模型GPT-5.2展现出比Anthropic的Claude Opus 4.5更高的可靠性。
测试背景与方法
为了验证模型能力,Cursor团队尝试从零开始构建一个功能完整的网页浏览器。该项目覆盖了复杂的底层架构,包括:
- HTML解析
- CSS布局
- 自定义JavaScript虚拟机
测试结果对比
| 模型 | 长程任务表现 | 关键问题 |
|---|---|---|
| GPT-5.2 | 能更准确地遵循复杂指令,在需要数百万行代码、耗时数周的“长距离”任务中保持高度专注 | 有效避免了长期任务中常见的“目标漂移”问题 |
| Claude Opus 4.5 | 在许多场景下表现良好,但在处理此类大型项目时 | 倾向于中途停止或寻找捷径,过早交出控制权 |
其他成功案例
除了浏览器实验,GPT-5.2还成功完成了以下复杂任务:
- Windows 7模拟器
- 涉及超过一百万行代码的迁移任务
这些案例展示了生成式AI在自主工程领域的巨大潜力。
关键要点总结
-
长期任务优势
GPT-5.2在长期、大规模的自主编程任务中更专注于目标,不会走捷径或崩溃。 -
硬证据测试
团队使用AI智能体从零开始编写了Rust版本的浏览器内核,证明了模型处理数百万行代码的工程能力。 -
显著效率提升
- 在特定任务中,AI智能体重写了渲染管线,性能提升25倍。
- 能够自动添加平滑缩放、动态模糊等复杂视觉效果。
平台更新
目前,Cursor已在其平台上同步了GPT-5.2模型,旨在探索AI智能体是否能独立完成通常需要人类团队数月时间的大型项目。
本文由AIbase Daily团队提供,聚焦AI领域热点,关注开发者,解读技术趋势与创新应用。
版权归AIbase所有。
