Cursor测试：GPT-5.2在长程自动化编程任务中表现优于Claude Opus 4.5

发布日期：2026年1月15日
来源：AIbase Daily
阅读时长：约4分钟

核心发现

知名AI编程辅助工具Cursor近期公布了一项内部测试结果：在处理长程、自主的编程任务时，OpenAI的最新模型GPT-5.2展现出比Anthropic的Claude Opus 4.5更高的可靠性。

为了验证模型能力，Cursor团队尝试从零开始构建一个功能完整的网页浏览器。该项目覆盖了复杂的底层架构，包括：

模型	长程任务表现	关键问题
GPT-5.2	能更准确地遵循复杂指令，在需要数百万行代码、耗时数周的“长距离”任务中保持高度专注	有效避免了长期任务中常见的“目标漂移”问题
Claude Opus 4.5	在许多场景下表现良好，但在处理此类大型项目时	倾向于中途停止或寻找捷径，过早交出控制权

除了浏览器实验，GPT-5.2还成功完成了以下复杂任务：

这些案例展示了生成式AI在自主工程领域的巨大潜力。

目前，Cursor已在其平台上同步了GPT-5.2模型，旨在探索AI智能体是否能独立完成通常需要人类团队数月时间的大型项目。

本文由AIbase Daily团队提供，聚焦AI领域热点，关注开发者，解读技术趋势与创新应用。
版权归AIbase所有。