GPT-5.4开启“原生计算机控制”时代,重塑AI Agent竞争格局
2026年3月,OpenAI意外发布了GPT-5.4,彻底重塑了AI智能代理的竞争格局。作为OpenAI首个具备“原生计算机使用能力”的通用模型,GPT-5.4不再依赖外部适配器,而是能够直接识别屏幕截图、模拟鼠标点击与键盘输入,像人类一样在桌面环境中操作软件。
性能突破:首次超越人类平均水平
在衡量真实桌面导航能力的OSWorld-Verified基准测试中,GPT-5.4的成功率飙升至75.0%。作为对比:
- 人类平均基线仅为72.4%
- 上一代GPT-5.2仅为47.3%
这意味着,AI在控制计算机的熟练程度上,历史上首次超越了普通人类用户。
真实体验:工作者的“数字分身”成为现实
目前,GPT-5.4已在网页版和Codex平台可用。实际测试显示,该模型几乎可以接管计算机上的所有操作:
- 深度应用控制:能直接启动日历应用并自主请求权限设置提醒;能准确定位并打开“小宇宙”等第三方应用,播放特定节目。
- 系统级权限操作:用户可要求其直接更改计算机壁纸,或熟练地在终端中使用各类开发工具。
- 原生计算逻辑:它不仅提供计算结果,还能在计算机自带的计算器应用内执行模拟操作。
这种“原生感”标志着AI从“对话助手”演变为“执行实体”。
完美匹配:GPT-5.4直击OpenClaw核心诉求
2026年初走红的开源项目OpenClaw(其Star数已超25万)找到了它的“理想模型”。OpenClaw的核心理念是“真正能工作的AI”,而GPT-5.4在四个关键维度上与之完美契合:
- 原生控制匹配:集成GPT-5.4后,OpenClaw无需复杂破解方法即可实现桌面自动化,性能提升显著。
- 100万Token的持久力:超长上下文窗口解决了智能体在长期任务中的“遗忘”问题,为OpenClaw提供了足够大的“工作台”来处理复杂文件。
- 工具调用成本革命:GPT-5.4的按需使用机制将Token消耗降低了47%,显著降低了7×24小时运行智能体的API成本。
- 推理能力飞跃:在专业工作任务中,GPT-5.4的表现优于**83%**的人类专家,使OpenClaw从简单的“脚本执行者”进化为能处理财务分析、投资备忘录的高级专家。
行业评价:高端人力工作的“奇点”已至
- HyperWriteAI CEO Matt Shumer 形容GPT-5.4的编程能力“近乎完美”。
- Mercor AI CEO Brenda 认为,该模型即将超越顶级咨询公司、投资银行和律师事务所的专业水平。
这意味着,那些曾被认为人类不可替代的工作,正面临来自AI智能体的全面挑战。
