AI-NEWS · 2025年 12月 3日

MIT发布超越OpenAI的AI代理

MIT初创公司OpenAGI发布AI智能体Lux,宣称性能超越OpenAI与Anthropic

核心摘要

麻省理工学院(MIT)的初创公司OpenAGI近日正式亮相,并发布了其新型AI模型Lux。该公司宣称,Lux在计算机操作任务上的表现超越了OpenAI和Anthropic的同类产品,且成本仅为后者的十分之一。

性能表现:基准测试大幅领先

在最新的Online-Mind2Web基准测试中,Lux的表现突出:

  • Lux(OpenAGI):成功率达到 83.6
  • Operator(OpenAI):成功率为 61.3
  • Claude Computer Use(Anthropic):成功率为 56.3

Lux以超过20个百分点的优势领先,这一显著的性能差距引发了业界对其技术能力的强烈期待。

技术特点:独特的训练方法与广泛的控制能力

Lux与传统大语言模型不同,具有以下创新点:

  1. 基于智能体的预训练:模型专注于从计算机屏幕截图和操作序列中学习,通过一个自我强化的训练循环,使其能够在持续探索中提升能力,从而实现更高效的操作。
  2. 全面的桌面控制:与目前主要局限于浏览器任务的竞争对手不同,Lux能够完全控制桌面应用程序,包括Excel、Slack等,这极大地扩展了其应用场景和市场潜力。
  3. 成本与速度优势:OpenAGI声称,Lux的运行成本约为OpenAI和Anthropic尖端模型的十分之一,并且速度更快。

安全机制与开发生态

  • 内置安全防护:Lux设计了内置安全机制。当模型接收到可能违反安全策略的请求时,它会拒绝执行并向用户发出警报。在AI智能体快速发展的背景下,这一特性尤为重要。
  • 发布开发者套件:公司已发布软件开发工具包(SDK),允许第三方基于Lux开发应用程序,旨在构建更丰富的生态系统。

团队背景

OpenAGI的CEO秦增益博士拥有深厚的专业背景,曾参与开发多个广受欢迎的AI模型。这展示了较小规模团队在技术创新方面的潜力。

行业动态关联(同日其他要闻)

同日AI领域还有其他重要动态,从侧面反映了行业的活跃度:

  1. DeepSeek发布V3.2:引入创新的稀疏注意力架构,API成本减半,性能可比肩顶尖闭源模型。
  2. OpenAI与埃森哲合作:推出企业级AI旗舰计划,数千名顾问将部署ChatGPT Enterprise,共同开发行业大模型。
  3. AI数据中心建设薪资上涨:受AI增长推动,数据中心建筑工人薪资大幅上涨,部分年薪超过20万。

发布日期:2025年12月2日

火龙果频道