AI-NEWS · 2025年 10月 10日

信通院发布方升3.0评测

中国信通院发布“方升3.0”大模型基准测试系统

核心升级内容

发布时间:2025年10月9日
发布机构:中国信息通信研究院(CAICT)

系统架构升级

  • 基础属性测试:新增模型参数规模、推理效率等底层特征评估
  • 高级智能测试:前瞻性布局十大高级能力评估,包括:
    • 全模态理解
    • 长期记忆
    • 自学习能力

行业应用深化

重点面向三大关键行业提供深度场景化评估:

  • 工业制造
  • 基础科学
  • 金融领域

评测基础设施建设

数据资源扩展

  • 新增300万条高质量测试数据
  • 满足多语言、多任务、多场景模型评测需求

技术方法创新

  • 重点攻关大模型评测关键技术难题:
    • 高质量测试数据合成
    • 数据质量评估

智能评测基地建设

  • 新增模拟测试环境:
    • 多智能体交互环境
    • 环境感知模拟环境
  • 满足复杂场景下智能体协作和动态环境适应评测需求

最新评测结果

评测规模

  • 评测频率:自2024年起每两个月进行一次
  • 最新评测覆盖
    • 141个大模型
    • 7个智能体

能力维度

  • 基础能力
  • 推理能力
  • 代码应用能力
  • 多模态理解能力

性能表现

综合能力领先者

  • OpenAI GPT-5 持续领先

国内优秀模型

  • 阿里通义千问Qwen3-Max-Preview
  • 月之暗面Kimi K2

多模态模型现状

  • 图像理解能力取得突破
  • 复杂逻辑推理任务仍有提升空间

代码应用能力

  • 简单函数级任务表现良好
  • 实际项目开发仍存不足

技术竞争态势

  • 国内外厂商技术竞争激烈
  • 智能体在多模态理解和复杂信息处理方面仍需提升

未来发展计划

CAICT将持续加强大模型评测技术研发,提升评测可信度和权威性,支撑人工智能前沿创新和新型工业化发展。

火龙果频道