中国信通院发布“方升3.0”大模型基准测试系统
核心升级内容
发布时间:2025年10月9日
发布机构:中国信息通信研究院(CAICT)
系统架构升级
- 基础属性测试:新增模型参数规模、推理效率等底层特征评估
- 高级智能测试:前瞻性布局十大高级能力评估,包括:
- 全模态理解
- 长期记忆
- 自学习能力
行业应用深化
重点面向三大关键行业提供深度场景化评估:
- 工业制造
- 基础科学
- 金融领域
评测基础设施建设
数据资源扩展
- 新增300万条高质量测试数据
- 满足多语言、多任务、多场景模型评测需求
技术方法创新
- 重点攻关大模型评测关键技术难题:
- 高质量测试数据合成
- 数据质量评估
智能评测基地建设
- 新增模拟测试环境:
- 多智能体交互环境
- 环境感知模拟环境
- 满足复杂场景下智能体协作和动态环境适应评测需求
最新评测结果
评测规模
- 评测频率:自2024年起每两个月进行一次
- 最新评测覆盖:
- 141个大模型
- 7个智能体
能力维度
- 基础能力
- 推理能力
- 代码应用能力
- 多模态理解能力
性能表现
综合能力领先者:
- OpenAI GPT-5 持续领先
国内优秀模型:
- 阿里通义千问Qwen3-Max-Preview
- 月之暗面Kimi K2
多模态模型现状:
- 图像理解能力取得突破
- 复杂逻辑推理任务仍有提升空间
代码应用能力:
- 简单函数级任务表现良好
- 实际项目开发仍存不足
技术竞争态势
- 国内外厂商技术竞争激烈
- 智能体在多模态理解和复杂信息处理方面仍需提升
未来发展计划
CAICT将持续加强大模型评测技术研发,提升评测可信度和权威性,支撑人工智能前沿创新和新型工业化发展。