AI-NEWS · 2025年 10月 10日

信通院发布方升3.0评测

中国信通院发布“方升3.0”大模型基准测试系统

核心升级内容

发布时间：2025年10月9日
发布机构：中国信息通信研究院（CAICT）

系统架构升级

基础属性测试：新增模型参数规模、推理效率等底层特征评估
高级智能测试：前瞻性布局十大高级能力评估，包括：
- 全模态理解
- 长期记忆
- 自学习能力

行业应用深化

重点面向三大关键行业提供深度场景化评估：

工业制造
基础科学
金融领域

评测基础设施建设

数据资源扩展

新增300万条高质量测试数据
满足多语言、多任务、多场景模型评测需求

技术方法创新

重点攻关大模型评测关键技术难题：
- 高质量测试数据合成
- 数据质量评估

智能评测基地建设

新增模拟测试环境：
- 多智能体交互环境
- 环境感知模拟环境
满足复杂场景下智能体协作和动态环境适应评测需求

最新评测结果

评测规模

评测频率：自2024年起每两个月进行一次
最新评测覆盖：
- 141个大模型
- 7个智能体

能力维度

基础能力
推理能力
代码应用能力
多模态理解能力

性能表现

综合能力领先者：

OpenAI GPT-5 持续领先

国内优秀模型：

阿里通义千问Qwen3-Max-Preview
月之暗面Kimi K2

多模态模型现状：

图像理解能力取得突破
复杂逻辑推理任务仍有提升空间

代码应用能力：

简单函数级任务表现良好
实际项目开发仍存不足

技术竞争态势

国内外厂商技术竞争激烈
智能体在多模态理解和复杂信息处理方面仍需提升

未来发展计划

CAICT将持续加强大模型评测技术研发，提升评测可信度和权威性，支撑人工智能前沿创新和新型工业化发展。

火龙果频道

您可能还喜欢...