SuperGPQA 知识推理评测基准分析报告
一、核心突破
-
学科覆盖创新
- 总量突破:覆盖285个研究生学科(比较传统基准MMLU/GPQA不足50学科)
- 长尾融合:首次纳入轻工业/农业/服务科学等长尾学科(占比>传统基准5倍+)
-
数据工程革新
- 规模化验证集:构建26,529道专业级试题
- 复杂度升级:
- 平均9.67选项/题的设计压力
- 42.33%题目需数学计算/形式化推理
二、质量保障体系
graph TD
A[专家初审] --> B[标准化转录]
B --> C{三维质检}
C --> C1[规则过滤]
C --> C2[LLM检测一致性]
C --> C3[专家交叉复核]
三、关键实验结果
模型类型 | 最优精度 | 闭源模型差距 |
---|---|---|
开源模型 | 61.82% | Δ15.3% |
闭源模型 | 77.12% | – |
▶️ 性能规律:
- 指令微调增益明显(DeepSeek-V3较基础版提升23.6%)
- 难度响应边际:开源自研模型在学科交叉难题的正确率不足闭源方案的60%
四、范式迭代价值
-
评测革命
- 破解传统方法单一维基数据源瓶颈
- 建立专业知识半衰期(构建周期>6个月专家协同)
-
产业启示
- 长尾学科数字化加速路径明确
- 开源模型追赶闭源方案仍需跨知识域架构突破
▸ [论文/数据/代码] 原始材料保留字段(加密访问状态)
数据来源:ByteDance & M-A-P开源社区联合研究 2024 AIbase