AI-NEWS · 2025年 3月 4日

SuperGPQA挑战AI多学科推理

SuperGPQA 知识推理评测基准分析报告

一、核心突破

  1. 学科覆盖创新

    • 总量突破:覆盖285个研究生学科(比较传统基准MMLU/GPQA不足50学科)
    • 长尾融合:首次纳入轻工业/农业/服务科学等长尾学科(占比>传统基准5倍+)
  2. 数据工程革新

    • 规模化验证集:构建26,529道专业级试题
    • 复杂度升级:
      • 平均9.67选项/题的设计压力
      • 42.33%题目需数学计算/形式化推理

实验对比

二、质量保障体系

graph TD
    A[专家初审] --> B[标准化转录]
    B --> C{三维质检}
    C --> C1[规则过滤]
    C --> C2[LLM检测一致性]
    C --> C3[专家交叉复核]

三、关键实验结果

模型类型 最优精度 闭源模型差距
开源模型 61.82% Δ15.3%
闭源模型 77.12%

▶️ 性能规律:

  • 指令微调增益明显(DeepSeek-V3较基础版提升23.6%)
  • 难度响应边际:开源自研模型在学科交叉难题的正确率不足闭源方案的60%

四、范式迭代价值

  1. 评测革命

    • 破解传统方法单一维基数据源瓶颈
    • 建立专业知识半衰期(构建周期>6个月专家协同)
  2. 产业启示

    • 长尾学科数字化加速路径明确
    • 开源模型追赶闭源方案仍需跨知识域架构突破

▸ [论文/数据/代码] 原始材料保留字段(加密访问状态)

数据来源:ByteDance & M-A-P开源社区联合研究 2024 AIbase

火龙果频道