美团发布Meeseeks评估基准:o3-mini领先,DeepSeek-R1意外垫底引发热议
评估背景
随着OpenAI的o系列、Claude3.5Sonnet和DeepSeek-R1等大语言模型的快速发展,AI的知识和推理能力受到广泛关注。但用户发现这些模型有时无法完全遵循输入指令,导致输出内容虽丰富却不符合特定格式或内容要求。
为此,美团M17团队推出了全新的指令遵循能力评估基准——Meeseeks。
Meeseeks评估框架特点
创新评估视角
- 专注于评估大模型是否严格遵循用户指令,而非单纯答案准确性
- 将指令遵循能力分解为三个层次:
- 理解任务核心意图
- 实现特定类型约束
- 遵循细粒度规则
技术特色
- 广泛的评估覆盖范围
- 高难度数据设计
- 引入"多轮修正"模式:允许模型在初始响应不符合要求时进行修正
最新评估结果
基于Meeseeks的评估显示:
- o3-mini(高版本) – 以绝对优势获得第一名
- o3-mini(中版本) – 第二名
- Claude3.7Sonnet – 保持第三名
- DeepSeek-R1 – 第七名(表现令人意外)
- GPT-4o – 第八名
多轮修正模式的效果
通过多轮反馈机制,所有参与模型的指令遵循准确率均显示出显著提升,特别是在自我修正能力方面。
研究意义
Meeseeks评估不仅揭示了不同模型在指令遵循能力上的差异,还为未来大模型研究提供了宝贵参考。
资源链接:
- Moad社区
- GitHub
- Huggingface
本文源自AIbase Daily,2025年8月29日发布