AI-NEWS · 2025年 8月 30日

美团发布AI评测榜

美团发布Meeseeks评估基准:o3-mini领先,DeepSeek-R1意外垫底引发热议

评估背景

随着OpenAI的o系列、Claude3.5Sonnet和DeepSeek-R1等大语言模型的快速发展,AI的知识和推理能力受到广泛关注。但用户发现这些模型有时无法完全遵循输入指令,导致输出内容虽丰富却不符合特定格式或内容要求。

为此,美团M17团队推出了全新的指令遵循能力评估基准——Meeseeks。

Meeseeks评估框架特点

创新评估视角

  • 专注于评估大模型是否严格遵循用户指令,而非单纯答案准确性
  • 将指令遵循能力分解为三个层次:
    1. 理解任务核心意图
    2. 实现特定类型约束
    3. 遵循细粒度规则

技术特色

  • 广泛的评估覆盖范围
  • 高难度数据设计
  • 引入"多轮修正"模式:允许模型在初始响应不符合要求时进行修正

最新评估结果

基于Meeseeks的评估显示:

  1. o3-mini(高版本) – 以绝对优势获得第一名
  2. o3-mini(中版本) – 第二名
  3. Claude3.7Sonnet – 保持第三名
  4. DeepSeek-R1 – 第七名(表现令人意外)
  5. GPT-4o – 第八名

多轮修正模式的效果

通过多轮反馈机制,所有参与模型的指令遵循准确率均显示出显著提升,特别是在自我修正能力方面。

研究意义

Meeseeks评估不仅揭示了不同模型在指令遵循能力上的差异,还为未来大模型研究提供了宝贵参考。

资源链接

  • Moad社区
  • GitHub
  • Huggingface

本文源自AIbase Daily,2025年8月29日发布

火龙果频道