AI-NEWS · 2025年 11月 7日

美团发布UNO-Bench评测基准

美团LongCat团队推出创新基准测试UNO-Bench,提升多模态大语言模型评估能力

核心要点

美团LongCat团队近期推出名为UNO-Bench的新型基准测试,旨在系统评估多模态大语言模型在不同模态下的理解能力。该基准覆盖44种任务类型和五种模态组合,全面展示模型在单模态和全模态场景下的性能表现。

数据集特点

  • 样本规模:精心筛选1,250个全模态样本,交叉模态可解性达98%
  • 增强样本:额外增加2,480个增强单模态样本
  • 本土化优势:充分考虑实际应用场景,在中文语境下表现优异
  • 处理效率:经过自动压缩处理后,数据集运行速度提升90%
  • 一致性保持:在18个公共基准测试中保持高达98%的一致性

创新评估方法

UNO-Bench引入创新的多步骤开放式问题格式,专门评估模型的复杂推理能力。该格式结合通用评分模型,能够自动评估六种不同问题类型,准确率高达95%。

发展计划

  • 当前重点:主要聚焦中文场景
  • 未来规划:积极寻求合作伙伴,计划共同开发英文和多语言版本
  • 开放获取:开发者可通过Hugging Face平台下载UNO-Bench数据集
  • 开源支持:相关代码和项目文档已在GitHub上公开

行业影响

UNO-Bench的发布将进一步完善多模态大语言模型的评估标准,不仅为研究人员提供强大工具,更为整个行业的技术进步铺平道路。

项目地址:UNO-Bench

火龙果频道