清华大学与OpenBMB联合发布UltraEval-Audio:开源音频模型评估框架
发布日期:2026年1月4日
发布机构:清华大学自然语言处理实验室、OpenBMB、Miga Intelligence(米伽智能)
核心概述
UltraEval-Audio 是一个专为音频模型设计的开源评估框架。它旨在为音频大模型领域建立一套完整的评估方法论,并将该体系具体化为一个开箱即用的工程框架,从而完善音频评估的整体结构。
最新版本 v1.1.0 的关键更新
- 一键复现功能:在原有“一键评估”功能的基础上,新增了对热门音频模型的一键复现能力。
- 扩展模型支持:新增了对文本转语音(TTS)、自动语音识别(ASR)和编解码器(Codec)等专用模型的评估支持。
- 改进的推理机制:引入了隔离推理运行机制,旨在降低模型复现门槛,并提升评估过程的可控性和可移植性。
影响与应用
- UltraEval-Audio v1.1.0 已成为多个高影响力音频及多模态模型(如 MiniCPM-o2.6 和 VoxCPM)的必备评估工具。
- 该框架的开源将显著提升研究人员在音频模型开发中的效率,推动相关领域的进步。
- 它的发布标志着音频模型评估标准化迈出了重要一步,有助于加速音频技术的发展。
开源信息
开源地址:可通过 GitHub 获取。
