AI-NEWS · 2026年 1月 5日

清华开源音频评估框架

清华大学与OpenBMB联合发布UltraEval-Audio:开源音频模型评估框架

发布日期:2026年1月4日
发布机构:清华大学自然语言处理实验室、OpenBMB、Miga Intelligence(米伽智能)

核心概述

UltraEval-Audio 是一个专为音频模型设计的开源评估框架。它旨在为音频大模型领域建立一套完整的评估方法论,并将该体系具体化为一个开箱即用的工程框架,从而完善音频评估的整体结构。

最新版本 v1.1.0 的关键更新

  1. 一键复现功能:在原有“一键评估”功能的基础上,新增了对热门音频模型的一键复现能力。
  2. 扩展模型支持:新增了对文本转语音(TTS)、自动语音识别(ASR)和编解码器(Codec)等专用模型的评估支持。
  3. 改进的推理机制:引入了隔离推理运行机制,旨在降低模型复现门槛,并提升评估过程的可控性和可移植性。

影响与应用

  • UltraEval-Audio v1.1.0 已成为多个高影响力音频及多模态模型(如 MiniCPM-o2.6VoxCPM)的必备评估工具。
  • 该框架的开源将显著提升研究人员在音频模型开发中的效率,推动相关领域的进步。
  • 它的发布标志着音频模型评估标准化迈出了重要一步,有助于加速音频技术的发展。

开源信息

开源地址:可通过 GitHub 获取。

火龙果频道