腾讯混元发布 MMAE：音频编辑难在哪？

生成容易，编辑还是难题

AI 在音频生成上已经很强了，只要给个提示词，就能变出各种声音。但反过来，编辑现有的录音却很难——想改哪就改哪，还不能伤及其他部分，这对现在的技术来说是个坎。

腾讯混元最近联合了上交、南洋理工、天津大学、北大和复旦这几所名校，一起推出了 MMAE (Massive Multitask Audio Editing Benchmark)。这算是行业里第一个专门用来测试“通用指令驱动音频编辑”的大规模基准。

简单来说，以前的 AI 主要是“无中生有”，根据文字生成音频；而这次的重点是“修修补补”——让你对着已有的录音说话，AI 就能听懂并精准地改。

这要求模型得挺聪明：

其实挺实用的，比如做播客后期、调音乐或者给语音加个“特效”，这些活儿以前都得人坐在那儿一点点调，现在或许能省点力。

测出来的结果有点扎心：目前市面上主流 AI 模型在音频编辑上的**精确匹配率 **(EMR) 还不到 5%。

这意味着什么？就是现在的 AI 根本没法靠谱地干活：

说白了，想靠 AI 完美地编辑一段录音？目前还做不到。

MMAE 这个基准设计得挺全，也没留什么死角，主要就这几样：

随着多模态大模型越来越火，能精准编辑音频的能力，以后在内容创作、影视后期甚至给视障人士做辅助这些领域，都得是核心竞争力。

腾讯混元这次跟这么多高校合作，也算给中国这块研究争了个脸，说明咱们在这块儿是有基础的。

不过，现在技术还缺东西。大家也希望能多开放点开源资源，让后续模型能接着练，真正把音频 AI 从“只会生成”变成“能听话乱改”。

注：文中提到的技术背景涉及腾讯混元（Tencent Hunyuan）大模型系列。