生成容易,编辑还是难题
AI 在音频生成上已经很强了,只要给个提示词,就能变出各种声音。但反过来,编辑现有的录音却很难——想改哪就改哪,还不能伤及其他部分,这对现在的技术来说是个坎。
腾讯混元联手高校搞了个新测试
腾讯混元最近联合了上交、南洋理工、天津大学、北大和复旦这几所名校,一起推出了 MMAE (Massive Multitask Audio Editing Benchmark)。这算是行业里第一个专门用来测试“通用指令驱动音频编辑”的大规模基准。
简单来说,以前的 AI 主要是“无中生有”,根据文字生成音频;而这次的重点是“修修补补”——让你对着已有的录音说话,AI 就能听懂并精准地改。
这要求模型得挺聪明:
- 别乱改:只动你要改的那一段,别的部分得原封不动。
- 听指令:你得说清楚要干嘛,它得照着做,不能漏。
- 懂上下文:改完的那段跟周围的声音得搭得上,不能听着别扭。
其实挺实用的,比如做播客后期、调音乐或者给语音加个“特效”,这些活儿以前都得人坐在那儿一点点调,现在或许能省点力。
现状挺尴尬:准确率不到 5%
测出来的结果有点扎心:目前市面上主流 AI 模型在音频编辑上的**精确匹配率 **(EMR) 还不到 5%。
这意味着什么?就是现在的 AI 根本没法靠谱地干活:
- 手太“重”:你只想改个词,它可能把整段背景音都改了。
- 听不懂:指令稍微复杂点,它就漏掉一半。
- 音质变渣:改完之后,声音听着都失真了。
说白了,想靠 AI 完美地编辑一段录音?目前还做不到。
这个测试挺“狠”的,测得细
MMAE 这个基准设计得挺全,也没留什么死角,主要就这几样:
- 样本够多:用了 2,000 个真实的音频样本,不是随便凑的,保真度很高。
- 指标够细:光评估规则就有 17,741 个,得分算得清清楚楚,没法糊弄。
- 花样够全:分 7 种模式,声音、音乐、人声,还有各种混在一起的情况,啥环境都能测。
- 难度分级:一共 6 个难度等级,从最简单的改个音高,到那种需要好几步推理的复杂编辑,全都有。
- 操作够细:支持 8 种不同的编辑方式,局部微调、全局重调,看模型能不能精细控制。
以后这技术可能是个核心
随着多模态大模型越来越火,能精准编辑音频的能力,以后在内容创作、影视后期甚至给视障人士做辅助这些领域,都得是核心竞争力。
腾讯混元这次跟这么多高校合作,也算给中国这块研究争了个脸,说明咱们在这块儿是有基础的。
不过,现在技术还缺东西。大家也希望能多开放点开源资源,让后续模型能接着练,真正把音频 AI 从“只会生成”变成“能听话乱改”。
注:文中提到的技术背景涉及腾讯混元(Tencent Hunyuan)大模型系列。
