AI-NEWS · 2026年 3月 17日

通义开源 Fun-CineForge：多人大戏配音难题终被攻克

终于能搞“多人大戏”了

以前用 AI 配音，往往只能应付简单的独白。一旦画面里出现多人对话，或者演员面部被遮挡、情绪突然爆发，传统的工具就会崩，生成的声音和口型对不上，听着特别假。

通义实验室这次算是把这块硬骨头啃下来了，他们正式开源了一个叫 Fun-CineForge 的新模型。这玩意儿的目标很明确：把影视和动画配音的门槛彻底打下来。

它主要解决了四个让人头秃的痛点：

口型对得上：不再是那种僵硬的对嘴，合成出来的声音和画面里的嘴型动作几乎是一模一样的。
情绪演得出来：模型能读懂指令，结合演员脸上的表情，让 AI 生成的声音带着真实的喜怒哀乐，不再像念经。
角色声音不乱：哪怕是一堆人在吵架，每个人说话时的声音也能保持各自的特色，不会一会儿是男声一会儿变女声。
遮挡也不怕：就算说话的人背过身去，或者被前景挡住，AI 也能算出他在那一秒应该说什么，精准地把声音“插”进去。

这技术到底新在哪？

Fun-CineForge 厉害的地方在于它的架构，简单说就是“数据 + 模型”双管齐下。

1. 先搞定高质量数据

以前做这种模型，最大的拦路虎就是没好数据。通义这次直接开源了 CineDub 这个自动化构建流程，而且用了“思维链”这种技术来自动纠错。

转写更准了：中英文的转写错误率降到了 1% – 2% 左右。
分得更清：把不同人说哪句话的识别错误率也压到了 1.2%。

2. 多模态“合体”

以前的模型大多只看文本或只听声音，这次 Fun-CineForge 搞了个新招——引入了 “时间模态”。

视觉：看口型形状和表情。
文本：抓对话里的感情色彩。
音频：参考声音音色。
效果：把这三样东西和时间维度绑在一起算，模型就算在画面里看不到人脸，也能精准地把声音和口型对齐。

实测效果：终于能信了

跑了几组实验，结果确实比之前的 DeepDubber-V1 等模型强不少。

词错率更低：WER 和 CER 指标都下来了。
同步度更高：LSE-C/D 这种衡量口型同步的指标，提升明显。
能扛住大场面：以前 AI 配音，人多了就乱套。这个模型居然能搞定二重唱，还能处理那种几十个人在屏幕里对线的场景。
短片段更稳：在 30 秒以内的视频里，它几乎没出什么岔子。

怎么下载使用？

想玩儿的直接去下：

GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

说实话，看到这种能处理复杂多人场景的模型出来，确实让人有点小兴奋。毕竟以后做那种大制作的短视频或者独立动画，不用愁配音配不上口型了，成本也低多了。

火龙果频道

您可能还喜欢...