AI-NEWS · 2026年 3月 17日

通义开源 Fun-CineForge:多人大戏配音难题终被攻克

终于能搞“多人大戏”了

以前用 AI 配音,往往只能应付简单的独白。一旦画面里出现多人对话,或者演员面部被遮挡、情绪突然爆发,传统的工具就会崩,生成的声音和口型对不上,听着特别假。

通义实验室这次算是把这块硬骨头啃下来了,他们正式开源了一个叫 Fun-CineForge 的新模型。这玩意儿的目标很明确:把影视和动画配音的门槛彻底打下来。

它主要解决了四个让人头秃的痛点:

  • 口型对得上:不再是那种僵硬的对嘴,合成出来的声音和画面里的嘴型动作几乎是一模一样的。
  • 情绪演得出来:模型能读懂指令,结合演员脸上的表情,让 AI 生成的声音带着真实的喜怒哀乐,不再像念经。
  • 角色声音不乱:哪怕是一堆人在吵架,每个人说话时的声音也能保持各自的特色,不会一会儿是男声一会儿变女声。
  • 遮挡也不怕:就算说话的人背过身去,或者被前景挡住,AI 也能算出他在那一秒应该说什么,精准地把声音“插”进去。

这技术到底新在哪?

Fun-CineForge 厉害的地方在于它的架构,简单说就是“数据 + 模型”双管齐下。

1. 先搞定高质量数据

以前做这种模型,最大的拦路虎就是没好数据。通义这次直接开源了 CineDub 这个自动化构建流程,而且用了“思维链”这种技术来自动纠错。

  • 转写更准了:中英文的转写错误率降到了 1% – 2% 左右。
  • 分得更清:把不同人说哪句话的识别错误率也压到了 1.2%。

2. 多模态“合体”

以前的模型大多只看文本或只听声音,这次 Fun-CineForge 搞了个新招——引入了 “时间模态”

  • 视觉:看口型形状和表情。
  • 文本:抓对话里的感情色彩。
  • 音频:参考声音音色。
  • 效果:把这三样东西和时间维度绑在一起算,模型就算在画面里看不到人脸,也能精准地把声音和口型对齐。

实测效果:终于能信了

跑了几组实验,结果确实比之前的 DeepDubber-V1 等模型强不少。

  • 词错率更低:WER 和 CER 指标都下来了。
  • 同步度更高:LSE-C/D 这种衡量口型同步的指标,提升明显。
  • 能扛住大场面:以前 AI 配音,人多了就乱套。这个模型居然能搞定二重唱,还能处理那种几十个人在屏幕里对线的场景。
  • 短片段更稳:在 30 秒以内的视频里,它几乎没出什么岔子。

怎么下载使用?

想玩儿的直接去下:

说实话,看到这种能处理复杂多人场景的模型出来,确实让人有点小兴奋。毕竟以后做那种大制作的短视频或者独立动画,不用愁配音配不上口型了,成本也低多了。

火龙果频道