Fun-CineForge：AI 配音终于能“对口型”了？

阿里云通义实验室开源了个“电影级”配音模型

3 月 16 日，阿里云通义实验室把 Fun-CineForge 开源了。说实话，看到这个消息时我挺意外的。这玩意儿不是那种只会念客服台词的 AI，而是专门冲着动画和影视后期去的。简单来说，它想让 AI 配音从“念稿子”变成能演电影。

它到底解决了什么老毛病？

以前的 AI 配音，也就是给视频配个声音，经常翻车。Fun-CineForge 主要盯上了这三座大山：

嘴型对不上：人说话嘴在动，声音却慢了半拍，看着特别假。
没感情：不管你是哭是笑，声音永远平铺直叙，像个机器人。
换场景变声：同一个角色，上一秒是男声，下一秒可能变女声了，或者声音忽高忽低，完全听不出来是同一个人。

技术上有啥新花样？

以前做这个的模型，要么只看文本，要么只看视频画面，两头顾不过来。Fun-CineForge 搞了个新招，叫 “时间模态”。
这是什么意思呢？就是它不再把时间当成一个模糊的背景板，而是精确到了毫秒。

卡得死死的：它确保声音出来的时间跟嘴巴动的时间严丝合缝。
场面再乱也不慌：哪怕视频里人物走位很复杂，镜头切得飞快，或者人脸有点模糊，它都能稳住音画同步。这点真的很关键，毕竟影视后期最怕的就是这种“穿帮”。

数据是咋来的？

为了让模型更聪明，他们开源了一套叫 CineDub 的数据集构建流程。以前人工给视频标注声音、切分台词，累得半死还容易出错。现在用大模型的“思维链”技术，直接自动化处理。

不用人盯着干了：原始视频素材自动变成结构化数据。
数据质量挺高：
- 词错误率 (WER)：大概 1% 左右。
- 说话人分错：大概 1.20%。
  这个数据质量，比很多现成的数据集要强，至少给以后训练模型打好了底子。

哪里能下载？怎么用？

代码和模型都放出来了，三个地方都能下：

GitHub: FunAudioLLM/FunCineForge
HuggingFace: FunAudioLLM/Fun-CineForge
ModelScope: FunAudioLLM/Fun-CineForge

能搞定多长、多复杂的视频？

时长限制：目前支持 30 秒 的视频片段。
场景范围：
- 单个人对着镜头说话（口播）没问题。
- 双人甚至多人对话：这点算是个突破，以前 AI 搞不好多人同时说话，这个模型试着把专业级的对话场景也接上了。

一点个人看法
Fun-CineForge 确实有点东西。它不只是堆了个参数，而是真把“时间”这个维度给玩明白了。以前模型最大的死穴就是音画不同步，现在通过引入“时间模态”和自动化处理 CineDub 数据集，算是绕过了这个坎。
特别是它支持 30 秒长视频和多人对话，这意味着 AI 配音可能真的能进影视后期的正门了，不再只是做个简单的短视频背景音。当然，30 秒的时长限制也是个门槛，离拍个几分钟的片子还是有点距离，但这至少是个开始。

火龙果频道

近期新闻

AI-NEWS · 2026年 3月 17日

阿里云通义实验室开源了个“电影级”配音模型

它到底解决了什么老毛病？

技术上有啥新花样？

数据是咋来的？

哪里能下载？怎么用？

能搞定多长、多复杂的视频？

您可能还喜欢...

AI-NEWS · 2026年 3月 17日

阿里云通义实验室开源了个“电影级”配音模型

它到底解决了什么老毛病？

技术上有啥新花样？

数据是咋来的？

哪里能下载？怎么用？

能搞定多长、多复杂的视频？

您可能还喜欢...

蚂蚁开源AI全景2.0

GPT-5.4发布黑客技术

MiniMax开源高效模型