AI-NEWS · 2026年 6月 25日

一句话变电影级声音?

火山引擎昨天发了个新东西,叫豆包语音生成模型 1.0。

这玩意儿挺有意思,你不用像以前那样去调音轨、对节奏、混音乐,也不用管什么专业软件了。你只需要写一句话,告诉它要谁说话、是什么语气,甚至想加什么背景音,它就能直接给你整出成品音频。

以前做有声书或者广告配音,得把台词、音效、音乐分开生成,再费劲地对齐,搞不好还得返工。现在呢,一条指令搞定全片,连笑声、叹息这些细节都能控制。

最让我觉得它有点东西的是“长音频一致性”。很多 AI 声音播客有个毛病,讲到一半声音就开始变了,或者跟参考音频对不上。这个模型好像解决了这个问题,声音从头到尾都挺稳当的。目前一次能生成 2 分钟的音频,虽然不算长,但比那些只能生成几秒钟的要强多了。

还有个挺实用的功能,就是声音和情绪能分开调。比如你想用同一个人的声音演三个不同性格的角色,这个模型能做到,不用找三个不同的配音演员。

火山引擎这边已经把 API 放出来了,个人用户可以先去体验中心试个 30 分钟。另外,剪映、即梦还有番茄小说这些 App 也会同步上线这个功能。

说实话,这种技术出来确实让人有点既兴奋又有点担心。兴奋的是以后配音门槛低太多了,连个手机就能搞定大片感;担心的是万一大家随便用,会不会让声音市场变得很乱?不过先看看实际效果再说吧。

火龙果频道