一句话变电影级声音？

火山引擎昨天发了个新东西，叫豆包语音生成模型 1.0。

这玩意儿挺有意思，你不用像以前那样去调音轨、对节奏、混音乐，也不用管什么专业软件了。你只需要写一句话，告诉它要谁说话、是什么语气，甚至想加什么背景音，它就能直接给你整出成品音频。

以前做有声书或者广告配音，得把台词、音效、音乐分开生成，再费劲地对齐，搞不好还得返工。现在呢，一条指令搞定全片，连笑声、叹息这些细节都能控制。

最让我觉得它有点东西的是“长音频一致性”。很多 AI 声音播客有个毛病，讲到一半声音就开始变了，或者跟参考音频对不上。这个模型好像解决了这个问题，声音从头到尾都挺稳当的。目前一次能生成 2 分钟的音频，虽然不算长，但比那些只能生成几秒钟的要强多了。

还有个挺实用的功能，就是声音和情绪能分开调。比如你想用同一个人的声音演三个不同性格的角色，这个模型能做到，不用找三个不同的配音演员。

火山引擎这边已经把 API 放出来了，个人用户可以先去体验中心试个 30 分钟。另外，剪映、即梦还有番茄小说这些 App 也会同步上线这个功能。

说实话，这种技术出来确实让人有点既兴奋又有点担心。兴奋的是以后配音门槛低太多了，连个手机就能搞定大片感；担心的是万一大家随便用，会不会让声音市场变得很乱？不过先看看实际效果再说吧。

近期新闻