AI-NEWS · 2026年 6月 25日

豆包音频模型:别再剪片子了

豆包音频生成模型 1.0 发布:把剪辑师的工作交给 AI

字节跳动火山引擎在 6 月 23 日发了个新东西,叫豆包音频生成模型 1.0。简单说,就是终于不用像以前那样,吭哧吭哧地对齐人声、音效和背景音乐了。现在,你更像是在给 AI 当导演,而不是苦哈哈的剪辑师。

这玩意儿到底能干嘛?

以前做音频,痛点太明显:台词、音效、BGM 得分开跑,最后还得手动拼在一起,稍微专业点的活儿都得找外包。

豆包这个新模型把这事改了:

  1. 一句话生成全套
    你不用管技术细节,只要告诉它:“我要一段悲伤的分手戏,背景是下雨的咖啡馆,主角是个失恋的男生。”它直接给你生成人声、雨声、咖啡机声,还有那种压抑的 BGM。不用再去软件里找素材对波形了。

  2. 人声不跑调(这点很关键)
    做长篇小说或者播客最怕什么?前一段声音年轻,后一段突然变老,或者同一个角色说话语气忽高忽低。这个模型通过跟参考音频深度绑定,能保证你在几千字甚至更长的内容里,同一个角色的声音始终是“他”,不会变成另一个人。

  3. 声音和情绪能分开调
    以前换种心情,可能得换个声音模型。现在不一样了,声音是声音,情绪是情绪。同一个声音模型,既能演开心,也能演生气,还能演那种半开玩笑的讽刺。这对想自己试水做内容的人来说,门槛算是真低了。

怎么用到我身上?

别急,这东西马上就能用,而且比较开放:

  • API 测试:火山引擎的火山方舟已经开放了接口测试,如果你是开发者,可以去申请。
  • 个人也能玩:普通用户现在就能拿 30 分钟 的额度试试水。
  • 常用软件里见:很快你就能在剪映、即梦、番茄小说这些常用 App 里直接找到这个功能。

说点实在的:这会对行业有啥影响?

说实话,看着这种新闻,心情挺复杂的。一方面确实厉害,另一方面也让人有点不安。

  1. 干活方式彻底变了
    以前我们想个好点子,得花半天去配音、找音效、调混音,累得半死。现在有了这个,想法来了,直接让 AI 生成初稿,人只需要负责“修修补补”和“挑挑拣拣”。效率是高了,但那种自己对着麦克风一遍遍琢磨语感的“心流”感觉,好像变少了。

  2. 谁都能做音频了?
    以前做有声书得养团队,现在一个人坐在电脑前敲键盘就能出成品。这对小创作者是好事,但也意味着以后网上那种“纯人工打磨”的高质量音频可能会变少,满屏都是 AI 生成的“快餐内容”。

  3. 创作者的“全能管家”
    以后写剧本的时候,不用自己先录个 Demo 听听效果,直接让 AI 生成几种不同风格的音频给你听。剧本写得好不好,AI 生成的声音是不是味儿,立马就能知道。

总的来说,这工具挺好用,但也让我们开始担心:当 AI 能完美模拟人类情感时,我们自己的声音和故事,还有多少存在的必要呢?

(注:以上信息基于公开报道整理,具体功能以实际使用为准。)

火龙果频道