Stability AI 刚把 Stable Audio 3 放了出来,顺便把部分权重也开源了。这玩意儿是个潜扩散模型,专门干音频生成和编辑的活儿。最让我惊讶的不是音质变好(虽然确实支持高保真立体声),而是它跑起来的速度简直离谱。
怎么跑起来的?(省点显存吧)
以前跑扩散模型,显存不够就得哭。Stable Audio 3 换了个玩法,核心就两样东西:
- 语义声学自动编码器 (SAME):这哥们儿把音频压缩了整整 4096 倍。听着挺吓人,但好处是潜在序列变短了,显存占用直接下来了。
- 高效扩散 Transformer:配合上面的编码器,推理速度起飞。
这么一搞,你不用再去租用那些贵得要死的服务器集群了。普通电脑、家用显卡就能跑长音频生成。对于个人创作者来说,这意味着在家就能把专业级音频做出来,门槛算是彻底被砸碎了吧。
速度到底多快?
官方数据有点夸张,但我挺吃这一套:
| 音频时长 | 渲染耗时 | 感觉 |
|---|---|---|
| 20 秒 | 约 0.62 秒 | 秒出 |
| 380 秒 (约 6 分钟) | 仅 1.31 秒 | 真·亚秒级 |
注:以前生成 6 分钟的音乐,你得盯着进度条等个没完,或者被“固定长度限制”这种坑卡死。现在,点一下,1 秒多,出来。
还能干点啥?
- 想多长就有多长:以前生成 30 秒是标配,生成 3 分钟得另算一次。现在直接告诉模型你要几分钟,它动态调整算力,不用自己在那儿算成本了。
- 能改片段了:引入了内部图像补全技术(听着很玄乎,其实就是把音频转成图,改图再转回音)。你想把一首歌里的第二段副歌换个风格?行,局部修改,无缝衔接,不再是一次性生成的死胡同。
- 模型随便挑:从小模型到大模型都有,看你是要快速出个草稿,还是要精修成品。
怎么搞到手?
- 想玩的:Hugging Face 上已经开源了小型和中型模型,免费下,自己去折腾。
- 想商用或要最牛的:得走商业授权,买大模型。
这事儿意味着什么?
说实话,这感觉像是给音频生成领域来了一记“核爆”。
- 算力的枷锁断了:以前是“有钱才有算力,有算力才有好音质”。现在 4096 倍的压缩率,让这事儿变得没那么贵了。虽然“民主化”这个词用得太虚,但至少在个人开发者这块,路是通了。
- 交互方式变了:以前等几分钟看进度条,现在像用 ChatGPT 一样,输入提示词,盯着屏幕,1 秒后成品蹦出来。这种“即时反馈”带来的爽感,对创作者来说太重要了,工作流效率直接翻倍。
- 行业要抖三抖:对于音乐人和音效师,这简直是“杀手级”工具。以前写个音效得调半天参数,现在脑子里有个点子,输入进去,马上就能听到成品。这可能会让一些依赖昂贵采样库的工作模式显得有点……过时了。
不过我也在想,速度这么快,真的能生成出那种让人信服的细节吗?毕竟“快”和“好”有时候是打架的。但至少,它把“能不能用”这个问题,先给解决了。
