Stable Audio 3：快得有点“不讲理”

Stability AI 刚把 Stable Audio 3 放了出来，顺便把部分权重也开源了。这玩意儿是个潜扩散模型，专门干音频生成和编辑的活儿。最让我惊讶的不是音质变好（虽然确实支持高保真立体声），而是它跑起来的速度简直离谱。

怎么跑起来的？（省点显存吧）

以前跑扩散模型，显存不够就得哭。Stable Audio 3 换了个玩法，核心就两样东西：

这么一搞，你不用再去租用那些贵得要死的服务器集群了。普通电脑、家用显卡就能跑长音频生成。对于个人创作者来说，这意味着在家就能把专业级音频做出来，门槛算是彻底被砸碎了吧。

官方数据有点夸张，但我挺吃这一套：

音频时长	渲染耗时	感觉
20 秒	约 0.62 秒	秒出
380 秒 (约 6 分钟)	仅 1.31 秒	真·亚秒级

注：以前生成 6 分钟的音乐，你得盯着进度条等个没完，或者被“固定长度限制”这种坑卡死。现在，点一下，1 秒多，出来。

想多长就有多长：以前生成 30 秒是标配，生成 3 分钟得另算一次。现在直接告诉模型你要几分钟，它动态调整算力，不用自己在那儿算成本了。
能改片段了：引入了内部图像补全技术（听着很玄乎，其实就是把音频转成图，改图再转回音）。你想把一首歌里的第二段副歌换个风格？行，局部修改，无缝衔接，不再是一次性生成的死胡同。
模型随便挑：从小模型到大模型都有，看你是要快速出个草稿，还是要精修成品。

说实话，这感觉像是给音频生成领域来了一记“核爆”。

算力的枷锁断了：以前是“有钱才有算力，有算力才有好音质”。现在 4096 倍的压缩率，让这事儿变得没那么贵了。虽然“民主化”这个词用得太虚，但至少在个人开发者这块，路是通了。
交互方式变了：以前等几分钟看进度条，现在像用 ChatGPT 一样，输入提示词，盯着屏幕，1 秒后成品蹦出来。这种“即时反馈”带来的爽感，对创作者来说太重要了，工作流效率直接翻倍。
行业要抖三抖：对于音乐人和音效师，这简直是“杀手级”工具。以前写个音效得调半天参数，现在脑子里有个点子，输入进去，马上就能听到成品。这可能会让一些依赖昂贵采样库的工作模式显得有点……过时了。

不过我也在想，速度这么快，真的能生成出那种让人信服的细节吗？毕竟“快”和“好”有时候是打架的。但至少，它把“能不能用”这个问题，先给解决了。