AI-NEWS · 2024年 7月 24日

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

归纳总结

产品发布与特点

Stability AI发布了一款名为Stable Audio Open的开源音频生成模型。
该模型能够从文本提示生成最长47秒的立体声音频，采样率达到44.1kHz。

开放性与数据合法性

Stable Audio Open的模型权重是开放的，任何人都可以查看、修改和扩展。
模型只使用了获得Creative Commons许可的音频文件进行训练，确保数据的合法性和道德性，避免版权问题。

技术优势

采用先进架构，确保文本转音频生成的高保真度，生成的立体声音频质量高且真实。
模型在训练过程中接触了多样的音频样本，提升了生成音频的多样性和真实性。

性能评估

通过FDopenl3这一关键评估指标进行全面性能评估，结果显示Stable Audio Open在生成高质量音频方面表现优异，与业界顶尖模型相当。

应用前景

Stable Audio Open不仅适合研究者、艺术家和开发者，也推动了科学研究的进展，为其提供了重要工具。

关键点

🎧 Stability AI发布了Stable Audio Open，一个支持生成变长（最长47秒）、44.1kHz立体声音频的开源模型。
📝 该模型仅使用了Creative Commons许可的音频数据进行训练，确保数据的合法性与道德性。
🔍 与业界顶尖模型相比，Stable Audio Open的音频生成质量经过验证，具备高保真度和多样性。

Source:https://www.aibase.com/news/10495

您可能还喜欢...