AI-NEWS · 2024年 7月 24日

Stability AI开源音频生成模型Stable Audio Open:可生成47秒的立体声音频

归纳总结

产品发布与特点

  • Stability AI发布了一款名为Stable Audio Open的开源音频生成模型。
  • 该模型能够从文本提示生成最长47秒的立体声音频,采样率达到44.1kHz。

开放性与数据合法性

  • Stable Audio Open的模型权重是开放的,任何人都可以查看、修改和扩展。
  • 模型只使用了获得Creative Commons许可的音频文件进行训练,确保数据的合法性和道德性,避免版权问题。

技术优势

  • 采用先进架构,确保文本转音频生成的高保真度,生成的立体声音频质量高且真实。
  • 模型在训练过程中接触了多样的音频样本,提升了生成音频的多样性和真实性。

性能评估

  • 通过FDopenl3这一关键评估指标进行全面性能评估,结果显示Stable Audio Open在生成高质量音频方面表现优异,与业界顶尖模型相当。

应用前景

  • Stable Audio Open不仅适合研究者、艺术家和开发者,也推动了科学研究的进展,为其提供了重要工具。

关键点

  • 🎧 Stability AI发布了Stable Audio Open,一个支持生成变长(最长47秒)、44.1kHz立体声音频的开源模型。
  • 📝 该模型仅使用了Creative Commons许可的音频数据进行训练,确保数据的合法性与道德性。
  • 🔍 与业界顶尖模型相比,Stable Audio Open的音频生成质量经过验证,具备高保真度和多样性。

Source:https://www.aibase.com/news/10495