AI-NEWS · 2024年 11月 24日

Meta新模型：AI情感表达升级

Meta AI 发布了名为 SPIRIT LM 的多模态语言模型

Meta AI 近期开源了一个基础的多模态语言模型——SPIRIT LM。该模型可以自由地混合文本和语音，为涉及音频和文本的任务开辟了许多新可能。

模型特性

基础参数：基于拥有70亿个参数的预训练文本语言模型。
扩展性：通过在文本和语音单元上进行连续训练来扩展到语音模态。SPIRIT LM 能够像大型文本模型一样理解和生成文本，同时也能理解和生成语音，并可以混合文本与语音以创造各种奇妙的效果。

应用场景

语音识别：将语音转换为文本。
语音合成：将文本转换为语音。
情感分类：确定一段语音所表达的情感。

情感表现能力

SPIRIT LM 特别擅长“情感表达”。它能够识别和生成各种语调和风格，使AI的声音听起来更加自然和富有感情。具体来说，SPIRIT LM 的声音不再是冷冰冰的机器音，而是像真人一样充满情感。

模型版本

基础版 (BASE)：主要关注语音的发音信息。
表达式版 (EXPRESSIVE)：除了发音信息外，还包括语调和风格信息，使AI的声音更生动和有表现力。

技术原理与测试

SPIRIT LM 是基于 Meta 之前发布的强大文本模型 LLAMA2 训练的。研究人员通过大量的文本和语音数据，并使用特殊的“交织训练”方法，使LLAMA2能够同时学习文本和语音模式。
为了测试SPIRIT LM的情感表达能力，Meta的研究人员设计了一个新的评测基准——“语音-文本情感保留基准”（STSP）。该基准包括各种表达不同情感的语音和文本提示，旨在检测AI模型是否能准确识别并生成相应的情感语言。结果表明，“表达式版”的 SPIRIT LM 在情感保存方面表现出色，是首个能够跨模态保持情感的人工智能模型。

改进方向

当前仅支持英语。
模型大小仍有提升空间。

未来展望

SPIRIT LM 是 Meta 在AI领域的一项重大突破，打开了“情感表达”人工智能世界的大门。我们相信，在不久的将来会看到更多基于 SPIRIT LM 的有趣应用开发出来，使AI不仅能说话还能像真人一样表达情感，实现与人类更加自然和友好的互动！

项目地址：SPIRIT LM
论文地址：Paper Address

版权所有 © 2024 AIbase Base

Source:https://www.aibase.com/news/13426

您可能还喜欢...