Meta AI 发布了名为 SPIRIT LM 的多模态语言模型
Meta AI 近期开源了一个基础的多模态语言模型——SPIRIT LM。该模型可以自由地混合文本和语音,为涉及音频和文本的任务开辟了许多新可能。
模型特性
- 基础参数:基于拥有70亿个参数的预训练文本语言模型。
- 扩展性:通过在文本和语音单元上进行连续训练来扩展到语音模态。SPIRIT LM 能够像大型文本模型一样理解和生成文本,同时也能理解和生成语音,并可以混合文本与语音以创造各种奇妙的效果。
应用场景
- 语音识别:将语音转换为文本。
- 语音合成:将文本转换为语音。
- 情感分类:确定一段语音所表达的情感。
情感表现能力
- SPIRIT LM 特别擅长“情感表达”。它能够识别和生成各种语调和风格,使AI的声音听起来更加自然和富有感情。具体来说,SPIRIT LM 的声音不再是冷冰冰的机器音,而是像真人一样充满情感。
模型版本
- 基础版 (BASE):主要关注语音的发音信息。
- 表达式版 (EXPRESSIVE):除了发音信息外,还包括语调和风格信息,使AI的声音更生动和有表现力。
技术原理与测试
- SPIRIT LM 是基于 Meta 之前发布的强大文本模型 LLAMA2 训练的。研究人员通过大量的文本和语音数据,并使用特殊的“交织训练”方法,使LLAMA2能够同时学习文本和语音模式。
- 为了测试SPIRIT LM的情感表达能力,Meta的研究人员设计了一个新的评测基准——“语音-文本情感保留基准”(STSP)。该基准包括各种表达不同情感的语音和文本提示,旨在检测AI模型是否能准确识别并生成相应的情感语言。结果表明,“表达式版”的 SPIRIT LM 在情感保存方面表现出色,是首个能够跨模态保持情感的人工智能模型。
改进方向
- 当前仅支持英语。
- 模型大小仍有提升空间。
未来展望
SPIRIT LM 是 Meta 在AI领域的一项重大突破,打开了“情感表达”人工智能世界的大门。我们相信,在不久的将来会看到更多基于 SPIRIT LM 的有趣应用开发出来,使AI不仅能说话还能像真人一样表达情感,实现与人类更加自然和友好的互动!
- 项目地址:SPIRIT LM
- 论文地址:Paper Address
版权所有 © 2024 AIbase Base