复旦大学研究团队推出了创新的语音模型——SpeechGPT。该模型不仅能理解和生成文本,还具备跨模态(语音和文本)的转换能力,能够感知和表达情感,并根据上下文提供多种风格的语音响应。
核心技术与训练策略
- 核心技术:将连续的语音信号离散化,与文本模态统一,使模型具备感知和生成语音的能力。
- 训练策略:
- 模态适应预训练:通过大量未标记语音数据进行训练,以适应语音模态。
- 跨模态指令微调:利用包含多种任务指令的SpeechInstruct数据集,学习跨模态指令执行。
- 模态链指令微调:进一步优化模态间的转换能力。
数据支持
- 研究团队构建了首个大规模跨模态语音指令数据集SpeechInstruct,涵盖多种任务类型。
实验结果
- SpeechGPT在文本任务、跨模态任务和口语对话任务上表现出强大的能力,包括准确的语音转录、文本转换为语音及口语对话。
- 尽管展现卓越能力,模型在噪声鲁棒性和语音生成的音质稳定性方面仍有待改进。
未来计划
- 研究团队计划开源技术报告、代码和模型权重,推动更广泛的研究和应用发展。