巨人网络发布三大多模态模型:消除视频失真,实现实用化歌曲语音转换
模型概览
巨人网络AI实验室与清华大学SATLab、西北工业大学合作,于2025年11月27日发布了三项音视频多模态生成技术成果:
- YingVideo-MV – 音乐驱动视频生成模型
- YingMusic-SVC – 零样本语音转换模型
- YingMusic-Singer – 歌声合成模型
这些成果将在GitHub、HuggingFace等平台开源。
技术亮点
YingVideo-MV视频生成模型
- 输入要求:仅需"一段音乐+人物图像"
- 核心技术:
- 对音乐的节奏、情感、结构内容进行多模态分析
- 镜头运动与音乐高度同步
- 支持推拉、摇移等镜头语言
- 采用长期时序一致性机制,有效缓解长视频"失真"和"跳帧"问题
YingMusic-SVC语音转换模型
- 核心优势:专注"真实歌曲可用性"
- 技术突破:
- 优化真实音乐场景
- 有效抑制伴奏、和声、混响干扰
- 显著降低音高失真和高音失真风险
- 为高质量音乐再创作提供稳定技术支持
YingMusic-Singer歌声合成模型
- 功能特点:
- 支持在给定旋律下输入任意歌词
- 生成清晰发音、稳定旋律的自然歌声
- 核心能力:
- 灵活适配不同长度歌词
- 支持零样本语音克隆
- 大幅提升AI歌唱在创作中的灵活性和实用性
- 有效降低音乐创作门槛
行业意义
这些模型代表了团队在音视频多模态生成技术领域的最新进展,为AI在音乐视频创作、语音转换、歌声合成等场景提供了更实用的解决方案。
