AI-NEWS · 2025年 11月 28日

巨人网络发布三大多模态模型

巨人网络发布三大多模态模型：消除视频失真，实现实用化歌曲语音转换

模型概览

巨人网络AI实验室与清华大学SATLab、西北工业大学合作，于2025年11月27日发布了三项音视频多模态生成技术成果：

YingVideo-MV – 音乐驱动视频生成模型
YingMusic-SVC – 零样本语音转换模型
YingMusic-Singer – 歌声合成模型

这些成果将在GitHub、HuggingFace等平台开源。

技术亮点

YingVideo-MV视频生成模型

输入要求：仅需"一段音乐+人物图像"
核心技术：
- 对音乐的节奏、情感、结构内容进行多模态分析
- 镜头运动与音乐高度同步
- 支持推拉、摇移等镜头语言
- 采用长期时序一致性机制，有效缓解长视频"失真"和"跳帧"问题

YingMusic-SVC语音转换模型

核心优势：专注"真实歌曲可用性"
技术突破：
- 优化真实音乐场景
- 有效抑制伴奏、和声、混响干扰
- 显著降低音高失真和高音失真风险
- 为高质量音乐再创作提供稳定技术支持

YingMusic-Singer歌声合成模型

功能特点：
- 支持在给定旋律下输入任意歌词
- 生成清晰发音、稳定旋律的自然歌声
核心能力：
- 灵活适配不同长度歌词
- 支持零样本语音克隆
- 大幅提升AI歌唱在创作中的灵活性和实用性
- 有效降低音乐创作门槛

行业意义

这些模型代表了团队在音视频多模态生成技术领域的最新进展，为AI在音乐视频创作、语音转换、歌声合成等场景提供了更实用的解决方案。

火龙果频道

您可能还喜欢...