AI-NEWS · 2025年 11月 28日

巨人网络发布三大多模态模型

巨人网络发布三大多模态模型:消除视频失真,实现实用化歌曲语音转换

模型概览

巨人网络AI实验室与清华大学SATLab、西北工业大学合作,于2025年11月27日发布了三项音视频多模态生成技术成果:

  1. YingVideo-MV – 音乐驱动视频生成模型
  2. YingMusic-SVC – 零样本语音转换模型
  3. YingMusic-Singer – 歌声合成模型

这些成果将在GitHub、HuggingFace等平台开源。

技术亮点

YingVideo-MV视频生成模型

  • 输入要求:仅需"一段音乐+人物图像"
  • 核心技术
    • 对音乐的节奏、情感、结构内容进行多模态分析
    • 镜头运动与音乐高度同步
    • 支持推拉、摇移等镜头语言
    • 采用长期时序一致性机制,有效缓解长视频"失真"和"跳帧"问题

YingMusic-SVC语音转换模型

  • 核心优势:专注"真实歌曲可用性"
  • 技术突破
    • 优化真实音乐场景
    • 有效抑制伴奏、和声、混响干扰
    • 显著降低音高失真和高音失真风险
    • 为高质量音乐再创作提供稳定技术支持

YingMusic-Singer歌声合成模型

  • 功能特点
    • 支持在给定旋律下输入任意歌词
    • 生成清晰发音、稳定旋律的自然歌声
  • 核心能力
    • 灵活适配不同长度歌词
    • 支持零样本语音克隆
    • 大幅提升AI歌唱在创作中的灵活性和实用性
    • 有效降低音乐创作门槛

行业意义

这些模型代表了团队在音视频多模态生成技术领域的最新进展,为AI在音乐视频创作、语音转换、歌声合成等场景提供了更实用的解决方案。

火龙果频道