AI-NEWS · 2025年 5月 29日

图音生视频

混元视频-虚拟人技术分析报告

核心技术创新点

  1. 音频驱动人体动画技术

    • 采用Transformer架构(MM-DiT)实现音视频同步生成
    • 支持多分辨率输出(480p/720p/1080p)
  2. 五大核心模块

    • 角色图像注入模块
    • 音频情感识别模块(采用cross-attention潜在空间技术)
    • 面部感知音频适配器("face mask"技术)
    • 时序感知位置偏移融合(支持129种音素识别)
    • 角色一致性保持技术

性能数据

  • 训练数据集规模:50万+样本
  • 支持1250种面部表情生成
  • 评估指标:
    • TFIQA(面部图像质量评估)
    • ASEFID(音频-嘴型同步指标)
    • FVDSync-C(视频流畅度指标)

技术亮点

  1. 多模态融合架构
  2. 实时渲染能力(支持0.5x-2.0x倍速调整)
  3. GitHub开源部分代码(访问量达1060次)

应用场景

  • 虚拟主播
  • 在线教育
  • 数字人交互

版本信息

  • 当前版本:1.2
  • 支持平台:Web端/移动端

注:该技术由腾讯混元实验室研发,发布时间为2025年5月29日前10小时

火龙果频道