AI-NEWS · 2025年 5月 29日

图音生视频

混元视频-虚拟人技术分析报告

核心技术创新点

音频驱动人体动画技术
- 采用Transformer架构(MM-DiT)实现音视频同步生成
- 支持多分辨率输出(480p/720p/1080p)
五大核心模块
- 角色图像注入模块
- 音频情感识别模块(采用cross-attention潜在空间技术)
- 面部感知音频适配器("face mask"技术)
- 时序感知位置偏移融合(支持129种音素识别)
- 角色一致性保持技术

性能数据

训练数据集规模：50万+样本
支持1250种面部表情生成
评估指标：
- TFIQA(面部图像质量评估)
- ASEFID(音频-嘴型同步指标)
- FVDSync-C(视频流畅度指标)

技术亮点

多模态融合架构
实时渲染能力(支持0.5x-2.0x倍速调整)
GitHub开源部分代码(访问量达1060次)

应用场景

虚拟主播
在线教育
数字人交互

版本信息

当前版本：1.2
支持平台：Web端/移动端

注：该技术由腾讯混元实验室研发，发布时间为2025年5月29日前10小时

火龙果频道

您可能还喜欢...