阿里开源视频生成模型"通义万相2.2":三大核心模型与技术突破
核心模型发布
阿里今晚正式开源视频生成模型"通义万相2.2",包含三大核心模型:
- 文本生成视频(Wan 2.2-T2V-A14B)
- 图像生成视频(Wan 2.2-I2V-A14B)
- 统一视频生成(Wan 2.2-IT2V-5B)
行业首创MoE架构
- 首次在视频生成扩散模型中引入MoE(Mixture of Experts)架构
- 有效解决长token导致的算力消耗过大问题
- 文本/图像生成视频模型总参数量27B,激活参数14B
- 计算效率提升50%,同时显著改善:
- 复杂运动生成
- 角色互动
- 美学表现
首创电影美学控制系统
- 实现专业电影级效果控制:
- 灯光
- 色彩
- 构图
- 微表情
- 示例效果:
- 输入"日落"、"柔光"等关键词 → 生成浪漫金色日落场景
- 输入"冷色调"、"硬光"等 → 生成科幻电影风格画面
5B统一模型特性
- 支持文本/图像双输入的视频生成
- 采用高压缩3D VAE架构:
- 时空压缩比416:16
- 信息压缩率64%(开源模型最高水平)
- 硬件要求:
- 仅需22GB显存(单张消费级显卡)
- 几分钟内生成5秒高清视频
- 目前生成24fps/720P视频最快的基模型
开放获取渠道
- 开发者:
- GitHub
- HuggingFace
- Moda社区
- 企业用户:
- 通过阿里云百炼调用API
- 普通用户:
- 通义万相官网
- 通义APP
开源影响力
自2024年2月以来,通义万相已连续开源多个模型:
- 文本生成视频
- 图像生成视频
- 首尾帧生成视频
- 全能编辑模型
开源社区下载量已突破500万次,为AI视频生成技术的普及发展做出重要贡献。