AI-NEWS · 2025年 7月 29日

阿里云开源通义万相2.2

阿里开源视频生成模型"通义万相2.2":三大核心模型与技术突破

核心模型发布

阿里今晚正式开源视频生成模型"通义万相2.2",包含三大核心模型:

  • 文本生成视频(Wan 2.2-T2V-A14B)
  • 图像生成视频(Wan 2.2-I2V-A14B)
  • 统一视频生成(Wan 2.2-IT2V-5B)

行业首创MoE架构

  • 首次在视频生成扩散模型中引入MoE(Mixture of Experts)架构
  • 有效解决长token导致的算力消耗过大问题
  • 文本/图像生成视频模型总参数量27B,激活参数14B
  • 计算效率提升50%,同时显著改善:
    • 复杂运动生成
    • 角色互动
    • 美学表现

首创电影美学控制系统

  • 实现专业电影级效果控制:
    • 灯光
    • 色彩
    • 构图
    • 微表情
  • 示例效果:
    • 输入"日落"、"柔光"等关键词 → 生成浪漫金色日落场景
    • 输入"冷色调"、"硬光"等 → 生成科幻电影风格画面

5B统一模型特性

  • 支持文本/图像双输入的视频生成
  • 采用高压缩3D VAE架构:
    • 时空压缩比416:16
    • 信息压缩率64%(开源模型最高水平)
  • 硬件要求:
    • 仅需22GB显存(单张消费级显卡)
    • 几分钟内生成5秒高清视频
  • 目前生成24fps/720P视频最快的基模型

开放获取渠道

  • 开发者
    • GitHub
    • HuggingFace
    • Moda社区
  • 企业用户
    • 通过阿里云百炼调用API
  • 普通用户
    • 通义万相官网
    • 通义APP

开源影响力

自2024年2月以来,通义万相已连续开源多个模型:

  • 文本生成视频
  • 图像生成视频
  • 首尾帧生成视频
  • 全能编辑模型
    开源社区下载量已突破500万次,为AI视频生成技术的普及发展做出重要贡献。

火龙果频道