AI-NEWS · 2025年 7月 29日

阿里云开源通义万相2.2

阿里开源视频生成模型"通义万相2.2"：三大核心模型与技术突破

核心模型发布

阿里今晚正式开源视频生成模型"通义万相2.2"，包含三大核心模型：

文本生成视频(Wan 2.2-T2V-A14B)
图像生成视频(Wan 2.2-I2V-A14B)
统一视频生成(Wan 2.2-IT2V-5B)

行业首创MoE架构

首次在视频生成扩散模型中引入MoE(Mixture of Experts)架构
有效解决长token导致的算力消耗过大问题
文本/图像生成视频模型总参数量27B，激活参数14B
计算效率提升50%，同时显著改善：
- 复杂运动生成
- 角色互动
- 美学表现

首创电影美学控制系统

实现专业电影级效果控制：
- 灯光
- 色彩
- 构图
- 微表情
示例效果：
- 输入"日落"、"柔光"等关键词 → 生成浪漫金色日落场景
- 输入"冷色调"、"硬光"等 → 生成科幻电影风格画面

5B统一模型特性

支持文本/图像双输入的视频生成
采用高压缩3D VAE架构：
- 时空压缩比416:16
- 信息压缩率64%（开源模型最高水平）
硬件要求：
- 仅需22GB显存（单张消费级显卡）
- 几分钟内生成5秒高清视频
目前生成24fps/720P视频最快的基模型

开放获取渠道

开发者：
- GitHub
- HuggingFace
- Moda社区
企业用户：
- 通过阿里云百炼调用API
普通用户：
- 通义万相官网
- 通义APP

开源影响力

自2024年2月以来，通义万相已连续开源多个模型：

文本生成视频
图像生成视频
首尾帧生成视频
全能编辑模型
开源社区下载量已突破500万次，为AI视频生成技术的普及发展做出重要贡献。

火龙果频道

您可能还喜欢...