Kuaishou与上海交通大学联合发布多模态生成模型Orthus
核心亮点
- 模型特性:基于自回归Transformer架构的多模态生成与理解模型
- 核心能力:实现文本与图像间的无缝转换,展现前所未有的生成能力
- 开源状态:已正式开源
技术突破
- 计算效率:在最小计算资源下超越现有混合理解生成模型(如Chameleon和Show-o)
- 性能表现:
- 在多项图像理解指标上领先
- 在文本到图像生成的GenEval指标上超越专为此设计的扩散模型SDXL
应用潜力
- 图像编辑
- 网页生成
架构设计
- 核心组件:
- 文本标记器
- 视觉自动编码器
- 两个特定模态嵌入模块
- 创新特点:
- 将文本和图像特征整合到统一表示空间
- 通过特定标记自回归生成下一个文本标记或图像特征
技术优势
- 避免端到端扩散建模与自回归机制间的分歧
- 减少图像离散化造成的信息损失
- 成功将He Kai-ming的MAR工作扩展到多模态领域
合作意义
Kuaishou与上海交通大学的合作为多模态生成模型发展带来新可能性,值得产业界和学术界关注。