AI-NEWS · 2025年 7月 24日

快手交大发布Orthus模型

Kuaishou与上海交通大学联合发布多模态生成模型Orthus

核心亮点

  • 模型特性:基于自回归Transformer架构的多模态生成与理解模型
  • 核心能力:实现文本与图像间的无缝转换,展现前所未有的生成能力
  • 开源状态:已正式开源

技术突破

  • 计算效率:在最小计算资源下超越现有混合理解生成模型(如Chameleon和Show-o)
  • 性能表现
    • 在多项图像理解指标上领先
    • 在文本到图像生成的GenEval指标上超越专为此设计的扩散模型SDXL

应用潜力

  • 图像编辑
  • 网页生成

架构设计

  • 核心组件
    • 文本标记器
    • 视觉自动编码器
    • 两个特定模态嵌入模块
  • 创新特点
    • 将文本和图像特征整合到统一表示空间
    • 通过特定标记自回归生成下一个文本标记或图像特征

技术优势

  1. 避免端到端扩散建模与自回归机制间的分歧
  2. 减少图像离散化造成的信息损失
  3. 成功将He Kai-ming的MAR工作扩展到多模态领域

合作意义

Kuaishou与上海交通大学的合作为多模态生成模型发展带来新可能性,值得产业界和学术界关注。

火龙果频道