AI-NEWS · 2025年 7月 24日

快手交大发布Orthus模型

Kuaishou与上海交通大学联合发布多模态生成模型Orthus

核心亮点

模型特性：基于自回归Transformer架构的多模态生成与理解模型
核心能力：实现文本与图像间的无缝转换，展现前所未有的生成能力
开源状态：已正式开源

技术突破

计算效率：在最小计算资源下超越现有混合理解生成模型（如Chameleon和Show-o）
性能表现：
- 在多项图像理解指标上领先
- 在文本到图像生成的GenEval指标上超越专为此设计的扩散模型SDXL

应用潜力

图像编辑
网页生成

架构设计

核心组件：
- 文本标记器
- 视觉自动编码器
- 两个特定模态嵌入模块
创新特点：
- 将文本和图像特征整合到统一表示空间
- 通过特定标记自回归生成下一个文本标记或图像特征

技术优势

避免端到端扩散建模与自回归机制间的分歧
减少图像离散化造成的信息损失
成功将He Kai-ming的MAR工作扩展到多模态领域

合作意义

Kuaishou与上海交通大学的合作为多模态生成模型发展带来新可能性，值得产业界和学术界关注。

火龙果频道

您可能还喜欢...