AI-NEWS · 2025年 7月 31日

昆仑开源多模态模型

Kunlun Tech发布开源多模态统一预训练模型Skywork UniPic

核心功能

  • 图像理解:能够准确解析图像内容
  • 文本到图像生成(T2I):根据文字描述生成对应图像
  • 图像编辑:支持风格迁移等多种编辑操作

技术亮点

  • 统一架构:受GPT-4o自回归范式启发,采用MAR编码器和SigLIP2结构设计
  • 轻量高效:仅1.5B参数规模,性能接近大模型
  • 端到端预训练:基于大规模高质量数据训练,具有良好的泛化性和迁移性

性能表现

  • 在指令跟随、复杂指令生成和图像编辑等任务中表现优异
  • 通过多阶段训练和渐进式任务引入,有效解决了多任务训练中的挑战

技术实现

  1. 建立了精细化的数据构建和训练体系
  2. 使用精选训练数据和创新奖励模型持续优化性能
  3. 采用"小而美"的技术设计理念

开放资源

  • 模型权重
  • 技术报告
  • 代码仓库

行业影响

  • 为多模态AI模型的实际应用提供了新解决方案
  • 显著降低了技术门槛,促进开发者参与探索
  • 体现了昆仑万维推动开放协作和创新共享的承诺

火龙果频道