Kunlun Tech发布开源多模态统一预训练模型Skywork UniPic
核心功能
- 图像理解:能够准确解析图像内容
- 文本到图像生成(T2I):根据文字描述生成对应图像
- 图像编辑:支持风格迁移等多种编辑操作
技术亮点
- 统一架构:受GPT-4o自回归范式启发,采用MAR编码器和SigLIP2结构设计
- 轻量高效:仅1.5B参数规模,性能接近大模型
- 端到端预训练:基于大规模高质量数据训练,具有良好的泛化性和迁移性
性能表现
- 在指令跟随、复杂指令生成和图像编辑等任务中表现优异
- 通过多阶段训练和渐进式任务引入,有效解决了多任务训练中的挑战
技术实现
- 建立了精细化的数据构建和训练体系
- 使用精选训练数据和创新奖励模型持续优化性能
- 采用"小而美"的技术设计理念
开放资源
- 模型权重
- 技术报告
- 代码仓库
行业影响
- 为多模态AI模型的实际应用提供了新解决方案
- 显著降低了技术门槛,促进开发者参与探索
- 体现了昆仑万维推动开放协作和创新共享的承诺