智谱AI发布全球首个开源中文生成式文生图模型CogView4

一、核心亮点

多语言支持
- 采用双语GLM-4编码器，支持中英文混合输入的任意长度文本
- 独有自适应层归一化技术（Adaptive LayerNorm），优化图文模态对齐
生成能力
- 2D旋转位置编码（2D RoPE）：突破传统固定分辨率限制，支持任意分辨率图像生成
- Flow-matching扩散框架：结合参数化线性动态噪声调度，适配不同分辨率图像的SNR需求
架构升级
- Share-param DiT架构延续：跨模态参数共享提升训练效率
- 多阶段训练策略：覆盖基础分辨率训练→全分辨率泛化→高质量数据优化→人类偏好对齐

指标	详情
训练效率提升	较传统固定512 token方法提升5%-30%增量训练效率
Token冗余度降低	减少约50%文本token冗余（基于200-300 tokens平均长度验证）
泛化能力	开源模型首次实现：

通过对训练架构与数据效率的深度优化，CogView4不仅在生成质量上达到新高度，更通过技术创新推动开源社区向多语言、高灵活度的AIGC工具发展。