AI-NEWS · 2025年 3月 4日

智谱开源中文生图模型

智谱AI开源中文文本-图像模型CogView4技术解析

核心功能

  • 原生中文支持:无需翻译软件可直接使用中文指令生成图像,首次实现中文文本直输图像合成;
  • 无限制创作自由度:支持任意图像尺寸与超长提示词输入,满足复杂场景及高清创作需求;
  • 权威性能验证:获DPG-Bench视觉生成榜单第一名,综合性能行业领先;
  • 开源生态配套:同步开源ControlNet、ComfyUI等插件及模型微调工具链。

技术升级亮点

1. 双语能力突破

  • 搭载新版GLM-4编码器架构;
  • 中英双语混合数据集训练优化,突破单一语言限制;
  • 中文提示词语义推理效率提升显著。

2. 动态文本处理

  • 采用可变长动态编码技术;
  • 处理效率较固定长度方法提升5%-30%。

3. 分辨率灵活适配

  • 混合分辨率训练模式(Hybrid resolution training);
  • 二维旋转位置编码优化布局合理性;
  • 基于Flow-matching的扩散模型提升边缘质量。

训练策略进化

  • 分阶优化路径:基础分辨率训练→多分辨率适应→高质量数据精调;
  • 参数优化创新
    • Share-param DiT模块保持结构稳定性;
    • 跨模态独立自适应归一化(adaptive layer normalization);
  • 人类偏好对齐:通过人工筛选优化生成质量。

开源生态布局

工具类型 功能定位
ControlNet 精细化图像风格控制
ComfyUI 可视化交互界面支持
微调工具包 领域定制化模型训练支持

项目价值:CogView4的开放标志着中文多模态生成领域迎来技术平权时代,使得中文用户无需依赖翻译工具链即可实现创意表达闭环,其技术路径为后续双语多模态模型研发提供重要参考。

项目源码:GitHub开源地址(版权归属:AIbase 2024)

火龙果频道