AI-NEWS · 2025年 3月 4日

智谱开源中文生图模型

智谱AI开源中文文本-图像模型CogView4技术解析

核心功能

原生中文支持：无需翻译软件可直接使用中文指令生成图像，首次实现中文文本直输图像合成；
无限制创作自由度：支持任意图像尺寸与超长提示词输入，满足复杂场景及高清创作需求；
权威性能验证：获DPG-Bench视觉生成榜单第一名，综合性能行业领先；
开源生态配套：同步开源ControlNet、ComfyUI等插件及模型微调工具链。

技术升级亮点

1. 双语能力突破

搭载新版GLM-4编码器架构；
中英双语混合数据集训练优化，突破单一语言限制；
中文提示词语义推理效率提升显著。

2. 动态文本处理

采用可变长动态编码技术；
处理效率较固定长度方法提升5%-30%。

3. 分辨率灵活适配

混合分辨率训练模式（Hybrid resolution training）；
二维旋转位置编码优化布局合理性；
基于Flow-matching的扩散模型提升边缘质量。

训练策略进化

分阶优化路径：基础分辨率训练→多分辨率适应→高质量数据精调；
参数优化创新：
- Share-param DiT模块保持结构稳定性；
- 跨模态独立自适应归一化（adaptive layer normalization）；
人类偏好对齐：通过人工筛选优化生成质量。

开源生态布局

工具类型	功能定位
ControlNet	精细化图像风格控制
ComfyUI	可视化交互界面支持
微调工具包	领域定制化模型训练支持

项目价值：CogView4的开放标志着中文多模态生成领域迎来技术平权时代，使得中文用户无需依赖翻译工具链即可实现创意表达闭环，其技术路径为后续双语多模态模型研发提供重要参考。

项目源码：GitHub开源地址（版权归属：AIbase 2024）

火龙果频道

您可能还喜欢...