智谱开源AI文生图模型CogView4

发布时间：2025年3月4日，作为智谱“2025开源年”计划的首个开源模型。

核心功能：首个支持生成汉字且遵循Apache 2.0协议的开源文生图模型，支持中英双语输入，擅长中文语义理解和指令跟随。

性能表现：在权威基准测试DPG-Bench中综合评分第一，成为开源文生图领域的SOTA（最先进技术）。

双语编码器：采用GLM-4编码器替代纯英文T5编码器，通过中英双语图文数据训练，显著提升中文语义对齐能力。

任意分辨率与提示词长度：

支持输入任意长度的提示词（上限1024 Tokens），可生成指定范围内任意分辨率的图像。

通过混合训练范式（文本描述与图像生成结合）和二维旋转位置编码（2D RoPE）优化模型效率。

文字生成能力：攻克汉字生成难题（如字形结构、语义关联），支持将中英文字符自然融入画面，满足广告、短视频等场景需求。

开源协议：遵循Apache 2.0协议，允许用户自由使用、修改和分发代码，并开放专利授权保障。

生态支持：

计划推出ControlNet、ComfyUI等功能模块及全套微调工具包，增强模型扩展性。

最新版本CogView4-6B-0304已于3月4日开源，将于3月13日上线智谱清言平台（chatglm.cn）。

创意设计：生成包含汉字的海报、四格漫画、古诗插画等，如“野径云俱黑，江船火独明”的意境画面16。

广告与自媒体：支持中英混合提示词生成高质量配图，降低设计门槛，提升内容创作效率。

技术普惠：通过开源推动AI技术普及，吸引全球开发者参与优化，助力中文内容创作的多元化发展37。

基准测试：

DPG-Bench：综合评分0.73（排名第一），专注于复杂语义对齐和指令执行能力评估。

T2I-CompBench：综合评分0.7786（排名第二），验证开放式组合生成能力。

中文优势：在中文文字生成准确率上超越国产开源模型快手可图，成为中文AI创作的首选工具。

CogView4的发布标志着中文AI图像生成技术的重大突破，其开源策略与技术普惠理念将加速AI在广告、教育、娱乐等领域的落地。通过支持汉字生成、灵活的分辨率适配及高效的训练框架，CogView4不仅填补了中文开源文生图模型的空白，也为全球开发者提供了低成本、高灵活性的创新工具

该模型有60亿参数，支持原生中文输入和中文文本到图像生成。其主要更新在于，CogView4可以理解中英文双语提示词，且将中英文字符融入图像之中，并支持上百字复杂提示词输入。

与CogView3-Plus-3B相比，CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens。

添加图片注释，不超过 140 字（可选）

CogView4在文生图基准测试DPG-Bench中综合评分排名第一。

目前，CogView4-6B-0304版本已经开源，将于3月13日上线智谱清言（chatglm.cn）。

这也是是首个遵循Apache 2.0协议的图像生成模型，后续智谱会陆续增加ControlNet、ComfyUI等生态支持，并即将推出全套的微调工具包。

添加图片注释，不超过 140 字（可选）

GitHub地址：

玩酷网