智谱开源AI文生图模型CogView4
发布时间:2025年3月4日,作为智谱“2025开源年”计划的首个开源模型。
核心功能:首个支持生成汉字且遵循Apache 2.0协议的开源文生图模型,支持中英双语输入,擅长中文语义理解和指令跟随。
性能表现:在权威基准测试DPG-Bench中综合评分第一,成为开源文生图领域的SOTA(最先进技术)。
双语编码器:采用GLM-4编码器替代纯英文T5编码器,通过中英双语图文数据训练,显著提升中文语义对齐能力。
任意分辨率与提示词长度:
支持输入任意长度的提示词(上限1024 Tokens),可生成指定范围内任意分辨率的图像。
通过混合训练范式(文本描述与图像生成结合)和二维旋转位置编码(2D RoPE)优化模型效率。
文字生成能力:攻克汉字生成难题(如字形结构、语义关联),支持将中英文字符自然融入画面,满足广告、短视频等场景需求。
开源协议:遵循Apache 2.0协议,允许用户自由使用、修改和分发代码,并开放专利授权保障。
生态支持:
计划推出ControlNet、ComfyUI等功能模块及全套微调工具包,增强模型扩展性。
最新版本CogView4-6B-0304已于3月4日开源,将于3月13日上线智谱清言平台(chatglm.cn)。
创意设计:生成包含汉字的海报、四格漫画、古诗插画等,如“野径云俱黑,江船火独明”的意境画面16。
广告与自媒体:支持中英混合提示词生成高质量配图,降低设计门槛,提升内容创作效率。
技术普惠:通过开源推动AI技术普及,吸引全球开发者参与优化,助力中文内容创作的多元化发展37。
基准测试:
DPG-Bench:综合评分0.73(排名第一),专注于复杂语义对齐和指令执行能力评估。
T2I-CompBench:综合评分0.7786(排名第二),验证开放式组合生成能力。
中文优势:在中文文字生成准确率上超越国产开源模型快手可图,成为中文AI创作的首选工具。
CogView4的发布标志着中文AI图像生成技术的重大突破,其开源策略与技术普惠理念将加速AI在广告、教育、娱乐等领域的落地。通过支持汉字生成、灵活的分辨率适配及高效的训练框架,CogView4不仅填补了中文开源文生图模型的空白,也为全球开发者提供了低成本、高灵活性的创新工具
该模型有60亿参数,支持原生中文输入和中文文本到图像生成。其主要更新在于,CogView4可以理解中英文双语提示词,且将中英文字符融入图像之中,并支持上百字复杂提示词输入。
与CogView3-Plus-3B相比,CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens。
添加图片注释,不超过 140 字(可选)
CogView4在文生图基准测试DPG-Bench中综合评分排名第一。
目前,CogView4-6B-0304版本已经开源,将于3月13日上线智谱清言(chatglm.cn)。
这也是是首个遵循Apache 2.0协议的图像生成模型,后续智谱会陆续增加ControlNet、ComfyUI等生态支持,并即将推出全套的微调工具包。
添加图片注释,不超过 140 字(可选)
GitHub地址: