腾讯混元大模型正式开放“文生图”功能、代码能力提升20%

出品|开源中国

今天上午，腾讯混元大模型迎来全新升级，并正式对外开放 “文生图” 功能。

，升级后的腾讯混元中文效果整体超过 GPT-3.5，代码能力大幅提升 20%，达到业界领先水平。

据介绍，经过对 32 种主流语言代码文件、各类计算机书籍和博客的学习增训，腾讯混元代码处理水平提升超过 20%，代码处理效果胜出 ChatGPT 6.34%，在 HumanEval 公开测试集指标上全面超过 Starcoder、Codellama 等业界头部开源代码大模型。

只需输入简单的指令如 “帮我用前端语言实现一个贪吃蛇”，腾讯混元便能自动生成可运行的代码，快速制作出一个贪吃蛇小游戏。此外，腾讯混元还支持 Python、C++、Java、JavaScript 等多种语言的指令生成，比如输入 “用 Python 画红色的心形线”，腾讯混元会提供代码库选择、安装命令、绘制代码等具体操作步骤的指引。

对于大模型文生图功能，腾讯称其难点体现在对提示词的语义理解，生成内容的合理性以及生成图片的效果。针对这三个技术难点，腾讯进行了专项的技术研究，提出了一系列原创算法，来保证生成图片的可用性和画质。

1、在语义理解方面，腾讯混元采用了中英文双语细粒度的模型，模型同时建模中英文实现双语理解，而不是通过翻译，通过优化算法提升了模型对细节的感知能力与生成效果，有效避免多文化差异下的理解错误。

2、在内容合理性方面，AI 生成人体结构和手部经常容易变形。混元文生图通过增强算法模型的图像二维空间位置感知能力，并讲人体骨架和人手结构等先验信息引入到生成过程中，让生成的图像结构更合理，减少错误率。

3、在画面质感方面，混元文生图基于多模型融合的方法，提升生成质感。经过模型算法的优化之后，混元文生图的人像模型，包含发丝、皱纹等细节的效果提升了 30%，场景模型，包含草木、波纹等细节的效果提升了 25%。

下面是官方提供的 “腾讯混元文生图” 使用案例。

生成一幅照片：亚洲女子，魅力，中短发，戴墨镜，站在长城上，背景有红叶

生成一张长城的照片，摄影风，真实感

帮我画一个拿着奶茶的甄嬛，扁平插画，可爱 Q 版

生成 3D 游戏军事场景动漫，城市战区，废墟瓦砾，焦黑的建筑，空气中弥漫硝烟

画一幅渔舟唱晚的画

玩酷网

腾讯混元大模型正式开放“文生图”功能、代码能力提升20%

学学看科技