试了试ChatGPT的图片生成功能,我佩服的无话可说

程序员咋不秃头 2025-04-01 01:15:10

今天凌晨,ChatGPT 正式发布基于 GPT- 4o 模型的原生图像生成功能,这是最近几年 ChatGPT 在图片处理能力方面的一次重要升级。

早先发布 GPT- 4o 时,OpenAI 就宣称其具备强大的多模态推理能力,能够处理语音、文本和视觉信息。但之前,ChatGPT 仅仅提供了生成和编辑文本的功能,而不能生成图像。

今天,新的图片生成功能终于到来!

很不错,看来 OpenAI 受到 DeepSeek 的影响,已经逐步把重要的功能开放给更多的免费用户。这是今年 OpenAI 一个重要的策略变化,他们会让 AI 变得更加普适和开放。

但这个图像功能对用户来说已经不陌生。因为不久之前,谷歌也为自家的旗舰模型之一 Gemini 2.0 Flash 推出了实验性原生图像输出。

2023 年 9 月,OpenAI 曾经发布过新一代作图模型 DALL·E3。今天开始,GPT-4o 图像生成功能正式在 ChatGPT 中替代 DALL·E3。相对来说,GPT- 4o 需要更长的 “思考” 时间,OpenAI 称这可以生成更准确,细节更丰富的图像。GPT- 4o 可以编辑现有图像,包括有人物的图像,能够对图像进行变形或 “修复” 细节,如前景和背景中的物体。

为了实现新的图像功能,OpenAI 告诉媒体其训练 GPT- 4o 使用了 “公开可用的数据”,以及来自 Shutterstock 等合作伙伴的专有数据。在输出方面,OpenAI 会尊重艺术家的权利,并且有策略防止生成直接模仿在世艺术家作品的图像。

话说,OpenAI 的实力不是盖的,从目前的效果看,它的能力远远超过 Google。下面是几个案例。

提示词大概描述了用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,有点凌乱,还看到了摄影师的倒影。另外,指定了白板上的文字。

最后的生成结果非常逼真。

再进一步修改提示词:

这个,实在是太震惊了。。。。。。

继续来,让它创建两个20多岁女孩阅读路标的具备真实感的照片,你看看,是不是很难看出来瑕疵?光影,以及文字都无比逼真。

4o 图像生成从今天开始作为 ChatGPT 中的默认图像生成器向 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 即将访问。它也可以在 Sora 中使用。对于那些在心中对 DALL·E,它仍然可以通过专用的 DALL·E GPT 的。

目前,这项功能已经在 ChatGPT 和 Sora 中,向所有付费和免费用户推出。API 很快也会来,已经在路上。

0 阅读:0