StableDiffusion3发布:Sora同源技术,效果暴打DALL·E3

趣唠科技不打烊 2024-02-26 07:17:30

文丨Congerry

OpenAI 的 Sora 和 Google 的Gemini 1.5、Gemma相继引爆AI圈,文生图领域今天也迎来重磅更新!

2月22日晚,Stability AI 宣布推出 Stable Diffusion 3 预览版。

Stable Diffusion 3 采用了 Diffusion Transformer(DiT)架构,大大提高了模型的效率和生成图像的质量,最近爆火的Sora同样使用了这种架构。

“黑色背景上变色龙的摄影棚照片特写。”(Prompt: studio photograph closeup of a chameleon over a black background)

有网友认为 Stable Diffusion 3 既然采用了SORA 相似的技术,如果Sora可以制作视频和图像,那么 Stable Diffusion 3 也可以。

“如果 Stability AI 公司获得更多 GPU,他们可能会基于 SD3 训练稳定视频,并达到 Sora 的水平。”

Stability AI 首席执行官 Emad Mostaque 转发了这条推文并表示:“差不多。 Stable Diffusion 3 能接受的不仅仅是视频和图像,更多细节即将公布。不过,我们在这一领域的资源比其他一些公司少 100 倍(字面意思),我们必须努力工作。”

目前,虽然 Stable Diffusion 3 还没有全面开放,但 Stability AI 已经开启了早期预览的等待名单。

Stable Diffusion 3 大升级:改进的文本理解、更高的图像质量、增强的文字渲染

“它是我们功能最强大的文生图模型,在多主题提示、图像质量和拼写能力方面的性能都有很大提高。”Stability AI说。

Emad Mostaque 在X平台展示了 Stable Diffusion 3 在处理多主题提示时,如何准确执行复杂的提示词。

"蓝色立方体上有一个红色球体的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫"。(Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat)

这段提示词当中,出现了颜色,物体,方向等多种元素,但是 Stable Diffusion 3 还是正确地完成了图片生成。

而OpenAI DALL·E 3生成的效果是这样的。

可以看出,虽然 Stable Diffusion 3 和 DALL·E3 都很好地遵从了空间关系,但是前者生成图像的分辨率、色彩饱和度、构图和质感方面都有显著提升,生成的图像更加逼真和详细。

另外,Stable Diffusion 3 在图像中的文字渲染方面表现也非常出色,能够正确地呈现文本,包括复杂的字体和布局。

“教室桌子上放着一个红苹果的电影照片,黑板上用粉笔写着 "要么做大,要么回家"。”(Prompt: cinematic photo of a red apple on a table in aroom, on the blackboard are the words "go big or go home" written in chalk)

微软的Copilot很好地识别了这些生成的文字,并认为“这张图的构图和色彩都很平衡,给人一种清新和积极的感觉。”这无疑符合“go big or go home”的主题设定。

some notes about Stable Diffusion 3

目前,Stable Diffusion 3 的技术报告还未发布,但是Emad Mostaque 已经透露了一些 Stable Diffusion 3 的技术信息。

使用了一种新型diffusion transformer 技术(与Sora类似),并采用了Flow Matching 技术和其他改进。利用了 transformer 的改进,不仅能进一步扩展,还能接受多模态输入。更多技术细节即将公布,将以开放形式发布,预览版为了提高其质量和安全性,就像最初的 Stable Diffusion 模型一样。将与完整的工具生态系统一起推出这是一个利用最新硬件的新平台,有各种尺寸可供选择支持视频、3D 等功能需要更多 GPU

其中,Flow Matching 技术,是一种提高采样效率的方法,通过回归固定条件概率路径来实现无模拟训练,从而提高了模型的训练和采样速度。

Stable Diffusion 3 提供了不同规模的模型,参数量从 800M 到 8B 不等(Google 开放模型 Gemma最大为2B、7B两个版本),这使得它能够在多种设备上运行,包括便携式设备,降低了 AI 大模型的使用门槛。

另外,Emad Mostaque 还放出了Stable Diffusion 3 生成的3D。

最后,让我们再来欣赏一下 Stable Diffusion 3 生成的作品。

“一幅画,画中宇航员骑着一只猪,穿着蓬蓬裙,撑着一把粉红色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里有 'stable diffusion' 的字样。”(Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion")

同样的提示词,DALL·3的作品。

Bing。

Midjourney V6。

Gemini。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注