StableDiffusion3发布：Sora同源技术，效果暴打DALL·E3

文丨Congerry

OpenAI 的 Sora 和 Google 的Gemini 1.5、Gemma相继引爆AI圈，文生图领域今天也迎来重磅更新！

2月22日晚，Stability AI 宣布推出 Stable Diffusion 3 预览版。

Stable Diffusion 3 采用了 Diffusion Transformer（DiT）架构，大大提高了模型的效率和生成图像的质量，最近爆火的Sora同样使用了这种架构。

“黑色背景上变色龙的摄影棚照片特写。”（Prompt: studio photograph closeup of a chameleon over a black background）

有网友认为 Stable Diffusion 3 既然采用了SORA 相似的技术，如果Sora可以制作视频和图像，那么 Stable Diffusion 3 也可以。

“如果 Stability AI 公司获得更多 GPU，他们可能会基于 SD3 训练稳定视频，并达到 Sora 的水平。”

Stability AI 首席执行官 Emad Mostaque 转发了这条推文并表示：“差不多。 Stable Diffusion 3 能接受的不仅仅是视频和图像，更多细节即将公布。不过，我们在这一领域的资源比其他一些公司少 100 倍（字面意思），我们必须努力工作。”

目前，虽然 Stable Diffusion 3 还没有全面开放，但 Stability AI 已经开启了早期预览的等待名单。

Stable Diffusion 3 大升级：改进的文本理解、更高的图像质量、增强的文字渲染

“它是我们功能最强大的文生图模型，在多主题提示、图像质量和拼写能力方面的性能都有很大提高。”Stability AI说。

Emad Mostaque 在X平台展示了 Stable Diffusion 3 在处理多主题提示时，如何准确执行复杂的提示词。

"蓝色立方体上有一个红色球体的照片。后面是一个绿色三角形，右边是一只狗，左边是一只猫"。（Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat）

这段提示词当中，出现了颜色，物体，方向等多种元素，但是 Stable Diffusion 3 还是正确地完成了图片生成。

而OpenAI DALL·E 3生成的效果是这样的。

可以看出，虽然 Stable Diffusion 3 和 DALL·E3 都很好地遵从了空间关系，但是前者生成图像的分辨率、色彩饱和度、构图和质感方面都有显著提升，生成的图像更加逼真和详细。

另外，Stable Diffusion 3 在图像中的文字渲染方面表现也非常出色，能够正确地呈现文本，包括复杂的字体和布局。

“教室桌子上放着一个红苹果的电影照片，黑板上用粉笔写着 "要么做大，要么回家"。”（Prompt: cinematic photo of a red apple on a table in aroom, on the blackboard are the words "go big or go home" written in chalk）

微软的Copilot很好地识别了这些生成的文字，并认为“这张图的构图和色彩都很平衡，给人一种清新和积极的感觉。”这无疑符合“go big or go home”的主题设定。

some notes about Stable Diffusion 3

目前，Stable Diffusion 3 的技术报告还未发布，但是Emad Mostaque 已经透露了一些 Stable Diffusion 3 的技术信息。

使用了一种新型diffusion transformer 技术（与Sora类似），并采用了Flow Matching 技术和其他改进。利用了 transformer 的改进，不仅能进一步扩展，还能接受多模态输入。更多技术细节即将公布，将以开放形式发布，预览版为了提高其质量和安全性，就像最初的 Stable Diffusion 模型一样。将与完整的工具生态系统一起推出这是一个利用最新硬件的新平台，有各种尺寸可供选择支持视频、3D 等功能需要更多 GPU

其中，Flow Matching 技术，是一种提高采样效率的方法，通过回归固定条件概率路径来实现无模拟训练，从而提高了模型的训练和采样速度。

Stable Diffusion 3 提供了不同规模的模型，参数量从 800M 到 8B 不等（Google 开放模型 Gemma最大为2B、7B两个版本），这使得它能够在多种设备上运行，包括便携式设备，降低了 AI 大模型的使用门槛。

另外，Emad Mostaque 还放出了Stable Diffusion 3 生成的3D。

最后，让我们再来欣赏一下 Stable Diffusion 3 生成的作品。

“一幅画，画中宇航员骑着一只猪，穿着蓬蓬裙，撑着一把粉红色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里有 'stable diffusion' 的字样。”（Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"）

同样的提示词，DALL·3的作品。

Bing。

Midjourney V6。

Gemini。

玩酷网

StableDiffusion3发布：Sora同源技术，效果暴打DALL·E3

趣唠科技不打烊