ControlNet作者发布新模型Paints-UNDO,可以生成图片绘制视频

智能也得细细瞧 2024-07-18 02:06:22

ControlNet模型这个不用多做介绍了,前期我们分享 stable diffusion 时也介绍过ControlNet模型,其模型可以根据输入图片提取人物模型框架,进而可以有效控制 stable diffusion 的出图样式,控制人物的姿态。而最近其ControlNet的作者发布了一款可以生成图片绘制的模型Paints-UNDO。其模型可以输入一张图片,然后生成对应图片的绘制过程,真的觉得这个图片就是自己绘制的。

Paints-Undo 是一个旨在提供人类绘画行为的基础模型,“Paints-Undo”这个名称的灵感来自于模型的输出看起来就像在数字绘画软件中多次按下“撤消”按钮(通常是 Ctrl+Z)。然后你就可以看到图片的绘制过程了。Paints-Undo 提供了一系列模型,这些模型将图像作为输入,然后输出该图像的绘图序列。该模型展示了各种绘图行为,包括素描、着墨、着色、变换、左右翻转、颜色曲线调整、改变图层的可见性,甚至改变绘图过程等。

Paints-Undo 模型是在 Nvidia 4090 和 3090TI 上使用 24GB VRAM 进行测试的。它也可能适用于 16GB VRAM,但8GB的内存无法运行。在极端优化下,理论上最小 VRAM 需求约为 10~12.5 GB。模型预计可以在大约 5 到 10 分钟内处理一张图像,然后模型输出 FPS 4帧,时长 25 秒、分辨率为 320x512、512x320、384x448 或 448x384 的视频。模型不仅可以输出绘制视频,还可以输出素描的图片。

Paints-Undo 发布了两个模型paints_undo_single_frame单帧模型和paints_undo_multi_frame多帧模型。

单帧模型以一幅图像和一个操作步骤作为输入,并输出一幅图像的绘制过程。假设一张图片总需要经过1000次人工操作才能创作绘制出来,操作步长是0到999之间的整数。数字0是最终完成的艺术品,数字999是在纯白色的画布上绘制的第一笔。可以将此模型理解为“撤消”(或称为 Ctrl+Z)模型。你输入最终的图像,并指出你想要“Ctrl+Z”多少次,按下这些“Ctrl+Z”后,模型会给你一个“模拟”的绘制视频过程。如果你的操作步数是100,那么就意味着你想在这张图片上模拟“Ctrl+Z”100次,得到第100次“Ctrl+Z”后的样子。然后把这些图片正序播放,就形成了从撤销位置到完整图片的绘制过程的视频。模型也可以根据输入的素描图片,可以进行着色。

多帧模型以两幅图像作为输入,输出两幅输入图像之间的 16 个中间帧。结果比单帧模型更加一致,但速度也慢得多,“创意”更少,并且仅限于 16 帧。

Paints-Undo 默认方法是一起使用2 种方法。首先会用单帧模型推断大约 5-7 次,得到 5-7 个“关键帧”,然后使用多帧模型对这些关键帧进行“插值”,实际生成一个相对较长的视频。理论上,该系统可以有多种用途,甚至可以提供无限长的视频,但实际上,当最终帧数约为 100-500 时,结果最好。

当然代码已经开源,若自己的电脑配置够的话,可以使用代码进行实现。

git clone https://github.com/lllyasviel/Paints-UNDO.gitcd Paints-UNDOconda create -n paints_undo python=3.10conda activate paints_undopip install xformerspip install -r requirements.txtpython gradio_app.py

可想而知,未来的手绘动漫视频,完全可以使用人工智能来实现了,而不是真的使用人来一笔一划的进行图片的绘制,人工智能还有什么不能实现的呢?

https://github.com/lllyasviel/Paints-UNDOhttps://lllyasviel.github.io/pages/paints_undo/

0 阅读:0

智能也得细细瞧

简介:感谢大家的关注