生成式AI动画技术概述[2024年1月

原文：https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html

本文中看到的结构的简化图。

在这篇文章中，我试图对当前可用于动画的生成式 AI 技术进行分层布局和分类，给出简要描述、示例、优缺点以及查找相关工具的链接。这是我一年前作为动画师所希望拥有的资源，当时我试图在混乱的可能性网络和不断增长的进步中导航。视频风格化用例虽然有些重叠，但这里大多省略了。

它针对任何好奇的人，但主要是针对其他动画师和创意人员，他们可能会对该领域的加速发展感到敏感。

免责声明：这是我写作时最好的尝试，基于我作为动画师的主观分析，以及一些个人意见。不过，我希望继续完善它！该列表跳过了较旧的工具，例如基于GAN模型的工具，因为基于扩散的模型已经变得更加成熟和流行。本指南不是教程，但大多数工具的社区都充满了有用的内容。首先，请使用本指南中的关键字在线查看！生成图像

依赖于使用生成图像 AI 模型的技术，这些模型是在静态图像上训练的。

作为材料和资产的生成图像(Generative image as material and assets)

使用从任何 AI 应用程序生成的静态图像作为传统工作流程中的资产，例如 2D 剪切、数字操作、拼贴，甚至作为其他 AI 工具的来源，例如提供“image2video”。除了图像和材料的来源外，这种技术还取决于您通常的剪切和处理图像的技能。

优点

缺点

对于现有的动画师来说，很容易过渡到。对处理背景是用的。感觉不太“新鲜”。依赖于素材和动画之间的巨大协同作用。

工具

免费

付费

（任何生成图像模型或应用程序）：

Stable Diffusion（在本地计算机上）或任何类似的在线应用程序CraiyonInvokeai(using SD)Enfugue (using SD)SkyBox AI - 生成 VR 就绪的 360 度场景。DALL-E 3 Microsoft Image Creator 上的 DALL-E 3Leonardo AI - 用于处理生成图像 AI 的改进应用程序。提供一些免费的每日积分。

等。。。。

插件和插件：

ComfyUI nodes in BlenderGenerative AI for Krita - 面向 Krita 的生成式 AI - 由 ComfyUI 后端提供支持的 Stable Diffusion 简化了艺术家友好的工作方式。

此外，您可能会在Hugging face spaces上找到一些免费演示。

（任何生成图像模型或应用程序）：

MidJourneyRunwayChatGPT 上的 DALL-E 3Adobe's FireFlyRenderNet - 用于使用高级 SD 技术和技巧的应用程序，在云上的简化界面中。

等。。。。

可以使用 After Effects、Moho、Blender 等完成动画制作。

逐帧生成图像

这包括所有以相当动画原生的精神使用生成扩散图像模型的技术，逐帧生成运动序列，就像绘制和拍摄传统动画一样。这里的关键方面是，这些模型在生成每个图像时没有时间或运动的概念，但这取决于添加在上面的机制和各种应用程序或扩展，以帮助最终生成某种动画图像，通常被称为具有“时间一致性”。

这些技术通常具有动画中的特征性闪烁。虽然这些工具的许多用户旨在尽可能地清理它，但动画师会告诉你，它被称为“沸腾”，并且一直是动画艺术的主要内容。主要适用于开源模型，例如 Stable Diffusion 和基于它们构建的工具，这些模型可以与公开的参数一起使用，也可能用于本地硬件。相比之下，像MidJourney这样的产品隐藏了模型，并且为图片简化了界面，因此它不能用于这些技术。

它通常由这些技术混合和分层组成：

Standalone (Text 2 Images):

有几种新技术可以通过这种方式生成仅使用文本提示和参数的动画：

参数插值（变形）

通过逐渐改变权重的快速编辑来创建过渡。深度控制网用于保持整体手形的一致性。

在每个生成的图像帧上逐渐插值参数，以在动画中产生变化。参数可以是与模型有关的任何内容，例如文本提示本身或底层种子（“潜在空间行走”）。

Image 2 Image (I2I) feedback loops

使用起始图像，并提示一些不同的东西，使它逐帧恶化为其他东西。

通过“image 2 image”将每个生成的图像帧用作动画中下一帧的输入。这允许在其他参数发生变化且种子不固定的情况下按顺序生成外观相似的帧。通常通过“去噪”强度或Deforum中的“强度计划”进行控制。起始帧也可以是预先存在的图片。它是大多数使用 Stable Diffusion 的动画实现的核心构建块，它依赖于下面列出的许多其他技术。平衡非常微妙，很大程度上取决于所使用的采样器（噪声调度器）。

2D or 3D transformation (on I2I loops)

可以看到的无休止的放大。它之所以如此有效，是因为您可以依靠 SD 不断构思新的细节。

在I2I loops中作为输入发送回之前，逐渐转换每个生成的帧。2D 变换对应于简单的平移、旋转和缩放。3D 技术想象一个虚拟摄像机在 3D 空间中移动，这通常是通过估计每个生成帧中的 3D 深度，然后根据想象的摄像机运动对其进行扭曲来完成的。

实验、运动合成、混合和其他技术

使用SD-CN动画制作，该动画具有独特的方法，可以在生成的帧中产生幻觉。起始映像用于 init，但仅此而已。

运动合成是关于尝试“想象”后续生成的帧之间的运动流，然后使用它逐帧扭曲它们，以在 I2I 循环上灌输有机运动。这通常依赖于在视频中进行运动估计（光流）训练的 AI 模型，但不是查看后续视频帧，而是被告知查看后续生成的帧（通过 I2I 循环）或某种混合方法。

其他技术可能包括高级使用修复和变形、多个处理步骤，甚至拍摄模型训练过程的快照。例如，Deforum 加载了需要修改的旋钮和设置。

Transformative (Images 2 Images):

此外，可以使用某种源输入来驱动生成的帧和生成的动画：

混合（风格化）- 与视频源或/和调理（ControlNets）混合

Deforum 的混合模式带有一些 ControlNet 调节

这是一大类将生成的序列与输入视频（分解为单独的帧）混合和影响生成的方法，通常用于风格化现实生活中的视频。目前，正乘着风格化舞蹈视频和表演的潮流，经常追求动漫外观和性感的体格。不过，您可以使用任何东西作为输入，例如您自己的动画的粗略帧，或任何杂项和抽象素材。模仿“像素化”和替换动画技术的可能性很大。输入帧可以在每个 I2I 循环之前直接与生成的图像混合，或者在更高级的情况下用于其他条件，例如 ControlNets。

Optical flow warping (on I2I loops with video input)

Deforum 的混合模式允许这种技术具有多种设置。增加的“节奏”也用于减少闪烁效果，因此翘曲会更好。

"Optical flow"是指在视频中估计的运动，它通过每帧上的运动矢量来表示，对于屏幕空间中的每个像素。当对变革性工作流程中使用的源视频进行光流估计时，它可用于根据它扭曲生成的帧，使生成的纹理在对象或相机在帧中移动时“粘附”在对象上。

3D 衍生

使用变革性工作流程完成的调节也可以直接与 3D 数据相关联，从而跳过在视频帧上完成的模糊和处理层。例如，从虚拟 3D 场景提供的 openpose 或深度数据，而不是从视频（或 CG 渲染的视频）估计。这允许最模块化和可控的 3D 原生方法，如果与有助于时间一致性的方法结合使用，则特别强大。这可能是现有技术和 AI 在 VFX 中最有希望的重叠，

这种技术最广泛的工具之一是简化和自动化从Blender生成ControlNet就绪角色图像的项目。在此示例中，手持装备用于为 ControlNet 生成 openpose、深度和法线贴图图像，最终 SD 结果如右图所示。（OpenPose 最终被丢弃，因为它被证明仅适用于手）

将所有这些技术结合在一起，似乎有无穷无尽的参数可以进行动画和调制（就像在模块化音频制作中一样）。它既可以用关键帧“调度”，也可以用 Parseq 之类的东西绘制，也可以链接到音频和音乐，从而实现许多音频响应结果。你可以像那样让 Stable Diffusion 为你跳舞。

优点

缺点

新颖、不断发展的美学，是媒体独有的。在概念上反映了动画的传统。最可定制、最动手、最容易被导演。模块化、分层方法。经常闪烁，有些混乱。技术层面密集，平衡微妙，高级结果具有陡峭的学习曲线。如果没有良好的本地硬件，通常不方便。（英伟达 GPU）

工具

免费

付费

在 A1111 webui 中使用的工具（如果您有足够的硬件）*：

用于参数插值动画（旅行）的小脚本：步骤、提示、种子。Deforum - 满足所有动画标清需求的最佳动力源，融合了上面列出的大多数技术。Parseq - Deforum 的流行视觉参数序列器。"Deforum timeline helper" -另一个参数可视化和调度工具。Deforumation- 用于实时控制 Deforum 参数的 GUI，允许被动调整和控制。TemporalKit - 采用 EBsynth 的一些原理，与 SD 一起使用，以实现一致的视频风格化。SD-CN Animation - 有点实验性的工具，允许一些混合风格化工作流程以及有趣的光流运动合成，导致湍流运动。TemporalNet - 一个 ControlNet 模型，用于其他工作流，如 Deforum 的工作流程，旨在提高时间一致性。

Python notebooks：（将在 Google Colab 或 Jupyter 上运行）*：

Stable WarpFusion - 旨在高级视频风格化和动画的实验性代码工具包。与Deforum有很多重叠。

插件和插件：

Dream Textures for BlenderStabiliy Ai's Blender pluginCharacter bones that look like Openpose for Blender- 用于 Blender 之外的 ControlNets。Unreal DiffusionAfter-Diffusion for After effects (highly WIP atm)A1111 or ComfyUI API components for TouchDesigner from Oleg Chomp - if you know what you're doing, can be set up for animation or anything you can imagine.Stability AI's Animation APIKaiber's "Flipbook" mode - 基于 Deforum 的代码，如他们的演职员表所述。AI Animation Generator on gooey.ai - gooey.ai 上的AI动画生成器 - 在线运行Deforum的简化方式，提供一些免费积分。

插件和插件：

Diffusae for After EffectsA1111, ComfyUI, StreamDiffusion, and other API components for TouchDesigner by DotSimulate - available through his Patreon tiers with regular updates.

那里可能有许多随机的应用程序和工具，但即使它们是付费的，它们也可能基于开源的 Deforum 代码，并充当同一事物的简化云版本。

* 理想情况下，您拥有足够好的硬件，即 GPU，可以在本地运行这些工具。或者，您可以通过远程计算机（例如在 Google Colab 中）进行尝试，但大多数免费计划和试用都非常有限。不过，任何被设计为Google Colab笔记本的东西仍然可以在本地硬件上运行。

生成视频

依赖于使用生成式视频 AI 模型的技术，这些模型在移动视频上进行了训练，或者在神经网络级别上通过时间理解进行了增强。

目前，这些模型的一个共同特征似乎是它们通常仅限于持续时间非常短（几秒钟）的剪辑，受 GPU 上可用视频内存的约束。在解决此问题的情况下，剪辑通常缺乏长时间内有意义的变化和动作，并且更类似于动画幻灯片。

生成视频模型

今天的结果可能会有些摇摆不定、人工智能尴尬、不可思议的结果。不久前，大多数生成的AI图像都是如此。它略微落后，正在迅速改进，但我个人的看法是，我们在静态图像上看到的相同进展不会与视频生成的进展成比例地转换，因为这是一个指数级难以解决的问题。一般来说，生成视频剪辑看起来越好，它的动作和动作就越不有趣，因为剧烈的运动通常是它们分崩离析的地方。

我想动画和传统电影之间的界限在这里是混乱的。只要结果还与现实不符，在某种程度上，所有这些都是奇怪的动画和视频艺术的新类型。现在，我鼓励忘记复制真正的电影，并将其用作实验媒体的新形式。玩得愉快！

Standalone (Text 2 video)

使用 Runway 的 Gen2 为他的文章所做的动画测试之一

使用文本提示生成全新的视频剪辑从理论上讲，这是无限的，只要你能描述它，就可以进行真人表演或任何超现实和风格化的东西，就像静态图像生成一样。然而，在实践中，收集多样化和足够大的数据集来训练视频模型要困难得多，因此在这些只有文本条件的模型上很难实现利基美学。Runway 在其视频生成器工具上展示“多运动画笔”功能这样一来，真正的创意控制就相当薄弱了，但当与图像或视频调理相结合时，它就会变得更加强大，你可以称之为“变革性”工作流程。此外，还出现了新的运动控制和调节形式，例如 MotionCtrl 或 Runway 的多运动画笔。

Transformative:

此外，还使用文本提示，并对现有图像或视频进行进一步调整。

图生视频

许多生成式视频工具使您能够对图像的结果进行条件处理。要么完全从您指定的图像开始，要么将其用作语义信息、构图和颜色的粗略参考。通常，在将起始图像提供给视频模型之前，人们也会使用传统的静态图像模型生成起始图像。

视频生成视频

如果运气好，有适当的提示，您可以使用输入视频来“启发”模型，以完全不同的外观重新构想源视频中的运动。在 webui txt2vid 扩展中使用 Zeroscope 完成，使用 vid2vid 模式。

与生成图像模型中的图 2 图像处理类似，除了文本提示之外，还可以在生成（去噪）输出的视频模型中嵌入输入视频信息。我缺乏专业知识来准确理解正在发生的事情，但似乎这个过程不仅在逐帧级别（就像 Stable Diffusion 的风格化一样）与输入视频剪辑相匹配，而且在整体和运动级别上也匹配。它以去噪强度进行控制，就像图像 2 图像一样。

优点

缺点

最开放的技术集，只会随着时间的推移而改进。在专业动画知识方面没有进入壁垒。与逐帧技术相比，它更流畅，通常也更连贯。对于变革性工作流程来说，这可能是一种比逐帧方法更直接的方法。通常看起来很笨拙和不可思议，比静态图像更是如此。在涉及人物的逼真镜头中大多明显。计算成本高昂。与图像 AI 相比，在您自己的硬件上运行的访问性更差。受限于短期和上下文（目前）。

工具

免费

付费

Stable Video (SVD) - 来自 StabilityAI 的开源视频扩散模型。在各种主机应用程序和工具中快速实现：SVD ComfyUI implementationSVD temporal ControlNetMotionCtrl - 增强功能，允许在各种视频模型中控制对象运动和摄像机轨迹。Emu video -Meta 生成视频模型的预览演示。Text 2 Video extension for A1111 webui 文本 2 A1111 webui 的视频扩展，可与以下型号之一一起使用：（如果您有足够的硬件）*VideoCrafterZeroscope

插件和插件：

Pallaidium for Blender - 一个多功能工具包，包含跨图像、视频甚至音频领域的生成功能。

Additionally, you may find some free demos on Hugging face spaces

.此外，您可能会在Hugging face spaces上找到一些免费演示。

Runway's Gen2Kaiber's "Motion" mode.Pika labs* 理想情况下，您拥有足够好的硬件，即 GPU，可以在本地运行这些工具。或者，您可以尝试通过远程计算机（例如在 Google Colab 中）运行这些模型，但大多数免费计划和试用版都非常有限。

通过运动理解增强的图像模型

随着 AnimateDiff 的日益普及，这是一个新兴领域，通过视频或“运动”理解增强已建立的图像扩散模型。结果与原生视频模型（如上所示）更相似，而不是使用逐帧技术获得的结果。问题在于，您还可以利用为这些图像模型构建的所有内容，例如 Stable Diffusion，包括任何社区创建的检查点、LoRA、ControlNet 或其他类型的条件反射。

甚至可以通过 ControlNets 提供视频调理，这很像逐帧技术。社区仍在积极尝试，请参阅“更多示例”。可用的技术既借鉴了静态图像模型（如提示旅行），也借鉴了视频原生模型。

这种技术中的运动本身通常非常原始，只是松散地插值对象并在整个剪辑中流动，经常将事物变形为其他事物。不过，它以更多的时间一致性（更少的闪烁）来做到这一点，并且它仍处于起步阶段。最好的结果是抽象的、不太具体的主题和场景。

优点

缺点

受益于对现有图像扩散模型进行的所有开发。可直接通过降噪或ControlNets对视频进行调节。非常适合抽象、流畅的动作。不能很好地产生复杂、连贯的人物或不寻常物体的运动，通常会导致变形。计算成本高昂，就像视频原生模型一样。与图像 AI 相比，在您自己的硬件上运行的访问性更差。受限于较短的上下文窗口（目前），尽管人们总是尝试一些解决方法。

工具

免费

付费

目前，AnimateDiff（适用于 SD v1.5）的实现在这方面处于领先地位：

A1111 webui extension for AnimateDiff.AnimateDiff implementation in ComfyUIVisionCrafter- 用于 AnimatedDiff 实现和其他项目的 GUI 工具.

for SD XL:

Hotshot-XL

多功能实现：

Enfugue

据我所知什么都没有。

具有语音合成功能的动画人脸

我知道，你知道。这是病毒模因背后的技术。每当你看到一个相对静止的角色（也可能是移动的摄像机），有一个动画的说话脸，它可能与使用AI脸部动画和合成语音工具的特定方法有关。它是几个步骤和组件的组合。源图像通常是使用生成图像 AI 制作的，但您也可以使用任何带有人脸的图像。语音是从文本生成的，以所选角色的声音为条件。然后，使用不同的工具（或打包工具中的模型）合成面部动画，并从语音中进行适当的口型同步，通常只在图像的面部和头部区域生成运动。使用预先训练的头像也可以在身体上移动。

优点

缺点

简单的模因。喜剧效果？通常看起来有点不可思议。我还无法想象这些会有什么认真的用途。过于依赖付费应用中的闭源面部动画工具。结果是僵硬的，不太动态，即使用你自己的头像镜头训练它也是如此。

工具

免费

付费

ElevenLabs - 使用受限，但限制似乎每月刷新一次。"Wav2Lip" A1111 WebUI extension - 用于生成“口型同步”动画的工具。似乎仅限于嘴巴区域。

或者在网上搜索“Text 2 Speech”，太多了，数不清，但可能不如ElevenLabs。对于全脸动画，据我所知，只有付费应用程序的试用版才允许有限的免费访问。

人脸动画（通常捆绑在一起的语音合成）：

D-IDHeygenSynesthesia

生成式 3D 角色运动

这是指 3D 角色上下文中的运动合成。它可以应用于 3D 动画电影、视频游戏或其他 3D 交互式应用程序。就像图像和视频一样，这些新兴的 AI 工具允许您通过文本提示角色动作。此外，有些人还从非常有限的关键姿势中构建它，或者在交互式设置中动态生成动画。由于此列表侧重于生成工具，因此我省略了一些自动执行某些非创造性任务的 AI 应用程序，例如 AI 驱动的运动跟踪、合成、遮罩等，如 Move.ai 或 Wonder Dynamics 中所示。

优点

缺点

适合已建立的 3D 动画工作流程，减少繁琐的任务，可能作为熟练动画师的实用程序。很好地处理了物理和重量。视频游戏中动态角色动画的未来？似乎仅限于人形双足动物角色。不能自给自足。只有 3D 动画工作流程的一个组件。你需要知道下一步要去哪里。训练通常是在人体动作捕捉数据上完成的，这意味着到目前为止，这些技术只处理基于物理的逼真运动，没有风格化和卡通化。

工具

免费（或有限计划）

付费

MootionOmni AnimationCascadeur - 动画助手，可创建流畅的、基于物理的动画和姿势，只需最少的输入。高度可控，看起来像是未来的主要参与者。ComfyUI MotionDiff - 将 MDM、MotionDiffuse 和 ReMoDiffuse 实现到 ComfyUI 中。

免费工具的付费计划，提供更多功能和扩展限制。

LLM 有力的工具

从理论上讲，LLMs（大型语言模型）在编码任务中表现出出色的性能，尤其是在微调时，您可以告诉它在支持动画的软件中编程和编写脚本。这意味着动画将遵循通常的工作流程，但 AI 会全程为您提供帮助。在极端情况下，AI 会为您完成所有工作，同时在后端管道中分配适当的任务。

在实践中，您已经可以尝试了！例如，Blender 配备了非常广泛的 python API，允许通过代码对其进行操作，因此已经有一些类似 chatGPT 的助手工具可用。这是一个不可避免的趋势。凡是有代码的地方，LLMs都可能会显示一些实际用例。

优点

缺点

承诺 - 最终解构创意人员的任何技术障碍。作为创意软件的副驾驶或助手很有用，消除了繁琐的重复性任务，为您挖掘文档。如果人工智能会为你创造一切，那么首先有创造力的意义何在？目前，只能在功能强大的远程机器上运行LLMs，因此按代币/订阅付费。

工具

免费

付费

Blender Chat Companion - （类似于 Blender Copilot）Blender 内部的 ChatGPT 实现，专门用于处理适当的任务。使用付费的 ChatGPT API 令牌。Genmo - 承诺向“创意通用智能”迈出一步，多步骤过程全部通过聊天界面控制。Blender Copilot -（类似于 Blender Chat Companion）Blender 内部的 ChatGPT 实现，专门用于处理适当的任务。使用付费的 ChatGPT API 令牌。

还有即将推出的 ChatUSD - 一个使用和管理美元的聊天机器人，这是皮克斯最初创建的标准，用于统一和简化动画电影制作的 3D 数据交换和并行化。这里不能告诉你更多，但 Nvidia 似乎正在接受它作为任何 3D 的标准，而不仅仅是电影。

玩酷网

生成式AI动画技术概述[2024年1月

架构即是人生