“巧妇难为无米之炊”,文生视频作为一个在AI中较为年轻的研究方向,由许多至关重要的问题还尚未解决,其中之一就是缺乏大规模高质量数据集,因此,最近南京大学提出了一个名为OpenVid-1M的大规模高质量数据集,它包含了100万个带有字幕的高质量视频片段。
除了数据集,他们还提出了一种新颖的多模态视频扩散Transformer(MVDiT),能够同时提取视觉标记和文本标记中的结构信息和语义信息。与以往主要关注视觉内容的DiT架构不同,MVDiT通过并行的视觉-文本架构增强文本和生成视频之间的一致性。其核心机制包括多模态自注意力模块、多模态时间注意力模块和多头交叉注意力模块,分别用于增强标记间的交互、确保时间一致性和融合文本语义信息。
论文标题:
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
论文链接:
https://arxiv.org/pdf/2407.02371
OpenVid-1M数据集OpenVid-1M是一个精确的高质量数据集,包含超过100万个视频片段,每个视频分辨率至少为512x512,并附有详细的描述性字幕。该数据集的特点主要可以概括为:
1、小而美:相比于之前的同类数据集,WebVid-10M包含带水印的低质量视频,Panda-70M包含许多静态、闪烁、低清晰度的视频以及短字幕。而OpenVid-1M是一个去除了低质量视频的数据集,具有卓越的视频质量和富有表现力的字幕,规模更小但能对模型起到更好的训练效果。
2、更加高清:OpenVid-1M数据集中包含了43.3万个1080p视频片段,筛选构建的子集OpenVidHD-0.4M旨在推进高清视频生成的研究,而高清视频正是现实世界中视频呈现的主流形式。
一些数据集中的视频截图
OpenVid-1M数据集从ChronoMagic、CelebvHQ、Open-Sora-plan和Panda中筛选而来,由于Panda数据集比其他数据集大得多,因此下面详细介绍Panda-50M的数据过滤细节:
美学评分:视觉美学对于视频内容的满意度和愉悦感至关重要。为了增强文本生成视频的效果,论文使用LAION美学预测器过滤掉美学评分较低的视频。时间一致性:相比于图像生成,文本生成视频任务更加复杂,但可以通过利用相邻视频帧的信息来提升质量。这些任务需要高视觉质量和时间一致性,因此时间一致性对于训练至关重要。论文使用CLIP提取视觉特征,通过研究相邻帧之间的余弦相似度来衡量时间一致性。论文过滤掉时间一致性得分较高(几乎静止)和得分较低(频繁闪烁)的视频片段。运动差异:论文引入UniMatch来评估光流得分作为运动差异评分,选择运动平滑的视频。仅靠时间一致性得分不足以过滤掉包含高速运动对象的视频,因此论文保留光流得分适中的视频片段,以获得运动平滑的子集。清晰度评估:高质量的视频对于文本生成视频任务至关重要。由于Panda-50M包含许多模糊片段,论文过滤掉清晰度较低的视频片段。剪辑提取:在上述步骤之外,一些视频片段可能包含多个场景,因此论文引入级联剪切检测器来分割多场景片段,确保每个片段仅包含一个场景。视频字幕:获取视频片段集后,论文使用大型多模态模型LLaVA-v1.6-34b为其重新生成字幕,创建表达性强的描述。由于CelebvHQ缺乏字幕,因此论文为其视频片段也提供了字幕。3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com
下面给出了OpenVid-1M和Panda-50M在四个维度的数据质量对比:
图中的abcd分别对应视频美学分布,视频运动分布,视频时间一致性分布和字幕长度分布,其中Ours-0.6M和Ours-0.4M分别是OpenVid-1M的两个从不同数据集中筛选出的子集。
多模态视频扩散Transformer(Multi-modal Video Diffusion Transformer,MVDiT)如下图,MVDiT强调并行的视觉-文本结构,用于从视觉标记中提取结构信息和从文本标记中提取语义信息。每个MVDiT层包含四个步骤:视觉和语言特征的初步提取、集成新颖的多模态时间注意力模块以改善时间一致性、通过多模态自注意力和多头交叉注意力模块促进交互,然后传递到最终的前馈层。
特征提取:给定一个视频片段,采用预训练的变分自编码器(VAE)将输入视频片段编码为潜在空间中的特征。在被噪声破坏后,获得的视频潜在特征输入到3D补丁嵌入器中以建模时间信息。然后,添加位置编码并将噪声视频潜在特征展平为补丁编码序列。将文本提示输入T5进行条件特征提取,并将文本编码嵌入到与视觉标记的通道维度匹配的文本标记中。最终,文本标记和噪声视觉标记作为MVDiT的输入。在训练过程中,文本编码器和视觉编码器均被冻结。
多模态自注意力模块:设计了一个多模态自注意力(MMSA)模块。文本标记在时间维度上重复多次以匹配视频帧。在文本和视觉分支中采用自适应层归一化,将时间步信息编码到模型中。然后,视觉标记与文本标记连接生成多模态特征,并输入到自注意力层中,促进每帧中视觉标记和文本标记之间的交互。分离出增强的视觉标记和文本标记,并应用维度缩放参数以优化Transformer块内的残差连接。
多模态时间注意力模块:在获得增强的视觉特征和文本特征后,构建多模态时间注意力(MMTA)模块,以高效捕捉时间信息。不同于先前的方法,此模块从文本和视觉特征中捕捉时间信息。将两个分支的标记连接起来,输入到时间注意力层中进行时间维度上的通信,使模型能够学习语义-结构的时间一致性,进一步提高视频质量。
多头交叉注意力模块:尽管多模态自注意力模块将视觉和文本标记结合在一起,文本生成视频(T2V)任务仍需要明确的过程将文本中的语义信息插入到视觉标记中。为此,采用交叉注意力层直接建立文本标记和视觉标记之间的通信。通过将视觉标记作为Query,文本标记作为Key和值Value,实现两者之间的交互,增强生成视频的语义信息。视觉标记和文本标记随后输入到前馈层中。由于一个MVDiT层能够同时更新视觉和文本标记,因此可以多次迭代这一过程,以实现更好的视频生成性能。经过多次迭代后,最终的视觉特征用于预测时间步的噪声和协方差。
实验效果显著采用提出的OpenVid-1M数据集训练MVDiT模型与其他模型和数据集进行对比。评估模型基于视觉质量、文本与视频的对齐度及时间一致性,具体采用美学评分(VQAA)和技术评分(VQAT)评估视频质量。在输入文本和生成视频的一致性方面,采用图像-视频一致性(SD_score)和文本-文本一致性(Blip_bleu)进行评估。此外,还通过变形误差和语义一致性(Clip_temp_score)评估生成视频的时间一致性。
如表所示,OpenVid-1M和MVDiT显著优于其他方法。
从定性的角度分析以上结果,从下面的视频截图中可以看到,OpenVid-1M和MVDiT生成的图像更好看且符合文本描述。
此外,为了公平地比较不同的数据集,使用不同数据集训练OpenSora模型,在相同算力下,OpenVidHD-0.4M取得了最好的效果。
此外,如表所示的消融实验,在不同的模型、分辨率、训练数据以及不同的数据筛选方式下,证明了模型以及数据集每个步骤的必要性。
结语
通过对OpenVid-1M数据集和MVDiT模型的分析和评估,可以看出此项工作在文生视频领域做出的贡献:OpenVid-1M数据集为研究者提供了一个大规模且高质量的数据集,而MVDiT模型则提升了视频生成的质量和文本一致性。这回,不仅“巧妇有米下锅”,还把佳肴端回了餐桌。