说起文生视频模型,这就不能不提 ,Sora模型借鉴了LLM语言大模型的token方法,在高纬度空间,Sora首先把视频压缩到低维空间,把视频分成每个视频帧图片,再把图片分割成每个单独的patch,而这些patch可以应用在不同类型的视频和图片的模型训练。从官方流出来的样片来看,视频质量精美,转场效果惊艳,堪称国际大片的标准。
sora 模型
而文生视频领域,其强大的 ,Veo 是Google迄今为止最强大的视频生成模型。它可以生成超过一分钟的高质量 1080p 分辨率视频,具有多种电影和视觉风格。它准确地捕捉提示的细微差别和基调,并提供前所未有的创意控制水平,可以理解各种电影效果的提示,例如延时或风景的空中拍摄等。
veo 模型
而作为开源界一股清流的 meta 自然也不甘落后,发布了自己的文生视频模型Movie Gen。Movie Gen不仅可以文生视频,还可以根据一张照片与文本生成个性化的视频,当然也可以根据视频与文本描述,进行视频剪辑,且可以根据视频或者图片内容生成背景音乐,简直是自媒体创作者的完美搭档。
视频生成:给定一段文本提示,Movie Gen可以利用针对文本转图像和文本转视频进行了优化的联合模型来创建高质量、高清的图像和视频。这个 30B 参数转换器模型能够以每秒 16 帧的速度生成长达 16 秒的视频。这些模型可以推理物体运动、主体与物体之间的相互作用和相机运动,并且可以学习各种概念的合理运动——这使它们成为同类中最先进的模型。
个性化视频:Movie Gen扩展了文生视频模型的功能,模型将一个人的图片与一段文字描述作为输入,经过模型后,输出针对此图片与文字描述的个性化视频,这样完全可以使用自己的照片,然后告诉模型,需要生成哪些动态视频,所有的描述按照文字输入。
视频编辑,同一基础模型的变体模型,以视频和文本提示作为输入,精确执行编辑任务以生成所需的视频。它将视频生成与高级图像编辑相结合,执行局部编辑(例如添加、删除或替换元素)以及全局更改(例如背景或样式修改)。与需要专业技能或缺乏精确度的生成工具的传统工具不同,Movie Gen 保留了原始内容,仅针对相关元素进行编辑。
音频生成,meta Movie Gen训练了一个13B 参数音频生成模型,该模型可以接收视频和可选的文本提示,生成长达 45 秒的高质量高保真音频,包括环境声音、音效和乐器背景音乐,所有这些都与视频内容同步。此外,meta引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了一流的性能。
与其他模型相比,meta Movie Gen的视频生成效果惊艳,达到了大片制作的水平。相信随着更多文生视频模型的发布,其使用成本会越来越低,而这无意造福了广大的自媒体创作者。可想而知,自己使用一张照片与一段文字,就可以生成高质量的视频,省去了大量的拍摄成本,就连后期配音剪辑的工作也都省了,简直不要太完美。
https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/https://ai.meta.com/research/movie-gen/