OpenAI再不发布Sora，就晚了

出品 | 51CTO技术栈（微信号：blog51cto）

变天了！还记得OpenAI刚推出Sora时给人的惊艳感，但在文生视频领域，Sora想一家独大也没有那么简单。如今，越来越多表现不俗的替代方案已经出现。

继Luma AI的Dream Machine首次亮相之后，Runway ML最近推出的Gen-3 Alpha也令人印象深刻。与此同时，快手推出了Kling（可灵），这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。

图片

Gen-3 Alpha经过视频和图像的训练，将为Runway的文字转视频、图像转视频及文字转图像工具提供支持。它还将增强现有的控制模式，如运动画笔、高级摄像机控制和导演模式，并支持即将推出的工具，以便更精确地控制结构、风格和动态。

正如OpenAI与好莱坞的合作一样，Runway也与顶级娱乐和媒体公司合作，开发Gen-3 Alpha的定制版本。这种Gen-3模型的定制化使得对风格和角色一致性的控制更加灵活，可以满足特定的艺术和叙事需求。

与OpenAI不同的是，Runway已经宣布Gen-3 Alpha很快将向所有人开放。

“Gen-3 Alpha仅用四个月便迅速逼近Sora的水平，这意味着Omni也可能在9月前被迎头赶上。Anthropic甚至可能在GPT-5发布之前就推出他们的自主AI系统。OpenAI面临着要么加快其战略步伐，要么接受退居第二的现实选择。”X平台的一位用户写道。

1.Sora明显滞后

Sora的一大劣势在于，目前它还无法生成具有持续表情和角色特征的逼真人像。

例如，在Shy Heads使用Sora制作的短片《气球头》中，为了克服Sora的局限性，他们将人物的脸替换成了气球。该短片的创作者Walter Woodman提到，他们使用Premiere和After Effects进行了影片编辑。

然而，Gen-3 Alpha擅长生成表现力丰富的人类角色，能够展示广泛的动作、手势和情感。

正如下面这个示例。提示词是：一位原本忧郁的中年秃顶男子，当一顶卷曲的假发和墨镜突然落在他头上时，变得开心起来。（Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.）

值得注意的是，Adobe最近宣布正在探索与领先的AI供应商建立合作，包括OpenAI的Sora、RunwayML和Pika等。

此外，Gen-3 Alpha从设计之初就瞄准创意应用，这使得它能够理解并生成多种风格和艺术指令。

除了Gen-3 Alpha之外，Luma AI声称其Dream Machine与Sora不同，能够理解世界物理原理及现实世界中的事物运作方式。另一个有趣的特点是，它能将现有图像扩展成视频。

“哇，来自@LumaLabsAI的新模型，将图像延伸成视频，真是非同凡响。我直觉上认为这很快就会成为可能，但亲眼见到并思考其未来迭代的潜力仍是另一回事。”前OpenAI研究员，大神Andrej Karpathy说道。

梗图被续写，逐渐变成视频。上述示例：灾难女孩（Disaster Girl）

另一个关键区别在于其视频的超逼真质量。Luma所采用的人工智能算法会仔细分析并增强每个细节，从纹理到光照，确保最终输出效果几乎与现实世界的镜头难以区分。不过，Dream Machine也存在一些限制，例如形变、在视频中插入文字以及相机运动方面的处理。

另一方面，中国的可灵模型能够生成长达两分钟、分辨率为1080p、每秒30帧的视频。该模型以其逼真的输出效果和对现实世界物理精确模拟而著称，尤其擅长于3D人脸和身体重建，使得生成的内容更加栩栩如生、富有表现力。

2.OpenAI 在GPU方面具有优势

Luma AI 成功的一个重要因素是AWS，它为公司提供了急需的GPU资源。

AWS的数据和机器学习服务副总裁Swami Sivasubramanian表示：“很高兴看到AWS H100训练基础设施如何帮助Luma AI团队减少基础模型的训练时间，并支持Dream Machine的发布。”

然而，在公开上线后不久，网站就因巨大的访问需求而难以应对。在这方面，OpenAI显示出其优势。

作为ChatGPT的开发者，OpenAI能够利用微软Azure，获得最新的NVIDIA GPU资源。在微软Build大会上，CEO萨提亚·纳德拉宣布，他们将成为首批使用NVIDIA最先进的Blackwell GPU的云服务提供商之一。

OpenAI最近还与甲骨文（Oracle）建立了合作伙伴关系，以获取更多的计算能力。

3.OpenAI 是否会真正推出产品？

与Luma AI相关的还有另一个有趣的故事。在Google I/O大会上，谷歌介绍了其视频生成模型Veo。然而，出于安全考虑，谷歌尚未发布该模型。

现为Luma AI研究科学家的Dan Kondratyuk此前曾在谷歌工作，他称自己离开谷歌是因为公司没有推出任何产品。

他在X平台上发帖说：“我离开谷歌加入了Luma。我曾是早期参与开发Veo团队的一员，但我知道它很长一段时间内都不会面向大众发布，就像Sora一样。除非有像Luma这样的公司迫使他们出手，至少我希望如此（给我权限吧）”。

与此同时，OpenAI采取了一种策略，即宣布产品来抢夺谷歌的风头，但实际上并未交付。例如，当谷歌推出Gemini 1.5时，OpenAI在同一天宣布了Sora。在2024年Google I/O大会前一天，OpenAI宣布了GPT-4o。然而，其语音功能至今仍不可用。

图片

X平台上甚至专门有人发帖调侃OpenAI在演示与发布阶段截然不同的产品表现

另一方面，谷歌也和OpenAI一样，加入了抢先宣布产品的竞赛。

最近，该公司推出了其视频转音频（V2A）模型，该模型能为任意视频生成音频。有趣的是，这个模型可以与Veo配合使用，为视频片段配上富有戏剧性的配乐、逼真的音效或与视频角色及基调相匹配的对话。

OpenAI应该趁早发布Sora，因为竞争不会减弱。

好莱坞演员艾什顿·库彻最近赞扬了OpenAI的Sora，称创作者将能够利用它来渲染整部电影。“我有一个测试版，它相当惊人，”他说道。

在最近接受《华尔街日报》采访时，首席技术官Mira Murati表示，OpenAI很可能在今年晚些时候让Sora向公众开放。

但事实如何，或许我们还需要静心以待。

参考链接：https://analyticsindiamag.com/openai-should-release-sora-before-its-too-late/

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

来源： 51CTO技术栈

玩酷网

技术创新发展界