丁磊：5000字，直面Sora，拒绝胡扯！

近一周，相信大家的朋友圈都被一个词刷屏了：Sora。

2月16日凌晨，在没有任何预兆和消息透露的情况下，OpenAI突然发布了自己的首个文生视频模型：Sora，大幅刷新行业多个指标，将视频生成的时长一次性提升了15倍，颠覆了生成式 AI 在视频领域的全球市场格局。

OpenAI新爆款Sora的热度持续发酵，以黑马之姿占据各大平台话题中心——马斯克感叹“人类愿赌服输”；杨立昆狠批“Sora不是世界模型，参数量或仅30亿”；周鸿祎预言“AGI实现将从10年缩短到1年”...

似乎一夜之间，人们又回到了一年多前那个令人焦虑的“ChatGPT时刻”。在争议之外，Sora到底“牛”在哪？对于创业者和行业来讲，会引发“地震”吗？

丁磊博士在AI领域有20多年的研究和工作经验，曾为硅谷公司PayPal创立人工智能平台，并出版了《生成式人工智能》一书。中信书院特邀丁磊博士，以资深从业者的视角，为我们理清思路。

来源 | 中信书院(ID:citicbook)

作者 | 丁磊

编辑 | 三昧

01从文字到视频Sora到底有多“可怕”

OpenAI发布了一个由Sora据一段文字生成的长达60秒的视频，要知道就在不久之前，谷歌公司发布的最新视频生成模型VideoPoet，其生成的视频也就仅仅10秒。

当然，Sora的突破不仅仅在于时长，这个60秒的视频，不管是流畅度和稳定性，还是对光影反射、运动方式等细节的处理方面，特别是对物理世界的学习能力，都表现出极高的水准。

那Sora到底是怎样根据一段文字生成如此惊艳的视频？

我们知道视频是一帧一帧的图片连接而成的，而想要了解“文字生成视频”，我们应该先了解“文字生成图片”。

近两年，随着Midjourney、Stable Diffusion、Dall-E等图片生成工具的出现以及性能的升级强化，几乎是和ChatGPT一道，将人们对生成式AI的关注度推到了一个前所未有的高度。这些工具能根据一段提示词创作出风格迥异、内容丰富的图片，其对细节的处理已经相当出色（如图1）。

图1：图片生成工具生成的图片

图源：https://openai.com/dall-e-3

这些图片生成工具的背后，是一项称为Diffusion（扩散）模型的关键技术，它能够将一张马赛克一样的图片，不断结合提示词提供的信息，多次还原，最后形成一张完整、清晰的图片。

Diffusion模型完整的扩散过程包括正向扩散和逆向扩散两个过程（如图2），在正向扩散过程中通过逐步添加高斯噪声使得图片变得模糊，而在逆向扩散过程中通过学习正向反过程来训练模型，两者结合形成最终的Diffusion模型。

图2：Diffusion模型的扩散过程

既然有了图片，为了得到最终的视频，我们就需要想办法让图片动起来，这就要用到大名鼎鼎的Transformer模型了。

Transformer模型是一个用来处理各类序列问题的强大模型，一类是文本生成，ChatGPT就是利用Transformer模型根据用户输入的提示词，来生成连续的文字内容的。另一类是视频生成，由于视频本质上是由连续的图片帧组成的，我们同样可以将视频理解为一种图像数据序列，无非是其在图像领域的自然延展。

实际运用过程中，Sora把视频分解为更小的数据单元Patch（时空碎片），每个Patch相当于文本序列模型中的一个Token（词元），而这也是Sora最重要的理念之一。

从Sora生成的视频中我们似乎可以察觉到，它就像具备了理解世界通识的能力，能够准确的模拟事物在现实世界中的真实表现，例如最基本的动作连贯性、流体运行的形态、光影随动物的变化、物体尺寸的比例等等这些，都表现的像是真实拍摄的视频一样，令人叹为观止。

比如，给出提示词：“摄像机跟随一辆白色老式SUV，顶部有黑色行李架，它加速通过一条陡峭的土路，周围是松树，地势陡峭，车轮卷起了尘土...”，Sora生成了汽车在山间疾驰的视频（如图3），此时“世界模型”就需要预测汽车轮胎和路面相互作用所形成的车轮印迹、汽车疾驰时扬起的尘土和一系列的光影变化等。

图3：Sora生成的视频部分截取

图源：OpenAI 官网

Sora的横空出世，不仅带来了视频生成领域全新的应用体验，其兼具的内容生成和理解世界的能力更是让人们对生成式AI有了新的认识和思考。

02三个维度看Sora引发的“地震”

Sora真正令人震惊之处，是在于模型能够理解物体在物理世界中的存在方式和运行规律，模型可以学习物理世界的规律又可以准确模拟出真实的物理世界。随着这种能力的进一步深化，由Sora推动的人工智能跨越式发展，将极大拉近我们与更具通用性的未来智能世界的距离。

引爆AI产业投资热情

资本市场一向是很敏感的，Sora引爆了资本对AI产业的投资热情，涉及AI概念的赛道整体上涨，更多人看到了生成式AI的发展和希望。其中走在前列的仍是科技巨头，国内外科技巨头都在不断增加对AI技术的持续投入。

紧随其后的，无论是互联网，还是信息、金融、零售等等各行业，也有更多企业宣布积极投入大模型研发和AI的相关布局。越来越多的投资者也意识到，想要让人工智能在特定的行业内得到更加广泛和深入的应用，需要更多的投入和耐心，而这对生产力水平的提升，以及对产业结构的调整和发展也有着深远的意义。

给行业带来“巨震”

最先受到影响的无疑是影视、短视频、广告、互娱、媒体等这些行业。Sora能够快速生成高质量视频内容，大幅降低了特效和高风险镜头的制作成本，提高内容制作效率。借助Sora，广告公司则可以迅速制作符合市场需求的视频广告，缩短了创意到成品的周期。

而这必将是一把双刃剑，视频内容制作成本和门槛大幅降低的同时，也会加剧行业的竞争，它对创作者提出了更高的要求，创作者必须不断创新，才能保持其作品的吸引力和市场份额。

我们离失业还远吗？

不仅仅是视频，生成式AI带动文本、图像、音频等各种内容生成技术快速发展，应用场景快速演化，各行各业都会受到影响，这也加剧了人们担忧和隐虑，有人不免惊呼“硅基生命终将取代碳基生命”“AI接管人类社会的步伐在加快”等。有些人可能彻底选择“躺平”了，认为AI进化如此之快，甚至可以学习物理世界了，我们离失业还远么！

目前，各种生成式AI模型仍在研发阶段，还有待进一步落地应用，谈论是否能取代人类的工作还为时过早，但是这不可否定AI的影响力。AI带来的改变是深入各行各业和我们生活的每个角落的。

AI的快速进步会极大的提升生产效率和工作方式，重新定义人在工作中的位置。随着越来越多的新兴职业和岗位的出现，例如AI产品经理、提示词(Prompt)工程师、AI创意师、AI 调校师等等，这些职业的需求和数量也将逐步提升，可以说，AI也带来职业结构的改变。

与其说AI将取代从业者，不如说AI代替的是枯燥繁重的工作内容，AI淘汰的不是人类，是落后的生产力。对于AI，我们不应该将其视为竞争对手，而是将其视作我们的工作伙伴，训练并加以使用。正所谓，君子生非异也，善假于物也。

03由Sora到世界模型生成式AI的未来已来

面对Sora带来的震惊，人们的反应也可以说是喜忧参半。一方面见证了生成式AI的又一“奇迹”，另一方面也兴许会发现大语言模型离解决实际问题的距离还很远，而且“驯服”大模型仍需要时间。

有研究声称随着越来越多人使用，大模型似乎变笨了，甚至还出现了“幻觉”。出现这种问题的主要原因是目前主流的生成式模型仍然缺少对于物理世界的理解，以致于对于一个正常人来说非常容易解答的问题，在大模型看来却无法给出正确的输出。

Sora的出现让我们更加清晰的认识到了这个问题，也为生成式AI的未来发展提供了方向，就是让大模型认识和学习物理世界，建立起大模型与物理世界的联通。这必将带来AI新的应用和突破。有人认为，Sora意味着实现通用人工智能的时间被大大缩短。

人脑认识事物的过程类似一个模型。从认识论的角度来看，在人脑认识的过程中会逐渐形成“关于世界的模型”。人的主观知识并不一定从一开始就符合现实规律，但是通过不断的实践和不断的比较中，从模型获得的预期结果与实践的结果，来修正主观认识，以减少模型预测与实践之间的差异。这种调整机制可以使得人脑关于世界的模型更接近真理。

这就好比说，体育运动是人类对物理世界认知和学习过程的体现。以乒乓球运动为例，运动员一开始能掌握最简单的推、攻技巧，对于常规的来球，一般都能正常应对，回球路线也符合自己的预期。随着来球的速度、旋转的变化，运动员发现以往的接球技巧很难完全应对了，回球时而下网、时而出台。

运动员逐渐认知到，通过调整球拍接球的力度和角度可以应对不同的来球情况。随着接触到的来球情况变得多样，大脑里就会构建越来越复杂的“世界模型”，之后在赛场上无论遇到什么情况，都能应对自如。这就是人类的“世界模型”认知和学习的过程。

“世界模型”也是心理学和工程科学上的一个重要概念。例如，著名人工智能科学家Yann LeCun（杨立昆）在谈论机器智能的时候就提到了世界模型的重要性：世界模型模块构成了架构中最复杂的部分，其作用包括：估计世界状况的缺失信息，以及预测世界的未来状态（如图4）。

图4：自主智能的系统架构（在原图基础上有简化）图源：Yann LeCun,“A Path Towards Autonomous Machine Intelligence”

世界模型可以被看作是世界相关方面的一种“模拟器”，对真实的物理世界进行建立模型，从而让机器像人类一样，对世界有一个全面而准确的认知，可以预测世界的自然演变，或者可以预测由特定行为产生的未来世界状态。

回到对Sora的讨论，Sora带给人们的震撼是，它似乎通过学习，不断缔造物理场景下的“知识体系”，通过融汇这些知识，生成高质量的视频内容，给人类带来以假乱真的视觉感受。当然，如果我们以“世界模型”的标准来重新审视目前的生成结果，Sora距离真正意义上的“世界模型”还有一段不小的距离。

一方面，Sora在处理复杂场景和物理效果时仍然存在一些不足。例如，当场景中涉及到多个物体的交互或复杂的物理运动时，Sora可能会出现失误或偏差。

另一方面，Sora主要依赖于大量的训练数据来学习视频的生成规律，这种方式虽然有效但在一定程度限制了其在新场景下的泛化能力。

Sora让我们看到了AI形成“世界模型”的影子，一旦AI与物理世界建立了联通，学习到了“世界模型”，AI的推理和预测能力将实现突破，这将在很多应用场景和专业领域里大有可为。这样的AI能够执行复杂任务和操作，甚至能够完全模仿人类智能的行为，最终实现通用人工智能。

04引领科技革命为什么这次又是美国？

我曾为硅谷公司PayPal建立了服务全球用户的数据科学平台，在AI领域有20多年的研究和工作经验。在硅谷工作多年，我非常了解为什么硅谷会出现OpenAI及山姆·奥特曼这样的人——是硅谷的“工程师文化基因”造就了他们。

OpenAI是长在美国硅谷重视工程师地位的文化土壤里，有着强大的“工程师文化基因”，简单说就是工程师可以主导研发，拥有更大自主性，发挥创造性的空间更大。

同时，OpenAI坚持产品驱动，没有知识分子的清高，无论是Transformer还是Instruction Tuning等算法模型，不因为是别人发明的就避之不用，而是秉承“拿来主义”，持续在自己的大模型里埋首用功。对一个企业来说，最大的价值创造永远在用户使用的产品里。

那么，为什么谷歌等大公司目前在人工智能领域的研发都很难超越OpenAI？

一个关键因素是这些大公司还是按照原有的软件研发方式研发新的AI技术，将任务拆成不同的细分任务，多部门人员各自负责细分业务，这是一种“养鸡模式”。

以大模型训练为核心的新兴AI技术研发，其本质是一个很难拆解的任务，需要核心领导层在技术、产品和业务等层面都有端到端的视野和管控能力。这更像是一种“养娃模式”，父母需要站在全局角度，亲自教授培养孩子，也就是说孩子的教育不需要那么多老师，核心人物只要少数。据OpenAI发布的Sora技术报告，Sora作者团队仅有13人。

值得一提的是，OpenAI的CEO山姆·奥特曼，其个人能力就非常强，不仅懂技术，也懂商业运作，甚至在去年底发生了举世瞩目的“宫斗”事件后，都能快速回归原位，足见其影响力之强大。正是有这样一位领导者，全局把控公司运营方式，同时避免过多受股东制约，才能让OpenAI始终走在AI技术创新的前沿。

就AI产业发展来说，中国的人才不比美国少，要想在AI竞争中快速占据有利位置，不妨加快布局，充分尊重模型训练本身的规律，用客观全面的AI思维，去迎接新一轮的挑战。

现在大家普遍对人工智能感到焦虑，在我的新书《生成式人工智能——AIGC的逻辑与应用》当中，比较详细地展望了AIGC的未来趋势以及对个人的影响，我们身处在AI技术日益革新的世界中，每一个人，与其踟蹰不定，不如就此前行。

【推荐阅读】

丁磊《生成式人工智能》

布局人工智能未来

一本书读懂AIGC的逻辑与应用

本文为原创，转载请标明出处：中信书院

玩酷网

丁磊：5000字，直面Sora，拒绝胡扯！

衷心书院