深度:Sora真正的可怕之处

依萱价值先生 2024-03-03 19:17:24

Sora的横空出世惊艳全球,而这股热度发酵了还不到两周,阿里在2月27日便推出了EMO模型。

根据用户上传的一幅头像和一段音频,EMO模型就能让静态的人物“动起来”,惟妙惟肖地演绎那段音频,表情还不失真实和自然,效果炸裂。

在公开的视频Demo里,甚至还让Sora经典视频里的那位“时尚女士”开口演唱,冲击感拉满。

视频加载中...

如果说Runway、Pika是视频大模型的1.0时代,Sora是2.0时代,那么EMO模型是属于2.0时代的,它跟Sora是同一套的底层训练原理。

但这就意味着我国的视频大模型一下子就追上2.0时代吗?意味着我国的AI水平与老美差距极小吗?意味着国内AI产业上市公司估值可以对标美股吗?

Sora真正的可怕之处(一):

相比ChatGPT,是一次质的飞跃

这次文章更新耗时比较长,是因为对待一个影响深远的新事物,我希望支付足够的时间去全方位了解。包括精读Sora的官方技术报告原文,看足够多的技术大牛分享、行业报告、券商研报,以及关联领域的各种报道。

这既是为了尽可能用简短的人话把Sora的原理讲清楚,也为了尽可能在数据和逻辑上不误导各位。因为对新事物的认识时间毕竟有限,即使专业领域的人士,也难免存在一些数据和逻辑上的纰漏。看足够多资料的一个好处,是可以相互印证,最大限度避免这些误导。

然而,看得越多,给我的直观感受不是看到更多的机遇和希望,而是愈发意识到Sora的可怕。

一年前,ChatGPT惊艳全球,国内大厂纷纷跟进。而事实上,不到一年的时间,好几家国内大厂确实做出了自己的文字大模型。虽然跟ChatGPT还存在距离,但距离很小,在中文领域的体验甚至做得更好。

一年后,Sora再次惊艳全球,但这次没人敢说一年时间内国内也能出现对标Sora的视频大模型。从国内大厂对Sora的响应态度(比一年前低调得多得多),就让人隐约感觉到,情况跟一年前完全不同。EMO的出现似乎振奋人心,但冷静下来之后就会发现,格局其实并未改变。

咱先从Sora的训练原理说起:

从识别一维的自然语言,到识别二维的图像元素,作为多模态的最后一块拼图——视频,似乎只是水到渠成的事情。但如果沿用训练二维图像的逻辑,即使全球的算力资源堆在一起,再翻个几倍,也训练不出今天Sora的效果。

1.0时代的视频大模型,输入(训练)的都是分辨率统一的4秒正方形视频,训练的原理决定了模型只是为输出视频而学习视频。输出视频就是模型的全部能力,甚至这项能力还不太及格,因为模型并没有对世界产生认知。

Sora是联合训练不同分辨率、不同纵横比、不同时长的视频。它的视野首先是正常的,而不是通过一个井口去观察世界。

它的训练原理还决定了Sora在训练的同时,也从多个维度在学习、认知世界。而由于通过视频学习,效果跟通过文字学习是不在一个档次的;就像“行万里路”与“读万卷书”的区别。在这方面,Sora相比ChatGPT,是一次质的飞跃。

相比1.0的视频大模型,输出视频只是Sora的其中一项能力,甚至还不是主要能力。

这是在对Sora充分理解后做出来的训练过程示意图,比目前主流的讲解都要清晰、高效,一图就能看懂Sora训练的原理。

这个图展示的是输入(训练)的过程。至于输出(生成)的过程,基本上就是一个反向的过程,就不重复了。

图中可以清楚看到,整个训练过程经过了三次的压缩/降维,可见在现有算力水平下,Sora这种级别的训练效果之所以能实现,压缩是功不可没的。

虽然这是一个“大力出奇迹”的模型,但即使坐拥英伟达和AMD的老美,算力也不是要多大就有多大的。Sora的成功体现了一种算法+算力的美。正是一次又一次的压缩、降维,使得在现有算力水平下,这种级别的视频大模型成为可能。

Sora项目组三个核心负责人之一William Peebles,在一篇工作日志里,最后正是得出的这样结论:压缩才是真谛。

从EMO的技术报告可以了解到,它跟Sora是同一套的底层训练原理,属于2.0时代的算法。但如果说要追赶Sora,那恐怕距离还挺远。

可以把EMO理解为一个迷你版的Sora。Sora学习的是整个世界,EMO是专攻人物演说/演唱一个方向,算力需求就轻便得多。而且由于特定的输出模式,模型的训练和输出过程还可以省去一些步骤。

另一方面,EMO也有一些创新之处,例如时间轴的控制;以及声音、语调的对齐训练。在算力受限的背景下,EMO不失为一个快速跟进的成功案例。

然而,在“大力出奇迹”的这个AI大框架下,算力的缺失必然意味着“质”的距离。

Sora是视频大模型的2.0,更是AI大模型的2.0,因为它是朝着AGI的方向去认知世界的。这也是为什么说Sora相比ChatGPT是一次质的飞跃,也是为什么OpenAI敢说Sora将会成为“世界模拟器”。

所谓AGI(通用人工智能),可以理解为AI的完全体,也是AI研发的终极目标。它就像一个拥有超级大脑的人类,可以通过一切的所见所闻去认知世界,学习一切。然后只要有足够的硬件支持,就能做到一切咱们能想象AI可以做到的事情。

事实上,很多经典的AI主题电影,对AI的塑造,其实就是AGI的标准。

由于算力的限制,EMO就好比一个跟Sora同级别的天才孩子,但Sora家境富裕,能支持他常年环游世界,行万里路;而EMO由于家境贫困,只能每天都限制在一片小地方转悠。长大后,两者的见识、能力就形成天壤般的区别。

Sora真正的可怕之处(二):

算力之争,正式取代“电力之争”

即将进入2020年代之际,我国的5G、新能源便已领先全球,在“追赶”中实现了反超。但老美没有选择“追赶”,而是绕开5G,祭出了6G;绕开电力,祭出了算力。

去年开始的中美股市强弱逆转,背后的一个关键逻辑就是世界竞争格局的转变,老美重新掌握了卡脖子资源的话语权。

这种较量,就好比一场开放式的赛车,对方不仅是下场比赛的选手,也是大赛的主办方和裁判。发现我方赶超,甚至遥遥领先,对方居然可以强行改变终点,秒回领先位置。

而这次改变终点的操作,凭借的就是Sora。

2~3年的距离?

有一种主流观点认为,中美在AI方面的距离只有2~3年(也有说1~2年的),还偷换了概念,把算法等同于模型,认为由于算法很容易追上,所以大模型也很容易追上。

新技术出现的头2~3年是最大的红利期,这些盈利可以为前面的研发提供足够的反哺,并支撑下一轮新的研发,也即“一直很先进,一直很有钱”的正向循环。落后2~3年看似时间不长,但就刚好错过了最大的红利期,意味着“一直赚得少,一直缺钱搞研发”。

可怕的是,这还不算可怕的情况。

因为只要拿捏住卡脖子的关键环节,这2~3年的距离很可能是永远都追不上的。甚至这距离,人家想拉开,就能随时拉开。

就像前些年,我国的芯片设计已经相当牛掰,跟老美几乎没有差距。但人家把光刻机一掐、把EDA软件一禁,差距马上被拉开到难以估计的程度。

Sora的官方技术报告非常“大方”,虽然还不至于开源,但整个模型的思路几乎是完全公开的,还具体到每一步用的什么模型、什么技术。公开到这份上,至少对于国内大厂而言,如果都不能把算法补全、快速追上,那就不是2~3年的差距,至少是10年以上了。

但问题根本不在于算法。

对于类ChatGPT的文字大模型、类Midjourney的图像大模型,如果算力跟不上,大不了就是训练时间长一点、生成速度慢一点。

但对于类Sora的视频大模型,如果算力跟不上,直接影响的是生成视频的质量。低算力生成的视频可能惨不忍睹。

有机构按照全帧训练做过测算,Sora的算力需求是GPT的100多倍。虽然得益于多次压缩的算法,粗略估算,算力需求也至少在10倍以上,甚至20倍以上。

面对今年的Sora,国内大厂之所以选择低调,不是因为搭不出大模型,更不是因为担心市场空间,而是算力被死死卡住了。这几乎就是无解。

早在2022年9月,也就是ChatGPT还没爆火之前,老美就意识到在算力上卡咱们的脖子。国内大厂不能再使用最先进的H100和A100算力卡,只能使用阉割版的H800和A800,性能只有原版的不到一半,甚至不到三分之一。

过分的是,阉割版的价格居然跟原版差不多。更过分的是,在中间商赚取差价后,价格还抬高到原本的4~5倍。更更过分的是,居然还供不应求!

这样一倒腾,国内要训练同样的AI大模型,成本是老美的十几倍。

更离谱的是,2023年10月开始,连阉割版的H800和A800都用不上了。

就如AI黄仁勋的那句“算力即权力”,Sora的出世大幅巩固了这种世界竞争格局。

我国只是赛车选手,无法像老美那样把终点修改到有利于自己的方向。虽然难以追赶,却不得不追赶。

因为作为“世界模拟器”,在医学、军工、自动驾驶等重要领域都意味着能加速突破,不追赶的话,后果太严重。

雪上加霜的是,在追赶的过程中,还摆脱不了对方“若即若离”的控制。

在严厉制裁下,国产替代好不容易被逼出点突破;但凡对方继续逼下去,又或者自己硬气一把,国产替代的研发和需求就能形成良性循环,这种突破就能延续、加速。

具体点说,就是华为昇腾AI芯片面临的最大问题就是被英伟达芯片构建的生态排斥在外,所以现状是华为要为企业客户派出专门的驻厂工程师,以随时解决昇腾的适配问题。如果英伟达继续断供,随着华为昇腾的产能上升,国内企业使用华为算力的比例就会快速上升,华为生态就会逐渐取代英伟达生态。需求上去了,就可以反哺研发,加速突破。

可惜现实是骨感的,在对方发现我方出现了“竞争力”后,马上表达出“善意”。而如无意外,我方会毫不犹豫接受这种“善意”。

H20是另一种方式的阉割版算力卡。之前H800/A800限制的是互联速度,让咱们有算力都发挥不出来。H20不限制互联速度,但单卡性能削弱到原版H200的不到10%。这明摆着就是一边向我方征收至少十几倍的算力成本,支持他们的下一轮研发;一边针对华为昇腾的软肋,巩固英伟达生态。

“难以追赶”的程度,可能比想象中更严重。

根据中国信息通信研究院发布的《中国综合算力指数(2023年)》,去年6月底,我国总算力规模197EFLOPS,位居全球第二,增速还高于全球平均水平,看似还挺不错。

但进一步看看结构就会发现并不乐观,因为其中AI算力的占比只有1/4,其余都是通用算力,不能用于跑AI模型。这个占比水平是远低于第一梯队经济体的。

如果按照FP32算力折算,我国的总AI算力相当于英伟达的H100(PCIe版本)算力卡接近100万片。

当然,实际性能跟100万张H100是没法比的。原因在前面已经讲过,H800的单卡性能可以媲美H100,但多卡互联起来,性能就却被甩几条街(即使总算力还是一样的)。何况咱们连H800都已经买不到。

2023年英伟达光是H100芯片的产能就超过50万片。与英特尔合作后,预计2024年的H100产能将暴增至150~200万片。而且英伟达不光是生产H100,老美也不光是只有英伟达,他们还有AMD。

而咱们只有华为。

电力和通讯领域,天然就适合“集中力量办大事”,这也是为什么我国在5G和新能源实现快速赶超。

而算力、云计算领域,天然是适合市场化的。老美不但算力显著高于我国,高度市场化的三大运营商算力平台格局,使得算力的使用效率也远高于我国。而由于体质问题(例如算力资源分散、主力用户都不愿意使用更高效率的公有云),人家明摆着的作业,也抄不过来。

同样的算力资源,需要支付几倍、甚至十几倍的成本;性能还要大打折扣;使用起来的效率还明显低于对手。这些共同构成了“难以追赶”的内涵。

Sora真正的可怕之处(三):

AI股很虚,但不得不涨

下至追逐热点的散户,上至编织故事的机构主力,其实心里都明白:无论现有的业绩,还是可以预见的市场空间,国内AI股的成色还是比较虚的,对比老美的AI股还有很大距离。但只要AI热潮一来,他们总是不约而同地对标美股去炒。

巴菲特在上周末刚发布的2024年致股东信,里面就直指现在的美股市场越来越像赌场。就差没有直接点名AI股了。

美股的AI股尚且虚得很,大A里面那些更虚的,凭什么能炒上去呢?又为什么经历一次又一次泡沫破灭的膝盖斩之后,依然执着要对标美股呢?

这里面当然有资本的逐利、有人性的扭曲。但还不是全部。

前面提到过,在新科技的红利期、在卡脖子的环节,我国大量的财富流入老美的口袋,滋养着他们的下一轮研发。这种关系不仅存在于实体市场,也存在于金融市场。

今年A股的转折点,是伴随着QDII的高潮出现的。转折点出现之前,股市越是向下,内资就越是加速流向美股。

这决定了我国AI想要“追赶”,股市就只能涨。不然这里全球独一无二的顽强的韭菜资金就会变成老美AI产业的肥料。

而作为上涨的主角,最合适的当然是AI股,此谓“用魔法打败魔法”。

于是,在Sora的倒逼之下,国内AI股只能跟着雄起来,尽管明知道里面很虚。

行业逻辑

虽然整体比较虚,但产业链上每个行业之间还是有区别的。选择相对能打的行业,一方面在上涨空间和上涨确定性上有优势,一方面在以后泡沫破灭时也更容易退出。

算力在轮动初期就脱颖而出并不是没道理的,虽然作为被卡脖子的领域,存在各种困难,但依然是综合胜率和赔率最高的方向。

国内的AI算力供给格局原本已经很紧张,例如国内大厂再怎么不情愿,昇腾AI芯片的价格在年内就翻了倍。在Sora问世后,算力需求的天花板再次打开。除非国内实锤不做视频大模型,否则至少10倍以上的AI算力需求空间就摆在那,赔率足够高。

国内大厂对Sora的反应很低调,但央企态度就非常积极。光是三大运营商,今年在算力的投入预算就近千亿。

据中国信息通信研究院测算,在算力方向每投入1元,将带动3~4元的GDP增长。

相比每释放4~5元才带动1元GDP增长的M2,效果强了十几倍。

所以不管大模型跟不跟得上,算力先堆起来准没错的,这决定了胜率也足够高。

大模型的方向,虽然一旦成功就意味着巨大的空间,但至少从现在来看,暂时还没看到希望,不确定性很大。就算能炒上去,一有什么风吹草动,崩起来跑都跑不掉。

应用方向的分歧比较大,有着较大的不确定性。

一方面,应用可以绕过大模型,直接用Sora的接口就可以做,这是优势。但同时老美是很欢迎这么做的,这是风险。毕竟更多的依赖,就意味着更灵活多变的制裁手段;依赖程度越深,制裁起来就越有杀伤力。另外还能免费收集珍贵数据。

另一方面,应用的变现周期短,不管什么时候被制裁,制裁之前能割一波是一波,业绩兑现上似乎很有优势。但基于视频大模型的AI应用存在一种悖论:

以短剧为例,本身的成本就不高,而AI视频在初期是没有灵魂的(强如Sora也不例外),同等成本下并不具备竞争力。而短剧不是一个生命周期很长的行业,精神满足的效用会在行业内卷中快速边际递减。用人话来说,就是Sora能做出有灵魂、有竞争力的短视频之前,短剧市场的红利期很可能已经结束了。

一些不依赖于市场需求的领域,倒是可以在短期内就实现。例如上周刚上线的国内首部AI动画片《千秋诗颂》,就是把语文教材的200多首诗词,用AI做成国风动画片,为小学提供了很好的教学体验。

但也正因为不依赖于市场需求,这类应用更多是公益性的,而不是盈利性的。

值得一提的是,在应用的方向上,元宇宙的空间可能是最大的。

以往的元宇宙是游戏建模的模式,世界规模非常有限,也不存在真实世界的各种物理反馈,与真实世界的体验差距极大,受众基本上只局限于游戏玩家群体。

Sora的“世界模拟器”可以赋予元宇宙全新的生命。但不是短期内的事情,至少要等到Sora2.0甚至3.0时代。

最后还有一个处于市场视线盲区的方向,就是提供视频大模型训练用数据的行业。只要大模型开干,这行业就能兑现业绩。至于大模型做出来能否盈利,那一层风险是不用担的,这是一个很大的优势。

虽然Sora的技术报告里没有明说,但不少专业人士都能从它的Demo视频能看到很多技术的影子:除了经典电影、纪录片的运镜手法,还有游戏引擎(如UE5、Unity)的技术影子、物理算法模型(如CAE、CAD)的技术影子、3D重建技术(如NeRF、Gaussion Splantting)的影子。

用这些技术和数据配合训练,能有效提高视频的模拟仿真能力。例如CAE提供的复杂数学模型和物理模型(如流体力学、粒子物理学、粒子运动模型),能为视频训练过程提供准确的动态内容基础。就像给学生先做好思想品德教育,就不容易被一些不良内容带偏。

这个方向之所以被市场忽视,一个是因为信息不对称,另一个是因为标的暂未明朗。所以只需要先留个心眼,到机会出现的时候,就能及时抓住。

今天就分享到这吧。对文章内容有疑问或者指正的,继续欢迎在评论区留言交流!

0 阅读:0

依萱价值先生

简介:感谢大家的关注