冷观Sora爆火，百度为何不慌

撰文丨潘几鹤

要不要做大热的Sora？李彦宏say“no”。

年初OpenAI亮出Sora后，惊艳四座，国产Sora接连推出，作为AI头号玩家的百度，却绕道而行。

“Sora这种，无论多火，百度都不去做。”谈及此，李彦宏态度明确。

不久前，他进一步解释，百度不做Sora，不等于不做多模态。

其实，深耕多模态，Sora并非唯一路径。

百度选择走另一条路，在真正有业务场景的地方，推动技术能力先跑起来，比如，结合了多模态交互能力的数字人领域。

百度世界大会上，李彦宏新发布的检索增强的文生图技术“iRAG”，用于解决生成式AI中的幻觉问题，同样走的是多模态实用至上路线，努力推动产业应用真正走向规模化。

路径分野背后，关乎李彦宏及百度的战略取舍，以及技术向实的根本命题。

难以企及

仅根据提示词，就能生成长达60秒的视频，Sora的颠覆性创新及其流畅惊艳的画面表现力，有重塑产业的意义。

现阶段，它宏大美丽的图景里，隐隐透出两个关键词，昂贵、遥远。

贵，很好理解。Sora对算力和数据的需求，既要求海量，还得高质量。

算力维度，据研究机构Factorial Funds报告估算，仅训练模型，Sora至少需要在4200-10500块英伟达H100 GPU上训练1个月。

等到正式推出，Sora峰值算力需要约72万块H100 GPU，按每片3万美元计算，对应的成本就是216亿美元，烧钱力度惊人。

这种持续、高强度的资源消耗，令“视频ChatGPT时代”看似近，实则遥远。

从进展来看，年初，OpenAI CTO曾预计，2024年内Sora会正式向公众推出，可离今年结束仅剩1个半月，Sora仍处于“期货”状态，项目牵头人离职。

下场做AI视频的厂商变多，赛道竞争激烈，部分产品存在同质化、稳定性不足等问题，近期流量下降。

需要指出的是，底层技术上，Sora的精髓，在于融合了Transformer和Diffusion两个基础架构。

但早在2022年，这一方向就被提出，去年，已有国际团队探索落地。

Open AI做Sora，更多是路径创新，再次展现了“大力出奇迹”。

正如Sora推出之时，Open AI所描述的那样，称扩展视频生成模型是“构建物理世界通用模拟器的一条有前途的路径”。

光芒与争议交织，圈内不乏泼凉水者。

比如图灵奖获得者、Meta首席科学家杨立昆，就直言不讳地指出，通过生成像素来对世界建模是一种浪费，注定会失败。

根据文字提示生成逼真视频，并不代表模型理解物理世界，生成视频的过程，与基于世界模型的因果预测，完全不同。

“硅谷的炒作，总是告诉你AGI（通用人工智能）即将到来。我们实际上并没有那么接近。”杨立昆说。

技术向实

一个共识是，单凭语言模型，无法实现AGI。只有将视觉、听觉等一系列模态的认知能力融合起来，模拟人类的感知和理解，通往AGI才有了起点。

这里头的门道太多了。Sora的出现，推动多模态应用加速，但它远不能代表多模态的全部。

当众人追问“百度究竟何时下场做Sora”，李彦宏早在今年初，整个中文互联网都在为Sora捶胸顿足之时，便另有打算。

他决定带领百度，去解决图像生成的幻觉问题。

今年百度世界大会上，文生图技术iRAG，成为重头戏之一。

这项技术将百度搜索的亿级资源，跟强大的基础模型能力结合起来，能让生成的更真实、准确。

看起来，这条路没有Sora这样的新故事“性感”，为何是李彦宏眼里比Sora更紧迫的事？

“今天，文字层面的RAG（检索增强）技术，做得很好了，但图像等多模态内容和RAG的结合还不够。”

李彦宏说。之前，完全基于大语言模型的文生图系统，生成的常常是“一眼假”，逻辑不合常理，产业端很难用起来。

试想下，若基于大众汽车的描述生成的车型，长得却像丰田，AI赋能业务场景，也就只是一句空谈。

幻觉问题，制约AI大规模落地，多模态要想进入实用阶段，必须做到准确、可控。

百度想帮产业，扫清眼前的技术障碍。

新推出的iRAG技术，能大大增强生成可控性，其价值可总结为四点：无幻觉、超真实、没成本、立等可取。

大模型去掉了机器味，AI终于走向智能而非智障了。由此，许多行业的应用空间打开。

比如，看重市场推广的汽车行业，过去5000块才能做成的事，现在用AI，零成本搞定，并且能保证生成效果。

此外，在影视、漫画，连续画本、海报制作等创作场景，iRAG都能发挥极大价值。

iRAG作为多模态的分支，投入iRAG本身也能看到百度的多模态底层思路：离业务场景更近一点。

事实上，百度早就看好多模态发展方向，对该领域的加码既早且深。在许多领域，百度的多模态大模型能力是领先的。

相比业界，除了iRAG能够做到图片生成更加精准，解决可控性问题。

早在2019年，公司就推出了国内首个“数字人”，在这一领域持续精进，升级各项能力。

百度慧播星电商直播数字人

目前，百度营销擎舵2.0生成的数字人，已能实现一比一还原真人，唇形拟合匹配度高、语音克隆自然，定制效果和交付效率提速。

像数字人这样，产业侧有需求、技术上能精准实现的场景，若专门开发个通用视频生成模型，耗时耗力。

换个思路，在效果差异不大的情况下，用更简单、成本更低的技术办法，让应用先跑起来，可能是更优解。

除此之外，作为多模态大模型最大的落地场景之一，自动驾驶是大模型重构物理世界的一个典型应用。

2024年7月，百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model（ADFM），这也是萝卜快跑的核心技术。

ADFM包括感知大模型和规划大模型，两者通过联合训练，从原始数据捕捉到油门和转向输出，形成端到端的自动驾驶系统。

Apollo ADFM感知大模型已经实现包括检测、跟踪、理解、建图这几项基本能力。

其中感知大模型中的基础模型通过点云和视觉多模态融合的方式，实现了相机和主动光不同类型传感器的优势互补，兼顾深度、准确性和信息丰富程度。

这款大模型结合硬件产品与安全架构，通过多重安全冗余与管理策略，确保了车辆的稳定与可靠。

Apollo ADFM的引入，标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度，其性能超越了人类驾驶员十倍以上，成功覆盖城市级全域复杂场景。

应用驱动

站在更高维度来看，Sora的“舍”，iRAG技术的“取”，是集中资源办大事，回归实用性本源。

做AI超过10年时间，百度笃信AI，投入很大，从芯片到框架、到模型、到应用都有，既要规划好每一步，也得紧贴行业发展脚步。

千头万绪里，什么是李彦宏眼里的第一性原理？

世界大会会后，他给了四个字：应用驱动。

无论技术还是业务，百度的优先级，都是从应用开始，从上往下看。

其先结合用户需求看应用，再推导应用需要什么模型，模型需要怎样的框架，框架需要什么样的芯片，一步步走下来。

iRAG技术的诞生，正源于此。

应用需要AI生出来的图保持原状，公司logo不能错，产品细节不能失真，需要准确的多模态能力。

敏锐察觉到这一痛点，百度花了大量时间，钻进去研究，解决了生成的幻觉问题，打通了制约多模态进入实用阶段的堵点。

重视多模态，却不做Sora的理由，也在于此。

大公司财力和“才”力有限，比起砸钱进入某个商业价值尚未形成的大热门，其更愿意选择分给产业端翘首以待、急得跳脚的紧要事项上。

“大家遇到最多的问题，就是我们优先解决的问题。”李彦宏说。

11年投入AI超1700亿元，百度比外界想得要更务实，而务实也是AI行业下一个阶段的重要筹码。

靠贩卖预期的周期已经走到尾声，什么才是AI真正的价值，成为下个周期的重要命题。

今年，百度一年一度的世界大会，主题定为“应用来了”。这也能看出，其对大模型和生成式AI当下的认知和判断。

正如李彦宏反复强调的，要重视“超级能干”的应用，帮助更多人和企业，打造数百万“超级有用”的应用。

以“用”为锚点，不为做技术而做技术、不为做工具而工具，让业务真正服务于价值创造，何尝不是另一种理想主义。

从蒸汽机到AI，新技术的影响，总是短期被高估，长期被低估。AI长跑者百度，乐观地静候风变，务实地调整风帆。

正如李彦宏所说，人工智能是一次新的工业革命，它不是三五年就结束，不是一两年就出现“超级应用”的过程，更像是三五十年对整个社会彻底地重构。

唯有脚踏实地，基础模型能力先就绪，才有AI应用的群星闪耀时刻。

“在这个过程当中，我们既需要耐心，又需要大的投入，同时不断地传播火种。”李彦宏表示。

玩酷网

21世纪商业评论