今年的视频生成领域,可不是一般的热闹。
快手的可灵自从6月开放申请以来,那叫一个众星捧月,在前几天正式开放全球服之前,排队等着上手的人甚至超过了百万。
另外,像Runway的Gen-3 Alpha、字节的即梦Dreamina、Luma的DreamMachine,还有爱诗科技的Pixverse V2、Stability的Stable Video Diffusion... 基本上,除了雷声大雨点小的 Sora 以外,各家都把自己的家伙事儿都搬出来了。
可以说,自打 Sora 出来给大家伙儿打了个样之后,视频生成的这把火是越烧越旺,完全没有要停下来的意思。
就在今天,大家可能还沉浸可灵无法自拔的时候,国内的智谱也趁热打铁,在智谱清言里上线了一个叫清影的 AI 生成视频产品。
根据官方的说法,清影采用了跟 Sora 类似的 DiT 架构,自研的视频生成大模型 CogVideo 支持文生视频和图生视频,生成一个 6s 的视频大概需要 30s。别的不说,这生成速度放一众视频生成应用里,确实算得上是快的。
看官方给的 demo,这清晰度,还有这水花和波纹,如果不仔细看可能真就让 AI 给忽悠过去了。
但这个吗喽打工,就差点意思了。手指敲键盘部分还有背景基本上都是变形的,不过这埋头苦干的样子倒还真挺符合打工人的形象。
主要现在清影暂时还是免费的,上线之后知危编辑部在第一时间去测评了一波。另外,我们也有幸跟智谱 CEO 张鹏聊了聊,谈了谈他对于视频生成应用和大模型的一些看法。
首先,咱们还是先看清影这产品到底成色几何?
先是比较考验提示词能力的文生视频,按照镜头语言 + 主体细节 + 光影的公式,我们随意发挥了一把。
提示词:
电影风格,从侧面拍摄,镜头聚焦在面部,写实描绘,夜晚,一个长发女人坐在公交车靠窗的位置,眼睛望向窗外不断变化的街景,忽明忽暗的光线打在她的脸上,画面弥漫着孤独感
别的不说,清影的提示词中文友好,大概 20s 的时间就结束了,在生成时长上几乎可以完胜大部分视频生成应用。( 作为对比,可灵生成一个 5s 左右的视频需要几分钟甚至更长 )
效果上,面部光影在随着街景发生变换,还有过程中眨眼睛的细节,也很自然。特别是人物面部的一致性,6s 的视频,几乎没有看到有变形的地方。
除了窗外的街景要扣分以外,已经算得上是一个合格的 AI 视频作品了。
还有这头狮子。
提示词:
写实描绘,近景特写镜头,狮子盯着不远处的羚羊,身体微微起伏,伺机而动
风吹着旁边的狗尾巴草,身体上的起伏的确是有的,左上角已经出镜的动物,非要说是羚羊也能圆过去。只不过这狮子的状态不太像是要捕猎,更像午觉刚睡醒。
既然日常的场景还算得心应手,我们再换个天马行空的试试:一条在隧道中自主飞舞的反光织物。
隧道、反光织物、自主飞舞,包括隧道里的灯还有尽头应该有的光,提示词里的要点清影基本都 get 到了,而且生成的效果也十分丝滑,看上去真有点奇异博士悬浮斗篷的意思。
继续让 AI 发挥想象力,看看什么叫做 “ 五彩斑斓的黑 ”。
测试到这,清影文生视频在生成速度上没得说,对提示词的抓取也基本上没有出现遗漏,但生成效果包括很多细节还是有处理得不到位的地方。
就比如视频中文字的生成,不够准确,把 “ SWEET ” 变成了一串乱码。
提示词:
The camera zooms in, and the background is pure yellow. An artistic billboard with the word " SWEET " written on it is wrapped in brown chocolate sauce, and the chocolate sauce slowly flows downwards.
理解不了物理世界规律的毛病,也是照样在犯。最经典的,篮球在这位老哥手上,基本就是隔空在闪,看不出有一点弹力。
提示词:
镜头不动,傍晚,一个男人在球场拍打着篮球
当然,这些也都是目前视频大模型的通病了,即便是 Sora,目前也依旧免不了犯这些错误。
图生视频这边,我们同样简单测试了几个。
像幼苗向上生长,打眼看着还挺符合植物生长规律的。
我们还请公司顶流火锅出来亮相了一波。前3秒的效果还凑合,就是这站起来之后,都快给咱火锅整出影分身了。
火锅:溜了溜了
反正测试下来,知危编辑部对清影最大的感受,就是生成速度对得起官方的宣传。
至于生成效果,一些特定场景下确实相当惊艳,但依旧无法完全解决,诸如理解不了物理规律等业内视频大模型的通病。
智谱技术人员告诉我们,他们的技术路线其实是循序渐进的。大概意思是,从自然语言理解和生成指令遵循的抽象能力开始,逐步将这种能力具体应用到图片、视频、声音等不同模态上。
只不过这条技术路线,同样也会受限于很多东西,比如算力,还有数据。
一个是相比于大语言模型的文本数据,视频需要的数据可能从这两三年才开始收集、标注,能用的数据少之又少。
另外,视频数据的质量也不够高。
高质量的文本数据包括了文本的完整性、内容之间的逻辑性、用词的规范性还有内容的知识性等等。换到视频数据也一样,甚至视频数据里包含的细节要复杂得多,像什么视频内容的丰富性,是不是高清,运镜分镜又是怎么处理的。。。
简而言之,视频模型所需的数据数量少,获取成本也更高。
由于底层的算力、数据导致的视频内容可控性、画面闪烁和帧率等等一系列技术问题,即使是智谱,也认为现在谈视频大模型的商业化,还为时尚早。
但话又说回来,今年视频生成应用的接连涌现,也说明了一个问题:视频生成的方向是可行的,现在大家劲儿往一处使,剩下的只是时间问题。
而除了对视频生成应用的探讨以外,被称为大模型四小龙之一的智谱,不光是在视频生成上有所布局,如果熟悉国内AI圈的人可能听说过,智谱几乎是全线在对标 OpenAI。
我们这次也跟智谱 CEO 张鹏聊了聊他对于大模型行业的一些见解。
可能大家也知道,今年上半年技术派的杨植麟和市场派的朱啸虎,针对大模型行业发表了不同的观点。杨植麟认为短期目标应该服务长期的 AGI 愿景,而朱啸虎则觉得目前 AI 行业的商业化和盈利更重要,这在当时还引发了不小的讨论。
还有前阵子,百度 CEO 李彦宏提出“开源大模型将越来越落后”的观点,也引发了热议。
针对这些热议话题,我们试着询问了CEO 张鹏的看法。
从人工智能这个学科产生到现在已经过去了将近七十年的时间,早期发展的速度可能会相对慢一些,最近几年突飞猛进,相信大家已经感受到了。
当然很多人也预测人工智能可能会就此缓下来,或者像技术成熟度曲线一样,到达一个顶峰之后进入破灭期。但我们切身在研究这项技术的人会发现,其实目前仍然有很多的问题值得去探索。
有一些趋势是很明确的,比如超级认知智能、超级对齐、原生多模态技术等等。它们的泛化能力、对世界的理解,包括物理规律的理解等都有望达到更高的层次。
另外,智谱也在进行一些前沿探索,包括基于超级认知和超级对齐技术,多模态混合训练的大模型( GLM-4.5 及后续升级模型 );人类的“无意识”学习机制,这项技术名为 GLM-zero,研究将进一步拓展人类对意识、知识、学习行为的理解。
“ 我们的目标定在 AGI,这里面每一个问题的突破都有可能带来飞跃式的发展。”
看得出来,张鹏总虽然没有直接对争议发表观点,但 AGI 的目标,毋庸置疑。
另外,在百模、千模大战的背景下,大模型公司们究竟还应不应该一股脑地卷底层大模型?从智谱本身出发,张鹏总也发表了一些对于大模型同质化的观点。
对于 “ 百模大战 ”,在商业化方面,还是要打造分层生态圈,联手踏实落地,避免 “ 重复造轮子 ” 的内耗。
如今,中国大模型赛道正在从拥挤走向分层。大部分技术进步大抵如此:新技术产生,大家一拥而上;当技术发展到一定程度,自然而然地会分层——有些人解决底层的问题,有些人解决中间的问题,有些人解决上层的问题,相对稳固而不是混乱的生态,大家互相促进。
我们希望做的,就是用通用智能水平比较高的模型给大家赋能,智谱AI负责模型推理训练、算力、适配等高复杂事项,行业和企业端则可以无压力地部署应用,期待大模型的成果能够更广泛地应用于各个行业。
还有,就是所有大模型企业都无法绕过的一个问题,商业化。
短短两年的时间,大模型就已经走到了价格战的阶段,但大模型落地究竟该做 To C 还是 To B,现在是否是大模型落地的最好时机,很多问题都等待着大模型公司们来回答。
2024年大模型应用将进入落地期,一方面垂直领域大模型的商业化应用正在加速,另一方面多模态大模型涌现,应用场景也将更加丰富。
智谱希望做的,就是能用通用智能水平比较高的基座模型去赋能大家,让大家去做行业应用。我们做好 L0 的层面,赋能伙伴和客户做好 L1 和 L2。
真正能够提供商业化服务的公司还是比较少的。从一个模型概念到一个能运作的模型,再到一个能商业化的方案,中间每一步都是巨大的跨越。
最后,知危编辑部想借用采访中张鹏总的一句话来结束这篇文章:“ 至少我们现在还没有看到技术的天花板 ”。
人工智能技术的下一次飞跃,可能是在十年后,但也有可能就在明天。