玩酷网

数据才是AI核心驱动力视频数据是下一个AI突破口数据才是LLM发展的核心驱动力?

数据才是AI核心驱动力视频数据是下一个AI突破口

数据才是LLM发展的核心驱动力?

科技博主Jack Morris提出了一个挺有意思的观点:真正推动AI性能提升的,可能不是算法架构本身,而是被解锁的海量数据。

具体是怎么回事呢?咱们一起来看看Jack Morris的这篇博客的重点提要:

一、AI发展的四大范式突破

当我们回顾AI发展的四大范式突破,每一次所谓的“新”架构,其实都是解锁了新的大规模数据源:

- 深度神经网络(DNNs)(2012,AlexNet)→ 解锁 ImageNet 等图像数据。

- Transformer + LLMs(2017,《Attention Is All You Need》)→ 解锁互联网文本数据。

- RLHF(人类反馈强化学习)(2022,InstructGPT)→ 解锁“优质文本”数据。

- 推理能力(2024,如 OpenAI O1、DeepSeek R1)→ 解锁可验证数据(如计算器、编译器)。

这些突破很多时候都是在老技术(比如监督学习、强化学习)上做的文章,但核心点都在于找到了新的数据源。

一旦有了新数据,大家就疯狂地研究,怎么把数据榨干,或者用新方法更有效率地利用现有数据。

二、数据才是AI能力真正的推手

就算当年没发明AlexNet,可能也会有别的算法能搞定ImageNet;就算没有Transformer,我们可能也会用LSTM或者SSM,或者别的办法从网上那些海量数据里学东西。

我们一直在努力改进算法、优化模型结构、调整各种参数,但真正让AI能力突飞猛进的,往往是数据的变化。

举个例子:有研究者尝试用非Transformer架构开发类似BERT的模型。他们花了大约一年时间,对架构进行了数百次调整,最终开发出一种状态空间模型(SSM)。

当使用相同数据训练时,这种模型的性能与原始Transformer相当。

这一发现意义深远,因为它可能告诉了我们一个残酷的事实:从特定的数据集里能学到的知识,是有上限的。

不管你算法多花哨,模型多先进,数据能提供的信息量就是那么多,不会变多。

三、下一个范式转变从何而来?

很明显,AI的下一次突破,不会是哪个强化学习的新玩法,也不是哪个炫酷的新神经网络。它会来自那些还没被开发或没被充分利用的数据源。

现在大家都在盯着的一个“大宝藏”就是视频。YouTube每分钟上传约500小时的视频,远超整个互联网的文本总量。

视频里可不光有文字,还有说话的语气、物理世界的互动、文化信息,比纯文本丰富多了!

可以预见,一旦模型效率或算力足够,Google一定会开始用YouTube数据训练模型。

另一个潜在的“下一个大范式”是具身化数据收集系统,简单说就是机器人。

目前我们还没法有效地处理摄像头和传感器采集到的数据,让它们能被GPU训练。但如果能开发出更智能的传感器或者提升计算能力,这些数据就能派上大用场了。

虽然现在我们都沉浸在语言模型的浪潮里,但实话实说,语言数据也快被“榨干”了。

如果想推动AI进步,或许我们该停止寻找新算法,转而寻找新数据。

对此,你怎么看?