【犀牛卫APP】OpenAI发展遭遇瓶颈期，正面临着“数据荒”

AI大模型快没弹药了，数据竟成了拦路虎。《纽约时报》那边传来消息，说OpenAI为了给GPT-4充能，都开始挖YouTube的视频转文字数据了，搞了超过100万小时的内容。Meta那边也是，听说他们想买下Simon & Schuster出版社，就为了给自家的AI模型找点好料。

AI时代

但说实话，这些互联网上的数据，不管是社交媒体的聊天记录还是视频音频，都快要不够用了。Epoch那个研究机构说，用不了两年，这些高质量的数据就可能被用光了，而且我们现在手头上的，还有将来能产生的数据，可能都得在2030到2060年间耗尽。

你看看GPT-4，参数都超过1.8万亿了，训练数据的token数量更是高达13万亿！这些数据都是从新闻、电子书、社交平台上扒来的。

数据是生命力

现在的AI模型，不管是ChatGPT还是其他的，都是站在亿级数据的肩膀上。比如谷歌的BERT，就是在33亿单词的数据集上训练的，微软的Turing-NLG更是用了170亿个词组的数据集。数据对于AI来说，就像是燃料一样，越多越杂，模型就越聪明。

数据的规模虽然重要，质量也不能忽视。有偏见的数据可能会导致AI产生歧视，比如Meta之前那个图像生成的问题，就不能生成白人女性和亚洲男性的合影。所以AI训练不能老是围绕着一种文化转。

数字中国

但现在的问题是，高质量的数据不仅有限，获取的难度也越来越大。科技公司现在都在拼命找数据，OpenAI就是从GitHub的代码、国际象棋的走棋记录、Quizlet的作业内容里找数据。Meta的高管们甚至想收购出版社，就为了那些长篇小说。

犀牛卫APP项目数据链元中心

OpenAI和Anthropic为了解决数据问题，开始考虑用合成数据来训练AI。这种数据可以模拟真实情况，但不需要真的去收集数据。相信在未来几个月会大幅改观数据短缺问题。

总的来说，AI始于数据，也困于数据，数据将决定着AI大模型的未来。

犀牛卫APP行业

而在数字化的今天，各行各业也同样依赖数据发展业务，这就诞生了犀牛卫。

犀牛卫用数据找客户

犀牛卫通过数据为近30个大行业拓展客户，拥有600万+项目信息，超过10亿的项目数据。覆盖全国各地，实时更新，每天新增合作机会！

犀牛卫应用

玩酷网