【犀牛卫APP】OpenAI发展遭遇瓶颈期,正面临着“数据荒”

犀牛卫 2024-04-12 17:25:23

AI大模型快没弹药了,数据竟成了拦路虎。《纽约时报》那边传来消息,说OpenAI为了给GPT-4充能,都开始挖YouTube的视频转文字数据了,搞了超过100万小时的内容。Meta那边也是,听说他们想买下Simon & Schuster出版社,就为了给自家的AI模型找点好料。

AI时代

但说实话,这些互联网上的数据,不管是社交媒体的聊天记录还是视频音频,都快要不够用了。Epoch那个研究机构说,用不了两年,这些高质量的数据就可能被用光了,而且我们现在手头上的,还有将来能产生的数据,可能都得在2030到2060年间耗尽。

你看看GPT-4,参数都超过1.8万亿了,训练数据的token数量更是高达13万亿!这些数据都是从新闻、电子书、社交平台上扒来的。

数据是生命力

现在的AI模型,不管是ChatGPT还是其他的,都是站在亿级数据的肩膀上。比如谷歌的BERT,就是在33亿单词的数据集上训练的,微软的Turing-NLG更是用了170亿个词组的数据集。数据对于AI来说,就像是燃料一样,越多越杂,模型就越聪明。

数据的规模虽然重要,质量也不能忽视。有偏见的数据可能会导致AI产生歧视,比如Meta之前那个图像生成的问题,就不能生成白人女性和亚洲男性的合影。所以AI训练不能老是围绕着一种文化转。

数字中国

但现在的问题是,高质量的数据不仅有限,获取的难度也越来越大。科技公司现在都在拼命找数据,OpenAI就是从GitHub的代码、国际象棋的走棋记录、Quizlet的作业内容里找数据。Meta的高管们甚至想收购出版社,就为了那些长篇小说。

犀牛卫APP项目数据链元中心

OpenAI和Anthropic为了解决数据问题,开始考虑用合成数据来训练AI。这种数据可以模拟真实情况,但不需要真的去收集数据。相信在未来几个月会大幅改观数据短缺问题。

总的来说,AI始于数据,也困于数据,数据将决定着AI大模型的未来。

犀牛卫APP行业

而在数字化的今天,各行各业也同样依赖数据发展业务,这就诞生了犀牛卫。

犀牛卫用数据找客户

犀牛卫通过数据为近30个大行业拓展客户,拥有600万+项目信息,超过10亿的项目数据。覆盖全国各地,实时更新,每天新增合作机会!

犀牛卫应用

0 阅读:6

犀牛卫

简介:找项目、找业务、找资金就用犀牛卫。