人工智能:“我”太难了

趣唠科技不打烊 2024-08-12 03:19:06

文丨俊俊

从ChatGPT出圈以来,人们对于AI的焦虑和恐惧就从未停止过。

萝卜快跑的超长热度周期,是AI驾驶切实威胁到人类工作的不平之鸣。

网文圈“萝卜快跑”番茄小说的 AI 协议,引起不少作者发文抵制AI训练。

此前全球画师抵制AI绘画的舆论风波,以及好莱坞最大规模罢工抵制AI事件更是甚嚣尘上。

虽然如此,这些反对声音在滚滚向前的技术车轮前,仍是杯水车薪。

AI不赚钱,是泡沫?

始于硅谷的这场AI竞赛,科技巨头们投入巨额。

从财报来看,Meta在年报中披露,2024年资本支出可能高达400亿美元;

微软(Microsoft)的资本开支更高达500亿美元,其中研发支出272亿美元;

还有亚马逊(Amazon),在一季度披露资本支出额为140亿美元,但预计这将是2024年最低水平,未来还会加大对生成式AI方面的投入。

散户投资者的热情也推高了这些公司及其供应商的股价,尤其是生产用于训练人工智能模型的计算机芯片的英伟达(Nvidia)。

年初至今,谷歌母公司Alphabet的股价上涨了25%,微软上涨了15%,英伟达的股价上涨了140%。

如此众星拱月,全球追捧,AI技术确实有了巨大的进步,已经被用于翻译文档,写电子邮件和帮助程序员编写代码,甚至语音助手,自动驾驶上路,无人工厂等。

但距离人工智能改变现代生活的方方面面,就像互联网或手机带来的改变一样,仍很遥远。

根据IDC最新发布的报告《全球人工智能和生成式人工智能支出指南》,2022年全球人工智能(AI)IT总投资规模为1324.9亿美元。如此昂贵的价格成本投入,AI这项技术远未达到“有用”的水平。

亏损仍是当下AI企业的常态。

华尔街分析师则预计,到2026年,大型科技公司每年将在开发AI模型上花费约600亿美元,但到那时,每年从人工智能中获得的收入仅为200亿美元左右。

以AI初创公司OpenAI为例。据估计,OpenAI的人工智能训练和推理成本将达70亿美元,再加上15亿美元的劳动力成本,今年的运营成本可能高达85亿美元。

尽管营收约在35亿至45亿美元之间,但大量用户使用免费版本的ChatGPT,加大了计算成本负担,却未能转化为直接收入,导致亏损。

谷歌也面临同样的问题,该公司每季度120亿美元的AI投资不知何时会开始产生回报。

“对我们来说,投资不足的风险比过度投资的风险要大得多”,谷歌首席执行官皮查伊说。他承认人工智能的成本很高,在他看来,AI产品要成熟并变得更有用还需要时间。但他表示,即使AI热潮放缓,该公司购买的数据中心和计算机芯片也可以用于其他用途。

AI这项技术可能无法赚到钱,动辄数十亿美元的投资是否合理已经令大家产生警惕!

越来越多的华尔街分析师和科技投资者开始发出警告,大型科技公司、股市投资者和风险投资公司向AI领域投入的巨额资金可能会导致金融泡沫。

过去几周,包括高盛(Goldman Sachs)和巴克莱(Barclays)在内的华尔街大型投资银行,以及红杉资本(Sequoia Capital)等风投公司,都发布了报告,对AI淘金热的可持续性表示担忧。

当然也有人持不同意见:AI可以在全球范围内实现3亿个工作岗位的自动化,并在未来10年内将全球经济产出提高7%,这也是为什么AI能引发大量关于其颠覆性潜力的新闻报道。

数据荒比盈利来的还快

AI未能很好变现的原因很大一部分源于产品,令AI雪上加霜的是,如今全球已陷入高质量数据荒。

当前的很多大模型还是主要基于人类生成的文本进行训练的,但是未来可就不一定了!

如果未来,大多数模型的训练数据是从网上抓取的,那它们不可避免地会用上前辈模型生成的数据。

用大模型自己生成的数据来训练自己,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。

简单讲,LLM生成的数据最终污染了下一代模型的训练集,就会出现模型崩溃(model collapse)的现象。由于在被污染的数据上进行训练,LLM随后会错误地感知现实。这样一来,会导致多代AI生成模型的退化。也就是那句经典名言——垃圾进,垃圾出。

有人在研究后得出,9次迭代后,模型开始出现诡异乱码,会直接原地崩溃。

牛津、剑桥等机构的一篇Nature封面论文也称,合成数据就像近亲繁殖。破解之法只能是——更多使用人类数据!AI训练AI,只会越训越离谱。

来自斯坦福和UC伯克利的作者,之前就在研究中发现,LLM在少量自己生成数据内容重新训练时,就会输出高度扭曲的图像。一旦数据集受到污染,即便LLM仅在真实图像上重新训练,模型崩溃现象无法逆转。

如此看来,AI生成的虚假信息对公开数据的污染可能会阻碍信息检索,扭曲对社会政治现实或科学共识的理解。(但最讽刺的是,谷歌正是这些虚假信息的重要制造商之一,网友表示“互联网=谷歌”)

谷歌研究人员近期发表论文更是表述直白:虚假信息炮制极可能是生成式AI的宿命,生成式AI正在用虚假内容毁掉互联网。

谷歌研究人员发现,对GenAI的滥用往往是其产品设计的正常使用,而非越狱行为,因为生成虚假信息的成本太低。这种技术让人们能轻松生成文本、音频、图像和视频,互联网上充斥着伪造或篡改的内容,真实与虚假之间的界限模糊。

但AI生成数据并不全是垃圾数据,AI生成数据并非完全不可取,一定要对数据进行严格过滤。

没想到,有一天,人类创造的数据居然会变得如此重要。大模型时代,“贵在真实”,有了新的含义。

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的,但是从中长期来看,或许能让人类内容创作者看到更多希望。

后AI时代,数据才是将来最稀缺的资源。或许,未来的AI争夺战将围绕着优质数据池展开。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注