人工智能：“我”太难了

文丨俊俊

从ChatGPT出圈以来，人们对于AI的焦虑和恐惧就从未停止过。

萝卜快跑的超长热度周期，是AI驾驶切实威胁到人类工作的不平之鸣。

网文圈“萝卜快跑”番茄小说的 AI 协议，引起不少作者发文抵制AI训练。

此前全球画师抵制AI绘画的舆论风波，以及好莱坞最大规模罢工抵制AI事件更是甚嚣尘上。

虽然如此，这些反对声音在滚滚向前的技术车轮前，仍是杯水车薪。

AI不赚钱，是泡沫？

始于硅谷的这场AI竞赛，科技巨头们投入巨额。

从财报来看，Meta在年报中披露，2024年资本支出可能高达400亿美元；

微软（Microsoft）的资本开支更高达500亿美元，其中研发支出272亿美元；

还有亚马逊（Amazon），在一季度披露资本支出额为140亿美元，但预计这将是2024年最低水平，未来还会加大对生成式AI方面的投入。

散户投资者的热情也推高了这些公司及其供应商的股价，尤其是生产用于训练人工智能模型的计算机芯片的英伟达(Nvidia)。

年初至今，谷歌母公司Alphabet的股价上涨了25%，微软上涨了15%，英伟达的股价上涨了140%。

如此众星拱月，全球追捧，AI技术确实有了巨大的进步，已经被用于翻译文档，写电子邮件和帮助程序员编写代码，甚至语音助手，自动驾驶上路，无人工厂等。

但距离人工智能改变现代生活的方方面面，就像互联网或手机带来的改变一样，仍很遥远。

根据IDC最新发布的报告《全球人工智能和生成式人工智能支出指南》，2022年全球人工智能（AI）IT总投资规模为1324.9亿美元。如此昂贵的价格成本投入，AI这项技术远未达到“有用”的水平。

亏损仍是当下AI企业的常态。

华尔街分析师则预计，到2026年，大型科技公司每年将在开发AI模型上花费约600亿美元，但到那时，每年从人工智能中获得的收入仅为200亿美元左右。

以AI初创公司OpenAI为例。据估计，OpenAI的人工智能训练和推理成本将达70亿美元，再加上15亿美元的劳动力成本，今年的运营成本可能高达85亿美元。

尽管营收约在35亿至45亿美元之间，但大量用户使用免费版本的ChatGPT，加大了计算成本负担，却未能转化为直接收入，导致亏损。

谷歌也面临同样的问题，该公司每季度120亿美元的AI投资不知何时会开始产生回报。

“对我们来说，投资不足的风险比过度投资的风险要大得多”，谷歌首席执行官皮查伊说。他承认人工智能的成本很高，在他看来，AI产品要成熟并变得更有用还需要时间。但他表示，即使AI热潮放缓，该公司购买的数据中心和计算机芯片也可以用于其他用途。

AI这项技术可能无法赚到钱，动辄数十亿美元的投资是否合理已经令大家产生警惕！

越来越多的华尔街分析师和科技投资者开始发出警告，大型科技公司、股市投资者和风险投资公司向AI领域投入的巨额资金可能会导致金融泡沫。

过去几周，包括高盛(Goldman Sachs)和巴克莱(Barclays)在内的华尔街大型投资银行，以及红杉资本(Sequoia Capital)等风投公司，都发布了报告，对AI淘金热的可持续性表示担忧。

当然也有人持不同意见：AI可以在全球范围内实现3亿个工作岗位的自动化，并在未来10年内将全球经济产出提高7%，这也是为什么AI能引发大量关于其颠覆性潜力的新闻报道。

数据荒比盈利来的还快

AI未能很好变现的原因很大一部分源于产品，令AI雪上加霜的是，如今全球已陷入高质量数据荒。

当前的很多大模型还是主要基于人类生成的文本进行训练的，但是未来可就不一定了！

如果未来，大多数模型的训练数据是从网上抓取的，那它们不可避免地会用上前辈模型生成的数据。

用大模型自己生成的数据来训练自己，会出现不可逆转的缺陷，逐渐忘记真实数据分布，从而导致模型性能下降。

简单讲，LLM生成的数据最终污染了下一代模型的训练集，就会出现模型崩溃（model collapse）的现象。由于在被污染的数据上进行训练，LLM随后会错误地感知现实。这样一来，会导致多代AI生成模型的退化。也就是那句经典名言——垃圾进，垃圾出。

有人在研究后得出，9次迭代后，模型开始出现诡异乱码，会直接原地崩溃。

牛津、剑桥等机构的一篇Nature封面论文也称，合成数据就像近亲繁殖。破解之法只能是——更多使用人类数据！AI训练AI，只会越训越离谱。

来自斯坦福和UC伯克利的作者，之前就在研究中发现，LLM在少量自己生成数据内容重新训练时，就会输出高度扭曲的图像。一旦数据集受到污染，即便LLM仅在真实图像上重新训练，模型崩溃现象无法逆转。

如此看来，AI生成的虚假信息对公开数据的污染可能会阻碍信息检索，扭曲对社会政治现实或科学共识的理解。（但最讽刺的是，谷歌正是这些虚假信息的重要制造商之一，网友表示“互联网＝谷歌”）

谷歌研究人员近期发表论文更是表述直白：虚假信息炮制极可能是生成式AI的宿命，生成式AI正在用虚假内容毁掉互联网。

谷歌研究人员发现，对GenAI的滥用往往是其产品设计的正常使用，而非越狱行为，因为生成虚假信息的成本太低。这种技术让人们能轻松生成文本、音频、图像和视频，互联网上充斥着伪造或篡改的内容，真实与虚假之间的界限模糊。

但AI生成数据并不全是垃圾数据，AI生成数据并非完全不可取，一定要对数据进行严格过滤。

没想到，有一天，人类创造的数据居然会变得如此重要。大模型时代，“贵在真实”，有了新的含义。

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的，但是从中长期来看，或许能让人类内容创作者看到更多希望。

后AI时代，数据才是将来最稀缺的资源。或许，未来的AI争夺战将围绕着优质数据池展开。

玩酷网