埃隆·马斯克表示AI训练数据已达峰值,其未来走向如何?

mgclouds蘑菇晕 2025-01-11 09:47:35

埃隆·马斯克(ElonMusk)表示,当前人工智能(AI)训练模型所需的实体数据几乎已经被耗尽。

在X上与全球营销及传播公司Stagwell主席马克·潘恩(MarkPenn)直播时,马斯克直言:“我们的确已经基本耗尽了所有的人类知识总和”。这一观点与许多AI专家一致,显示出目前AI系统面临的数据短缺困境。马斯克指出,这一情况从去年开始已成为现实,未来的AI模型发展将需要依赖合成数据,即由AI模型自身生成的数据。

《卫报》相关报道截图现在的AI模型(例如为ChatGPT聊天机器人提供支持的GPT-4o模型)是在从互联网上获取的大量数据上“训练”的。尽管互联网是人类知识的浩瀚海洋,但它并不是无限的——训练越来越大的神经网络几乎完全吸干了它。

马斯克在X上直播的截图许多大型科技公司,包括微软、Meta、OpenAI和Anthropic,都已经开始使用合成数据来训练其主要AI模型。根据Gartner的预测,2024年AI和分析项目中约60%的数据将为合成生成。合成数据的优势包括成本节约,例如,AI初创公司Writer的PalmyraX004模型几乎完全以合成数据开发,总开发成本仅为70万美元,而搭建一个类似的OpenAI模型预计需花费460万美元。然而,使用合成数据也存在其劣势。研究表明,合成数据寄生于训练模型的数据质量,若原数据存在偏见,那么模型的结果也将反映出类似的问题。这可能导致模型产出变得不够“创造性”甚至偏向性,更加危险的是,合成数据长期使用可能会使得AI系统在功能上出现重大漏洞或崩溃。马斯克的这一观点与前OpenAI首席科学家伊利亚·苏兹科夫(IlyaSutskever)去年在NeurIPS机器学习会议上的发言相吻合。苏兹科夫曾表示,AI产业达到了所谓的“数据顶峰”,这意味着业界应该寻求新的数据来源和模型开发方向,特别是在当前数据短缺的情况下。

IlyaSutskever在NeurIPS上的发言/Maginative报道截图另外,诚如马斯克所述,未来的AI发展必须依赖合成数据的结合,这一变化也驻足于技术前沿。微软的Phi-4模型和谷歌的Gemma模型均开始大量使用合成数据进行训练,而Anthropic也利用合成数据提升Claude3.5Sonnet的性能。这些举措反映出行业向合成数据的移动以及其在未来AI模型发展中的重要性。不过,马斯克和其他专家之间的共识表明,合成数据将是未来AI创新的一条出路,但如何平衡其优势与劣势,则仍是未来发展中的重要课题。AI模型的发展应在广泛的应用与创新的基础上进行,而非仅仅依赖于合成数据,否则将可能重蹈覆辙,导致质量下降和偏见持续存在。随着人工智能技术的迅速发展,我们或许正在见证一场数据与科技的革命,资源的可用性将成为未来AI生态系统的重要考量。数据的收集、存储、使用情况都可能因此产生根本性的变化,而马斯克所强调的合成数据,正是这一变革中的关键部分。英国艾伦图灵研究所基础人工智能主任安德鲁·邓肯 (Andrew Duncan) 表示,马斯克的评论与最近的一篇学术论文相吻合,该论文估计人工智能模型的公开可用数据最早可能在 2026 年用完。他补充说,过度依赖合成数据有“模型崩溃”的风险,该术语是指模型输出质量恶化。“当你开始给模型提供合成的东西时,你的回报开始递减”“但存在产出有偏差和缺乏创造力的风险”。邓肯还进一步补充道:“在线 AI 生成内容的增长也可能导致这些材料被吸收到 AI 数据训练集中。”在AI蓬勃发展的进程里,数据的高质量以及相应的数据管控措施,已然演变成一个关键的法律争议焦点。OpenAI在去年承认,如果无法访问受版权保护的材料,就不可能创建像 ChatGPT 这样的工具,而创意产业和出版商则要求对在模型训练过程中使用他们的输出进行补偿。

0 阅读:2

mgclouds蘑菇晕

简介:欢迎大家关注我给我点赞