人工智能很快就能解决人类需要数周时间才能完成的项目

点燃才有智者 2025-03-21 11:40:54

新的指标评估了人工智能在完成长期任务方面的表现——但一些研究人员对长期预测持谨慎态度。

一项新指标评估了人工智能模型的进展。图片来源:Jonathan Raa/NurPhoto/Getty

根据对领先模型的分析,当今的人工智能 (AI) 系统在长期任务上无法击败人类,但它们正在快速进步,并且可能比许多人预期的更快地缩小差距。

METR 是位于加利福尼亚州伯克利的一家非营利组织,它在编码、网络安全、一般推理和机器学习方面创建了近 170 个真实任务,然后通过测量专业程序员完成这些任务所需的时间建立了“人类基线”。

随后,该团队开发了一个评估人工智能模型进度的指标,称之为“任务完成时间范围”。这是程序员通常完成人工智能模型能够以一定成功率完成的任务所需的时间。

METR 在本周发布在 arXiv 上的预印本中报告称,OpenAI 于 2019 年发布的早期大型语言模型 (LLM) GPT-2 在所有需要人类专家花费一分钟以上时间完成的任务上失败了。美国初创公司 Anthropic 于 2 月发布的 Claude 3.7 Sonnet 完成了人类需要 59 分钟才能完成的任务的 50%。

总体而言,该论文发现,自 2019 年以来,13 种领先的人工智能模型的时间范围大约每七个月翻一番。人工智能时间范围的指数增长在 2024 年加速,最新模型的时间范围大约每三个月翻一番。这项工作尚未经过正式的同行评审。

按照 2019 年至 2024 年的进展速度,METR 预测到 2029 年,人工智能模型将能够以 50% 的可靠性处理人类大约需要一个月才能完成的任务,甚至可能更早。

论文指出,一个月的专门人力专业知识足以创办一家新公司或取得科学发现。

但加拿大多伦多大学管理学教授、曾撰写过关于人工智能经济学的文章的乔舒亚·甘斯 (Joshua Gans) 表示,这类预测并没有那么有用。“推断很诱人,但对于人工智能的实际用途,我们仍然有很多未知之处,因此这些推断并不有意义,”他说。

人类与人工智能评估

研究团队之所以选择 50% 的成功率,是因为它对数据分布的微小变化最为稳健。“如果你选择非常低或非常高的阈值,那么分别删除或添加一个成功或失败的任务,你的估计就会发生很大变化,”合著者 Lawrence Chan 说。

将可靠性阈值从 50% 提高到 80% 会使平均时间范围缩短五倍——尽管总体倍增时间和趋势线相似。

在过去五年中,法学硕士的一般能力的提高主要得益于规模的增加——训练数据量、训练时间和模型参数数量。该论文将时间范围指标的进步主要归因于人工智能在逻辑推理、工具使用、错误纠正和任务执行中的自我意识方面的改进。

METR 的时间范围方法解决了现有 AI 基准的一些局限性,这些基准与现实世界的工作映射很松散,而且随着模型的改进,很快就会“饱和”。它提供了一种持续、直观的衡量标准,可以更好地捕捉有意义的长期进展,共同作者 Ben West 说道。

West 表示,领先的人工智能模型在许多基准测试中都取得了超越人类的表现,但它们对经济的影响相对较小。METR 的最新研究为这一难题提供了部分答案:最好的模型的时间范围大约为 40 分钟,而人类在这段时间内无法完成多少具有经济价值的工作,West 说道。

但加利福尼亚州旧金山的人工智能研究员兼企业家安东·特洛伊尼科夫 (Anton Troynikov) 表示,如果组织更愿意尝试并投资于有效利用这些模型,人工智能将产生更大的经济影响。

方法的局限性

特洛伊尼科夫表示,尽管任务完成时间范围是评估现有模型经济效用的有用指标,但它可能无法揭示模型通过执行不同于其训练内容的任务能够多好地“概括”。

METR 承认,其方法并不能涵盖实际工作的所有复杂性,但表示在检查任务与实际工作有多相似时,发现了时间范围增长中类似的指数趋势。

作者表示,有些因素可能会影响他们对何时实现一个月时间范围的预测。过去五年来,计算能力显著提高,但物理和经济因素将限制未来的规模扩大,这可能会阻碍人工智能的发展。但研究人员表示,这将被算法的持续改进部分抵消。METR 还预计,赋予模型更多自主权并使其更有效地自动化人工智能研究的努力将继续取得成果。

甘斯表示,下一步是研究将人工智能系统与人类配对,并检查这种配对如何有效地改善整体任务性能。

机构编号: https://doi.org/10.1038/d41586-025-00831-8

参考Kwa, T.等人。arXiv预印本https://doi.org/10.48550/arXiv.2503.14499 (2025)。

0 阅读:34

点燃才有智者

简介:感谢大家的关注