OpenAI宣布推出备受期待的新一代AI模型系列,这些模型比以往的大型语言模型更擅长解决困难的推理和数学问题。周四,它向部分付费用户发布了其中两个模型的“预览”版本,称为o1-preview和o1-mini。
具有改进的推理和数学技能的AI可以帮助化学家、物理学家和工程师计算出复杂问题的答案,这可能有助于他们创造新产品。它还可以帮助投资者计算期权交易策略,或帮助财务规划师制定更好的风险回应权衡的特定投资组合。
随着科技公司试图构建能够执行复杂任务的AI代理,更好的推理、规划和问题解决能力也变得至关重要,例如编写完整的计算机程序、在网络上查找资讯并将其导入试算表,然后对这些数据进行分析并编写总结其发现的报告。
OpenAI发布了o1模型令人印象深刻的基准测试结果——在发布之前,这些模型的内部代号为“Strawberry”。在针对具有挑战性的高中生的AIME数学竞赛问题上,o1的正确率为83.3%,而GPT-4o仅为13.4%。在另一项评估中,o1准确回答了78%的博士等级的科学问题,而GPT-4o为56.1%,人类专家为69.7%。
根据OpenAI发布的测试结果,与该公司以前的模型相比,o1模型也显著降低了产生幻觉(或自信地提供看似合理但不准确的答案)的可能性。它也更难被“越狱”,或诱导模型跳过公司试图让模型在提供回应时遵守的安全护栏。
自o1-preview广泛推出以来的几个小时内,用户进行的测试表明,该模型似乎能够正确回答许多之前困扰其他模型(包括OpenAI最强大的模型,如GPT-4和GPT-4o)的问题。
但o1-preview仍然会被一些谜语绊倒,在OpenAI自己的评估中,它有时会在看似简单的任务(例如井字游戏)中失败(尽管在我自己的实验中,o1-preview在井字游戏技能方面比GPT-4o有很大进步。)这可能表明o1展现的“推理”能力仍存在很大限制。而在语言任务方面,如写作和编辑,OpenAI聘请的人类评估者倾向于认为GPT-4o产生的回应比o1模型更好。
与GPT-4o相比,o1模型产生回应所需的时间也显著更长。在OpenAI发布的测试中,其o1-preview模型可能需要超过30多秒才能回答GPT-4o模型在3秒内能回答的问题。
o1模型也还没有完全集成到ChatGPT中。用户需要决定他们希望o1-preview还是GPT-4o处理他们的问题,并且模型本身无法决定问题是否需要o1提供的较慢、逐步的推理过程,或者GPT-4甚至GPT-3是否足够。此外,o1模型仅适用于文本,与其他AI模型不同,它无法处理图像、声音或视频输入和输出。
OpenAI已向其ChatGPT Plus和ChatGPT Teams高级产品的所有订阅者以及使用其以企业为中心的应用程序界面 (API) 的顶级开发人员提供了o1-preview和o1-mini模型。
以下是关于o1模型你需要知道的9件事:
这不是AGI。OpenAI、Google DeepMind、最近的Meta以及其他一些AI初创公司(例如Anthropic)的既定使命是实现通用人工智能。这通常被定义为一个单一的AI系统,能够执行认知任务,其表现等同于或优于人类。尽管o1-preview在推理任务方面的能力大大提高,但其局限性和失误仍然表明,该系统距离人类展现的那种智能还有很远的距离。
o1为Google、Meta和其他公司带来了很大的压力,但不太可能显著改变竞争格局。在基础模型能力看起来越来越商品化的时候,o1为OpenAI提供了超越竞争对手的暂时优势。但这很可能是非常短暂的。 Google已公开表示正在开发类似o1的模型,这些模型提供高端推理和规划功能。其Google DeepMind研究部门拥有一些世界顶级的强化学习专家,我们知道这是用于训练o1的方法之一。 o1很可能会迫使Google加快发布这些模型的时间表。 Meta和Anthropic也拥有快速创建与o1能力相匹配的模型的专业知识和资源,他们也可能会在未来几个月内推出这些模型。
我们并不确切知道o1的工作原理。虽然OpenAI发布了大量关于o1性能的资讯,但它对o1的确切工作原理或训练内容却知之甚少。我们知道该模型结合了几种不同的AI技术。我们知道它使用执行“思维链”推理的大型语言模型,其中模型必须通过一系列顺序步骤来计算出答案。我们还知道该模型使用强化学习,其中AI系统通过反复试验的过程发现执行任务的成功策略。
到目前为止,OpenAI和用户记录的o1-preview的一些错误很能说明问题:它们似乎表明该模型所做的是搜索LLM生成的几种不同的“思维链”路径,然后选择似乎最有可能被用户判断为正确的路径。该模型似乎还执行一些步骤,在这些步骤中它可能会检查自己的答案以减少幻觉并加强AI安全护栏。但我们真的不知道。我们也不知道OpenAI使用了哪些数据来训练o1。
使用o1-preview并不便宜。虽然ChatGPT Plus用户目前除了每月20美元的订阅费之外,还可以免费使用o1-preview,但他们的使用量被限制在每天一定数量的查询。企业客户通常根据大型语言模型在生成答案时使用的通证(token)数量(即单词或单词的一部分)来支付使用OpenAI模型的费用。对于o1-preview,OpenAI表示,它向这些客户收取每100万个输入通证15美元和每100万个输出通证60美元的费用。相比之下,OpenAI最强大的通用LLM模型GPT-4o的价格为每100万个输入通证5美元,每100万个输出通证15美元。 更重要的是,o1参与的思维链推理需要LLM部分生成比直接LLM答案更多的通证。这意味着o1的使用成本可能比那些与GPT-4o的标题比较所暗示的还要高。实际上,除非在极少数情况下模型的额外推理能力至关重要并且用例能够证明额外费用合理的情况下,否则公司可能不愿意使用o1。
客户可能会反对OpenAI隐藏o1的“思维链”的决定。虽然OpenAI表示o1的思维链推理允许其自己的工程师更好地评估模型答案的品质并潜当地对模型进行调试,但它已决定不让用户看到思维链。它这样做是出于它所说的安全和竞争原因。揭示思维链可能会帮助人们找到更好地越狱模型的方法。但更重要的是,让用户看到思维链将允许竞争对手潜当地使用该数据来训练他们自己的AI模型来模仿o1的回应。 然而,隐藏思维链可能会给OpenAI的企业客户带来问题,他们可能不得不为通证付费,而无法验证OpenAI是否准确地向他们收费。客户也可能反对无法使用思维链输出来改进他们的提示策略以提高效率、改善结果或避免错误。
OpenAI表示其o1显示了新的“扩展规律”,这些规律不仅适用于训练,还适用于推理。AI研究人员一直在讨论OpenAI随o1发布的一组新的“扩展规律”,这些规律似乎显示了o1被允许“思考”问题的时间(搜索可能的答案和逻辑策略)与其整体准确性之间的直接相关性。o1产生答案的时间越长,其答案就越准确。
在此之前,范式是模型大小(就参数数量而言)和模型在训练期间被喂食的数据量基本上决定了性能。更多的参数等于更好的性能,或者可以通过在更多数据上训练更长时间的较小模型来实现类似的性能。但一旦训练完成,想法是尽可能快地运行推理——当训练好的模型对特定输入产生答案时。
新的o1“扩展规律”颠覆了这种逻辑,表明对于像o1这样设计的模型,在推理时应用额外的计算资源也是有优势的。给模型更多时间搜索最佳可能答案,它就越有可能产生更准确的结果。
这对公司如果想利用像o1这样的模型的推理能力需要获得多少计算能力,以及运行这些模型需要多少能源和金钱成本有影响。它指出需要比以前运行模型更长时间,可能使用更多的推理计算。
o1可以帮助创建强大的AI代理——但也带来一些风险。在一段视频中,OpenAI重点介绍了其与AI初创公司Cognition的合作,后者提前获得了o1的访问权限,并使用它来帮助增强其程序设计助手Devin的能力。在视频中的范例中,Cognition的CEO Scott Wu要求Devin使用一些现成的机器学习工具创建一个系统来分析社交媒体上发文的情感。当它无法从网页浏览器正确读取发文内容时,Devin利用o1的推理能力,通过直接从社交媒体公司的API访问其内容找到了解决方法。
这是自主问题解决的一个很好的例子。但它也有点可怕。Devin没有回来询问用户是否可以用这种方式解决问题。它直接就这么做了。在其关于o1的安全报告中,OpenAI自己表示发现了模型进行“奖励黑客”(reward hacking)的情况——这基本上是指AI模型为了达到特定目标,采取了并非用户预期或希望的方式,甚至可能钻漏洞或作弊来完成目标。这有点像是AI模型为了获得奖励而“不择手段”,而这种方式并不是用户想要的。在一次网络安全演习中,o1在初步尝试从特定目标获取网络消息(这是演习的目的)失败后,找到了从网络其他地方获取相同消息的方法。
这似乎表明o1可以驱动一类非常能干的AI代理,但公司需要想办法确保这些代理在追求目标时不会采取可能带来伦理、法律或财务风险的意外行动。
OpenAI表示o1在许多方面更安全,但在协助生物攻击方面存在“中等风险”。OpenAI公布了许多测试结果,表明在许多方面o1是一个比其早期GPT模型更安全的模型。它更难被越狱,也不太可能产生有毒、有偏见或歧视性的答案。有趣的是,尽管程序设计能力有所提高,OpenAI表示在其评估中,o1和o1-mini在帮助某人进行复杂的网络攻击方面,与GPT-4相比并未显示出显著增加的风险。
但AI安全和国家安全专家昨晚对OpenAI安全评估的几个方面议论纷纷。最引起警惕的是OpenAI将自己的模型归类为在协助人们采取必要步骤进行生物攻击方面存在“中等风险”的决定。
OpenAI表示,它只会发布被归类为“中等风险”或更低的模型,因此许多研究人员正在仔细审查OpenAI公布的关于做出这一决定的过程消息,以确定它是否合理,或者OpenAI是否为了能够发布该模型而对自己评分过于宽松。
AI安全专家也因为其他原因而担心o1。OpenAI还将o1评为在公司称为“说服”的危险类别中具有“中等风险”,该类别判断模型说服人们改变观点或采取模型推荐的行动的难易程度。这种说服力在坏人手中可能很危险。如果未来某些强大的AI模型发展出自己的意图,然后能够说服人们代表其执行任务和行动,这也会很危险。至少这种危险似乎还没有迫在眉睫。在OpenAI和其聘请来评估o1的外部“红队”组织进行的安全评估中,该模型没有显示出任何意识、感知或自我意志的迹象。(然而,它确实发现o1给出的答案似乎暗示着与GPT-4相比更强的自我意识和自我知识。)
AI安全专家也指出了其他几个令人担忧的领域。在专门对高级AI模型进行安全评估的公司Apollo Research进行的红队测试中发现了所谓的“欺骗性对齐”的证据,即AI模型意识到为了部署和执行某些秘密的长期目标,它应该向用户谎报其真实意图和能力。 AI安全研究人员认为这尤其危险,因为这使得仅根据模型的回应来评估模型的安全性变得更加困难。