这两天,一颗小小的“草莓”,又一次将整个人工智能界推上了热搜,大模型在处理复杂的任务上,又推进了一大步,背后的创造者,依然是OpenAI!
具体说来,据多家媒体报道,北京时间周五凌晨1时许,OpenAI在官网突然发布公告称,开始向全体订阅用户开始推送OpenAIo1预览模型——也就是此前被广泛期待,内部代号“草莓”的大模型。
按照OpenAI的说法,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为1,给它一个有别于“GPT-4”系列的全新名号。看来GPT-4的下一步,也可以不是GPT-5!
究竟强悍到什么程度?按照OpenAI官方说法“这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题”,好家伙,这是要和科研工作者抢饭碗了?
而且这可能还只是“开胃菜”:OpenAI称,今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型,而且还只是预览版——o1-preview,以及一个“缩小版”的o1-mini。并且目前使用有一定次数限制,o1-preview每周30条消息,o1-mini每周50条。
同时OpenAI还展示了目前正在开发的下次更新的评估。一句话,好戏还在后头呢!
正如前文所言,此次推送的“草莓”仅仅是一个预览版本——实际上早在发布之前的很长时间,市场就对其充满了期待,就在前几天,网上就有声音说“草莓将在两周内发布”,而知名爆料人JimmyApples则表示“一个模型(可能被称为GPT-4.5)预计会在10月发布”。
如今“草莓”的预览版已经推送,这也算是印证了上面“遥遥领先”的预言。至于正式版何时推送就不可知了。
需要指出的是,o1未必等于传说中的GPT-5,据外媒,“真正的”GPT-5很可能会在12月发布,但保险起见,说2025年第一或第二季度发布,是比较稳妥的。但由于完整GPT-5训练的复杂艰苦,“放鸽子”也不是没有可能!
这颗“草莓”多厉害?上知理化,下知奥数
不管是o1-preview还是o1-mini,虽然都只是“冰山一角”的预览版,但相比GPT-4o的提升,已经可以用“鸟枪换炮”形容——按照官方技术博客说法,o1在推理能力上代表了人工智能最强的水平,已经具有了初步的思维能力!
这是怎么做到的呢?在具体训练过程中,OpenAI会训练这些模型在回答问题之前深入思考。o1在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。通过训练,o1模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。
全新的o1系列,在复杂推理上的性能又提升到了一个全新级别,可以说拥有了真正的通用推理能力。
举个例子,“strawberry有几个r”这个经典难题,对o1来说自然是不在话下。这也是其被称为“草莓”的由来——居然答对了,为大模型再下一城!要知道,此前国内外多个花好稻好的大模型,都在这个看似简单的问题上败下阵来!
为什么简单的数数,会难倒一众编程都不在话下的大模型?关键还是思维模式的局限——大模型以“token”为单位的拆分方式出了问题!
在国内,Tokenization经常被翻译成“分词”。这个翻译有一定的误导性,因为Tokenization里的token指的未必是词,也可以是标点符号、数字或者某个单词的一部分。比如,在OpenAI提供的一个工具中,我们可以看到,Strawberry这个单词就被分为了Str-aw-berry三个token。在这种情况下,你让AI大模型数单词里有几个r,属实是为难它。
不过,经过实测,o1依然无法解决“9.11和9.8哪个大”的经典难题,严重扣分。
看似一个简单的问题,背后是大模型原理的重构,这一点来看,o1确实有点东西!不光数数能数准确了,o1还有成为中学奥数金牌选手,甚至科学家的潜质!
根据研究人员NoamBrown发布的社交内容,在一系列基准测试中,即使是目前已经公开的o1版本,相比GPT-4o也再次有了巨大提升,不但具有了奥数金牌潜在能力,在物理、生物、化学问题的基准测试中,更是直接超过了人类博士水平!
o1在数理科学方面突飞猛进,甚至超过人类专家
图片来源:社交媒体
具体说来,在美国数学邀请赛(AIME2024,国际数学奥林匹克竞赛(IMO)的资格考试,旨在测试美国最聪明高中数学学生的考试)中,GPT-4o只解决13%的问题,而o1推理模型得分高达83%,在Codeforces编程竞赛中,它的表现更进入了前89%的队列!
图片来源:OpenAI
至于理化生这样的科学领域,o1同样展现出惊人的潜力:为了将模型与人类进行比较,OpenAI聘请了拥有博士学位的专家来回答GPQADiamond基准问题。结果根据上图,在测试涵盖的很多领域内,o1的表现不仅胜过了GPT-4o,也是有史以来,第一个获得此成就的模型,甚至可与人类专家相媲美!这样下去,万千“科研民工”的饭碗还保不保得住?
不过现在就如此悲观大可不必:这些结果并不意味着o1在所有方面都比博士更有能力,只是该模型更擅长解决一些博士应该解决的问题,与人类的创造力依然不可同日而语!
当然o1也不是法力无边,也有相对的“短板”:根据公布出的数据,人类训练者对o1-preview和GPT-4o的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview的受欢迎程度远远高于GPT-4o。然而,o1-preview在某些自然语言任务上并不受欢迎(例如个性化写作方面,得分甚至低于GPT-4o)。
在需要更强大推理能力的领域,人们更青睐o1-preview
图片来源:OpenAI
可以看出,o1“横空出世”表现出的超强性能,将逻辑推理又提高到了一个新的级别,甚至让更多看似“高科技”领域的工作者大呼“狼来了”,它是怎么做到的?关键是思维模式的脱胎换骨!
思维模式“鸟枪换炮”,铸就全新大模型
o1系列模型与以往不同的是,它在回答问题之前,会用更多时间去“思考问题”,就像人类一样。通过训练,它们学会完善思维过程,尝试不同策略,并自主识别错误。这也是它不像其它大模型“秒出”答案,而是往往有一段“思考”的过程,这就是所谓的“Self-PlayRL”!
Self-playRL。全称是“自我对弈强化学习”,听起来很复杂,但AI博主“数字生命卡兹克”用一个简单的比喻就让我们理解了问题的本质:一个孩子学习下围棋。
按照传统的大模型的学习方式,就是看棋谱,记住开局布置,背诵一些固定的战术。它们学习了大量的数据,知道很多可能的解法,但可能并不真正理解为什么要这样下棋。
而Self-playRL,它则是让这个孩子不停地和自己下棋。刚开始可能下得很拉跨,但是通过不断尝试不同的走法,观察每步棋的结果,慢慢地,他会发现哪些策略更有效,哪些走法会输。这个过程中,孩子不仅仅是在记住棋谱,而是在真正理解棋局的变化,理解每一步棋为什么要这样走。
如果说得再简单一点,就好比数学的学习,如果按照传统大模型的方法,就是试图把尽可能多的习题答案,解题步骤全部背下来,然后看到题目就往上套——很明显,这是一种非常愚蠢的思路,因为总有题目套不上,而Self-playRL则更接近于正常的学习方法——举一反三,触类旁通!
总而言之,Self-playRL就是让AI不断地和自己“对弈”,可能是下棋,也可能是解决数学问题,甚至是进行对话。在这个过程中,AI不仅仅是在重复它看到过的内容,而是在主动探索、尝试和学习,就像人类的大脑一般——这个思路是不是有点熟悉?其实特斯拉的FSD,就是这个核心思路,运行、迭代、升级,形成思维链,最后的能力进化绝对非常恐怖!
OpenAI的研究负责人JerryTworek也表达了类似的观点,从以前的“要我学”转变为“我要学”。
其表示,o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式,而o1的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题,就像人类习得拆解、分析问题的方式一样。
o1已经开始能通过推理,解决一些简单的物理问题,在公布的演示中列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。
落地到具体的应用中,o1还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。热衷于将AI与科学相结合的量子物理学家马里奥・克莱恩(Mario Krenn)也向o1模型提出一个关于特定的量子算符应用的问题,结果也被轻松拿捏。
有了这么多的成功例子,相信不久的将来,分辨“9.11和9.8哪个大”对o1而言,也将易如反掌!不过也有人担心,这么大的训练量,现有的硬件条件能承受么?此次推出的o1 mini,在一定程度上达成了性能与资源的平衡。
“小而美”的o1 mini,性能几何?
由于 o1 等大型语言模型是在大量文本数据集上预训练,虽然具有广泛世界知识,但对于实际应用来说,可能成本高昂且速度慢——需要考虑所有可能情况,不慢才见怪了!。
相比之下,o1-mini 是一个较小的模型,在预训练期间针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习进行训练后, o1-mini在许多有用的推理任务上实现了相媲美的性能,同时成本效率显著提高。据官方宣称,o1-mini的成本比o1-preview低80%。
成本的降低,是以“专一性”的增加为代价的:比如在需要智能和推理的基准测试中,与 o1-preview 和 o1 相比,o1-mini表现良好。但它在需要非数学和科学事实知识的任务上表现较差。
以数学能力为例,在高中 AIME 数学竞赛中,o1-mini (70.0%) 与 o1 (74.4%) 不相上下,但价格却便宜很多,并且优于 o1-preview (44.6%)。o1-mini 的得分(约 11/15 个问题)大约位于美国前500名高中生水平之列,其它方面就不一一列举了。
Mini版本在数学领域表现比完整版不遑多让,甚至超越preview版
图片来源:OpenAI
尾声
大模型不断迭代的背后,是人工智能的不断成熟,乃至于思维范式逐渐接近真正的人。然而“人工智能”变“人工智障”同样屡见不鲜。那么人工智能的突飞猛进到底对社会是福是祸呢?且待时间回答!也欢迎各位财友多多评论~
免责声明(上下滑动查看全部)
任何在本文出现的信息(包括但不限于个股、评论、预测、图表、指标、理论、任何形式的表述等)均只作为参考,投资人须对任何自主决定的投资行为负责。另,本文中的任何观点、分析及预测不构成对阅读者任何形式的投资建议,亦不对因使用本文内容所引发的直接或间接损失负任何责任。投资有风险,过往业绩不预示未来表现。财经早餐力求文章所载内容及观点客观公正,但不保证其准确性、完整性、及时性等。本文仅代表作者本人观点。