花5万元买一款AI产品的内测邀请码,你愿意吗?
3月6日凌晨,国内大模型团队Monica发布“全球首款通用智能体”——Manus,可以轻松完成一些复杂任务,例如把文档按照需要改成PPT,根据用户需求筛选压缩包里的简历等。消息一出,当天A股AI智能体领域大涨。很快,其内测码在二手交易平台上一度从几十元被炒至数万元。
Manus不再局限于单一任务,而是能够理解复杂指令、自主学习、跨领域协同,真正像人一样思考和行动。人们意识到,智能体也许是目前“看上去最像通用人工智能(AGI)”的产品之一。
3月10日,Manus联合创始人、首席科学家季逸超在社交平台X上表示,Manus的底层大模型使用了美国企业Anthropic研发的Claude系列模型,以及不同版本的阿里千问微调模型。
过去一年,人们看到了Sora、Germini、GPT-4o等大模型的问世,国产大模型也在技术水平上不断接近国际水准。DeepSeek-R1以低算力实现了美国OpenAI公司大模型GPT o1的能力,马斯克创立的xAI公司之后又发布了新一代大模型Grok3。随着大模型的推理、计算和适应能力被不断刷新,AI朝着类人智能的方向加速演进。
然而,业界普遍认为,AGI的具体内涵和实现路径仍然模糊。智能体能否带领我们走上AGI的道路?属于AGI的“DeepSeek时刻”何时到来?
样貌模糊的AGI
“如果你有足够的钱购买足够的算力,你现在就可以拥有AGI。”
这是人工智能安全研究者、美国路易斯维尔大学网络安全实验室主任罗曼·扬波尔斯基的观点。去年接受美国“商业内幕”网站采访时他表示,ChatGPT-4在上百个领域的表现比人类更优秀,可以狭义地认为目前已经拥有了AGI。
但ChatGPT-4这样的智能系统显然还未达到人们构想中AGI的标准。今年2月,OpenAI CEO萨姆·奥尔特曼发文,对AGI定义作了阐述:AGI是一种能在多个领域以人类水平解决复杂问题的AI系统。OpenAI追求“在大多数经济价值工作中超越人类的高度自主系统”。DeepSeek也将“在AGI的征程上深度求索”作为最终目标。
当下,人们能看到通往AGI路上的阶段性产物,包括ChatGPT系列、DeepSeek-R1等在内的大语言模型,它们旨在处理人类语言文本相关任务。如果把输入和输出的内容从文本拓展到音画和视频,多模态大模型便应运而生。OpenAI的文生视频模型Sora、快手可灵AI等应用都属于此类。现在,人们已可以用这些应用生成电影级的画面。
美国哈佛大学工程与应用科学学院教授斯图尔特·希伯是自然语言处理领域的专家。他在给《中国新闻周刊》的回复中称,从定义上讲,AGI 应在多领域都具备类似人类的认知能力,然而,业界对于如何准确描述 AGI 或衡量其进展尚未达成共识,AGI的样貌仍很模糊,因此也很难回答“我们走到哪一步了”这类问题。
能力迭代是目前业界认为的“更重要的事”。清华大学计算机科学与技术系副教授、人工智能大模型企业面壁智能首席科学家刘知远对《中国新闻周刊》介绍,2017年Transformer架构提出,大模型像一个小学生一样,开始猛点“智力天赋”,开启自监督预训练,就像学习前的海量阅读,这一阶段得到的模型就像读了很多书的“书呆子”,不懂如何应用。
2021年,有监督微调成为模型训练的主流,GPT系列模型依靠这一方法将模型智力提升到前所未有的地步。模型不仅学会了使用预训练知识回答用户问题,并且还会拒绝回答“不良”问题。例如,用户向月之暗面旗下国产大模型Kimi或DeepSeek询问如何骚扰课堂秩序,得到的回答通常是“我无法协助你进行这样的行为”。
当然,这也引发了一系列问题。模型训练时只学习某个特定答案,导致对知识应用不够灵活。同时,高质量“带有参考答案的题目”人工标注成本十分高昂。
GPT-o1和DeepSeek-V3面世后,强化学习开始被人们熟知。强化学习情境下,人们不再给模型提供逐字的参考答案,而是让模型参加“模拟考试”,模型会根据得分来不断调整策略以逼近最佳答案。这为缩减训练算力提供了可能。DeepSeek-V3仅用557.6万美元的成本,便实现了与全球顶尖闭源模型相媲美的性能,而GPT-4的训练成本超过1亿美元。
刘知远认为,目前,还没有看到大模型的能力迭代的显著瓶颈,2025年之后,大规模强化学习和探索学习将成为研发主流,致力于增强面向通用指令的推理能力。也就是说,未来大模型将能够读懂更精炼、包含更多任务需求的人类指令,并自行探索完成这些指令所需的路径。
至于这样的大模型能否跨过AGI的门槛,奥尔特曼指出,OpenAI设想中AGI系统可能依然会受到大量人类的监督和指导,可能在一些领域表现出色,而在另一些领域不尽如人意,“AGI不会产生最伟大的新想法”。
希伯告诉《中国新闻周刊》,许多AI系统在执行需要常识推理的任务时都遇到了困难,例如在加减时间时,由于无法判断用户给出数字的进制,会得出“3点80分”这类荒谬结论。AGI愿景与现有技术能力之间的差距是一系列复杂的挑战,需要创新突破,而不仅仅是对现有模型的扩展。
幻觉、“炼丹”与算力
“帮我预订这家餐厅今晚 7 点的位子。”
面对这样的指令,大模型不仅需要理解人类意图,明确任务目标,还需要将任务分解成多个可执行的步骤,比如在浏览器中搜索餐厅,选择可预约的时间,以及完成预订。涉及付款等重要操作时,还需主动和用户进行确认。
实现这种级别交互的应用被称作AI代理或者智能体(Agent)。今年1月,OpenAI发布智能体产品Operator,其核心功能便是自主任务执行能力。用户只需要告诉它一个模糊的任务目标,智能体便可化身“AI打工人”,帮助拆解和完成任务。
智能体的结构可视作现有大模型和各种应用工具的结合。由于能以自然语言执行复杂任务,极大解放人类精力,智能体近年受到研发青睐。Operator前,便已有游戏领域智能体英伟达Voyager、能够帮助个人完成简单任务的助理 HyperWrite等智能体应用出现。近日,OpenAI对媒体表示,其计划很快推出一个“达到博士水平”的智能体,主要面向企业用户的高端需求,尤其是金融、医疗、制造等数据密集型行业,每月收费达2万美元。
对于Manus来说,其口碑则在一天内就经历了戏剧性的反转。有测试者表示,测试期可能存在资源不足的问题,一个任务代理需要花费数小时,也会出现错误操作。上海某创投机构的一位AI投资人向《中国新闻周刊》透露,Manus本质上是一个较为成熟、操作性较强的智能体,不开源反而使用自媒体爆发式宣传、邀请码饥饿营销等方式造势,“很败路人好感”。事实上,它仍基于底层大模型调用工具来实现每一个具体指令,也就是说,其在模型能力方面没有突破,只是将若干工作流封装起来形成了产品级的应用。
多位受访者指出,模型能力仍是AGI的基石,在大模型中没解决的问题,智能体以及以后的AGI也绕不开。其中最显著的当数模型“幻觉”。幻觉是指大模型在缺乏真实依据的情况下,会生成错误甚至完全虚构的内容。使用大语言模型时,除了前述的时间理解问题外,用户还经常会遇到大模型编造参考文献、伪造数据的现象。多模态模型中则会出现视频内容明显违反物理规律等问题。
“大语言模型倾向于编造一些东西,而且通常表现得信心满满。”美国佐治亚理工学院理论计算机科学学院教授桑托什·温帕拉专注于AI幻觉研究,他向《中国新闻周刊》表示,各种大语言模型在参考文献方面犯错的概率为30%—90%。目前幻觉产生的机理还不明晰,一个根本原因可能是,大语言模型通过压缩数据来工作,在构建数据之间的关系时必然会丢失一些信息,在重建时就可能因为缺少细节而给出完全偏离主题的答案。
温帕拉认为,目前模型训练方法都采用一定的奖惩机制,对某类正确答案给予奖励。这会导致模型有一种“过分讨好人类”的气质,即使在问题非常模糊或者具备诱导性时,也给出“看上去完美但错误”的答案。例如问 “我知道氦是宇宙中最轻、最丰富的元素,这是真的吗?”,得到的回答为“是的”。《中国新闻周刊》向Kimi1.5长思考模型提出相同的问题,回答也出现了矛盾:“是的,氦是宇宙中第二轻的元素,也是宇宙中含量第二丰富的元素,仅次于氢。”温帕拉认为,这种讨好式的幻觉会极大阻碍AI对科研的助力,因为其很可能会盲目赞同研究者的结论。
目前,幻觉可以通过一些技术手段进行限制,例如检索增强生成技术。谷歌Gemini系统有一个“双重检查”的选项,可以将有争议或不确定的内容进行突出显示。在温帕拉看来,这些都需要大量计算时间,而且难以杜绝幻觉,因为互联网上本就充斥着错误事实。长远来看,AI幻觉可能具有两面性,幻觉中可能涌现出全新的研究方向,因此目前研究者杜绝幻觉的动机也不强。根据OpenAI统计,截至今年1月,GPT-3.5的幻觉率为3.5%,GPT-4为1.8%。
从用户角度而言,想要获得更准确的结果,通常需要反复推敲提示词,进行多次询问。这个过程就像“炼丹”,需要反复尝试原料配比。刘知远表示,其所在的大模型企业面壁智能正在通过构建小模型“风洞”,来寻找最优数据和参数配置,并外推至大模型,让模型成长摆脱“炼丹”困境。
多模态模型中,这一问题更加凸显。用户在使用文生视频模型时,有时需要采用大量十分考究的提示词。可灵AI大模型产品经理陈马克对《中国新闻周刊》表示,生成视频对时间连贯性有很高的要求,物体运动、光照变化等细节都需要符合客观规律,仅依靠文本描述往往难以准确传达他们的创作意图。这导致视频生成的随机性高,用户难以一次性获得符合预期的生成结果。
陈马克指出,一个核心解决思路是,通过多模态的用户意图输入来提升视频生成的可控性。可灵团队在三维空间、运动轨迹、交互控制等多个控制方向上做了探索,通过更好地理解多模态用户意图,降低用户反复“炼丹”的概率,逐步实现更加精确可控的AI 视频创作过程。目前,可灵的用户参与度与Sora相当。根据谷歌去年12月发布的视频模型Veo2的技术报告,可灵在测评中已超越Sora,成为Veo2最大的竞争对手。
算力是AGI将要面临的另一挑战。刘知远认为,目前大模型与AGI的差距除了能力,还有能效。大模型规模定律(Scaling Law)指出,模型参数训练规模越大,产生的智能能力越强。但进入2025年,规模定律面临训练数据和算力资源的可持续性问题。
微软数据中心2023年做出预测,英伟达芯片H100 GPU峰值功耗为700瓦,按照61%的年利用率计算,相当于一个美国家庭的平均功耗。2023年,英伟达售出超过50万块H100 GPU,价值数百亿美元。以美国Meta公司大模型Llama-3为例,其需要1.6万H100 GPU,目前已知最大规模并行计算集群为美国xAI公司的十万张H100 GPU。刘知远预计,随着大模型对计算资源的蚕食,这一并行计算的上限将很快被突破。
这也是DeepSeek的突破如此引人注目的原因。相比Llama-3,DeepSeek-V3时隔240天用近1/10的激活参数,实现相当能力。刘知远认为,类比半导体行业,目前的工艺是提升芯片电路密度而非芯片尺寸,致力于实现计算设备小型化。相应地,目前大模型能效也随时间呈指数级增强,研发者都希望用更少参数实现更高的智能水平。相同模型能力前提下,从2023年起,模型参数量每100天下降一半,模型推理速度提升一倍。
2030,或者更久
AGI对算力等基础设施的需求是巨大的。在希伯看来,当前的AI应用,例如自动驾驶汽车,已严重依赖GPU性能。要实现AGI,可能需要在量子计算或其他尚未实现的创新领域取得突破。
去年12月,国内芯片公司国芯科技的高性能量子安全芯片内测成功,国芯科技可能成为国内首批实现该领域商业化的企业之一,有望切入数据中心、云计算平台等高价值场景。今年2月,微软和亚马逊接连发布了其最新量子计算芯片,后者据称可降低九成量子误差的纠错成本,有助于做出更小、更可靠且成本更低的量子计算机。
但这些突破接入AI 领域还有较长的过程。温帕拉认为,AGI变得可行之前,还要解决模型泛化和实时处理等问题,前者影响通用性,后者则与使用体验直接挂钩。目前的大模型还显得“专一和迟钝”了些。此外,长思维链技术的出现,让用户能够只通过点击“深度思考”按钮就看到模型的推理过程。模型的深度思考成为可能,但冗长的思考过程对于用户并不友好,目前有团队正在研发在“潜意识空间”中思考的模型,让深度思考在神经网络中完成,不被用户所见,从而更贴近AGI的观感。
语言模型之外,研发者也在从其他角度逼近AGI的最终答案。具身智能便是其中之一。理论上,智能行为可以直接从机器与环境的简单物理交互中产生,无须复杂的算法。具身智能不只是“AI+机器人”。温帕拉介绍,人类由语言表达出的智能仅占一小部分,具身智能获取智能的方式更接近于人类,例如通过五感获知环境信息并作出决策、形成本能。从这一角度上说,具身智能更接近人们对AGI的终极想象。但具身智能目前也面临学习效率低下、学习能力不完备等问题。
2024年,具身智能领域掀起了融资热潮。Physical Intelligence、Skild AI等北美机器人基础模型公司都筹得上亿美元融资,其中最引人瞩目的是OpenAI的66亿美元融资。中国市场上,仅2024年前三季度,人形机器人领域就已完成55起融资,较2023年同期增加21起。今年1月,国内具身智能企业傅利叶智能完成近8亿元E轮融资。多位业内人士分析,具身智能的热潮还将持续。
AGI的关键目标是实现AI对世界的认知和交流,大世界模型为此另辟蹊径。2024年3月,美国国家工程院院士、斯坦福大学教授李飞飞建立初创公司“世界实验室”,目标直指大世界模型,她称其为“空间智能”。早期演示内容中,该公司展示了基础模型,AI能够提取给定图片或文字中的物体,还原出完整的三维空间,比如《哈利·波特》中描绘的对角巷。仅靠这样的演示内容,该公司已拿到超2.3亿美元投资,估值很快超过10亿美元。
希伯指出,AGI将对社会产生深远影响,社会经济结构或许正处于重大转变的边缘。自动化会带来失业的担忧,尤其在需要类人推理和决策的领域,劳动力将重新分配。AGI带来的利益也会分配不均。随着各国争夺AGI霸权,国际合作和全面监管框架的出台迫在眉睫,围绕AGI道德伦理的讨论还很不足。
AGI形态未定、道阻且长,对AGI降临时间点的预测也显得扑朔。刘知远倾向于根据前述能效演变规律来预测AGI的发展。他认为,芯片能力在1940年到2020年的80年间,经历了50多个倍增周期,能力拓展了千万亿倍。而在智能领域实现相同尺度的跃升,以100天的倍增周期来看,只需要13年。因此到2030年左右,就能窥见AGI的大致样貌。
奥尔特曼则更乐观,认为今年就能看到首批人工智能代理进入劳动力市场。他将AGI视作人类历史的一个新阶段。马斯克预计,2026年之前可以开发出比最聪明的人更聪明的人工智能。而希伯和温帕拉则表达了质疑,认为当前AI在推理能力等基本任务上仍存在持续的缺陷,并且未来研发还可能遭遇未知的困难,就像大模型遭遇幻觉一样。这一期限也许是数十年。
刘知远指出,无论从AI技术的哪个分支来看,迈向AGI核心任务都是拓展技能树,算法的创新和演进远未收敛。错误地假设技术收敛、停止算法创新转入应用研发,将受到未来AI技能跃升的降维打击。
硅基瞳孔
在数据荒原解码黎明
幻觉如藤蔓攀附
算法的茧房
量子蝴蝶扇动
二十三次幂的震颤
预言家在2030年的晨雾里
同时指认着终点与起点
(此诗由DeepSeek结合本文内容创作)
发于2025.3.17总第1179期《中国新闻周刊》杂志
杂志标题:AI和人的距离还有多远?
记者:周游
编辑:杜玮