DeepMind,谷歌押注未来的内核

出色的力量 2025-03-08 10:41:37

DeepMind是科技巨头谷歌内部的人工智能研究实验室,它不仅在与OpenAI抢占市场;在其CEO德米斯·哈萨比斯(Demis Hassabis)的领导下,它更是整个公司运作的“引擎室”。

谷歌DeepMind的CEO德米斯·哈萨比斯曾经最喜欢在午夜到凌晨3点之间完成一些让人较有成就感的工作。他是伦敦人,自称为“夜猫子”。他将这段深夜的独处时光用来阅读科学论文、构思新点子,或者单纯地思考。然而,最近连哈萨比斯的深夜时间也变得抢手起来。他的团队成员如今大多在谷歌的硅谷总部,而那里比伦敦早8个小时。因此,他的视频会议经常开到凌晨。他带着些许惆怅说道:“大约18个月前,我还有一个良好的作息习惯。”

他的悠闲时光被谷歌DeepMind(公司内部简称GDM)的创立所打破。GDM是2023年4月谷歌两大AI研究部门合并的产物:即DeepMind和Google Brain。DeepMind由哈萨比斯、穆斯塔法·苏莱曼(Mustafa Suleyman)和沙恩·莱格(Shane Legg)于2010年联合创立,并于2014年被谷歌收购;而Google Brain则是谷歌于2011年成立的部门。哈萨比斯被任命为合并后实体的负责人,这可以说是AI领域最强大的一大智库。

↗ DeepMind CEO 德米斯·哈萨比斯(Demis Hassabis)

这是一份沉重的责任。尽管谷歌多年来一直宣称自己是一家“AI先行”的公司,但引发当前生成式AI狂热的是OpenAI在2022年11月推出的ChatGPT(最近又有横空出世的DeepSeek)。虽然谷歌具备强大的技术实力,但它自此之后一直在努力追赶,希望在将这一新兴技术转化为实际产品方面确立自己的领导地位。它面临着许多竞争对手的威胁,包括OpenAI的旗舰合作伙伴微软(这也是苏莱曼目前供职的公司)。苏莱曼于2024年3月被任命为微软新成立的消费者AI部门的负责人,同时微软支付了6.5亿美元,获取他离开谷歌后于2022年创立的初创公司Inflection AI的技术许可。

谷歌的计划重点押在Gemini上。这个大型语言模型以合并创造它的两个谷歌AI实验室命名。Gemini的各个版本支持一系列新功能,例如谷歌搜索中的“AI概览”摘要以及Gmail的自动草拟邮件功能。Gemini还取代了谷歌助理,成为安卓默认的语音AI,同时可以作为独立聊天机器人使用,并通过Google云端平台供其他开发者集成到自己的产品中。

尽管如此,Gemini还未能取代ChatGPT在人们心目中作为AI聊天机器人的标杆地位。而谷歌的一些AI产品有明显的不足之处,曾引发了公关危机,比如其图像生成器曾经会产生一些令人困扰的错误(如将纳粹士兵描绘成黑人),以及某些AI概览功能给出的荒谬建议(用胶水把奶酪粘在披萨上)。不过,谷歌终于开始利用其最大的竞争优势:只需轻轻一按开关,就能将AI推向大量的用户。GDM产品副总裁埃利·柯林斯(Eli Collins)表示:“谷歌的每一款十亿级用户产品现在都集成了Gemini。而我们的十亿级用户产品共有九款。”

正如哈萨比斯所说:“目前我们的角色是谷歌的‘引擎室’。”然而,GDM的使命远不止如此。像OpenAI、Anthropic等公司一样,它也在努力实现通用人工智能(AGI)。

虽然AGI的具体定义有所不同,但大家一致认为它意味着相比现有的其他技术,AI将在更广泛的领域内发挥更多的作用。莱格是AGI一词的倡导者,也是GDM的首席AGI科学家。他将其定义为“至少可以在人类通常能完成的认知任务中与人类媲美的技术。”实现这一目标正是14年前他、哈萨比斯和苏莱曼创立DeepMind的初衷。对于谁(不一定是谷歌)会率先实现这一历史性壮举,哈萨比斯给出的预测既谨慎又乐观。他认为“在未来10年内有50%的概率”,但同时表示:“如果更早发生,我也不会惊讶。”

与此同时,作为一个一生都在追求卓越的人,哈萨比斯获得了全球的至高荣誉。2024年3月,他因“对人工智能的贡献”被授予英国爵士称号,成为“德米斯爵士”。(“我很少用这个头衔,也希望别人不要用。”)同月,他被任命为梵蒂冈教皇科学院院士。(“我不是天主教徒,但他们非常开放,乐于讨论正在发生的事情的哲学意义。”)2024年10月,我与他交谈时,他和GDM研究总监约翰·朱默帕(John Jumper)刚刚因GDM的AlphaFold项目而荣获诺贝尔化学奖,这项AI辅助蛋白质研究领域的突破性进展有望彻底改变药物发现领域。(“太不真实了,但希望几天后能有所实感。”)

尽管如此,他的职业生涯正进入一个充满挑战的新阶段。多年来,他一直被AI在解决人类重大挑战方面的潜力所激励,而谷歌也认同这一愿景,并给予他高度的自主权来追求这一目标。但现在,他必须在追求这一目标的同时,应对日益增长的压力,推出能够保持谷歌核心产品竞争力的新技术。成功与否或将取决于他在科学理想主义与商业现实之间找到平衡的能力。

Part 1

信念之路

谷歌DeepMind总部位于伦敦知识区(Knowledge Quarter),这栋大楼共11层,属于现代主义风格,显得格外引人注意。知识区是一个蓬勃发展的科技区域,靠近大英图书馆,聚集了阿斯利康、Meta和三星的分部,以及弗朗西斯·克里克研究所(欧洲大型生物医学实验室)等研究机构。2024年10月初,我前往该总部时,天空刚刚结束连日的蒙蒙细雨,阳光洒进了会议室,哈萨比斯在那里向我解释他如何努力确保GDM的工作环境能够超越硅谷普遍存在的封闭氛围。

作为一家科技公司,会议室以尼古拉·特斯拉命名和装饰,其他房间则以阿达·洛芙莱斯、艾伦·图灵等人命名,这一点毫不意外。还有一些房间致敬哲学家巴鲁赫·斯宾诺莎和路德维希·维特根斯坦,以及玛丽·雪莱。雪莱最著名的作品《科学怪人》是大约200年前的作品,讲述了人工智能失控的故事。公司内还展示了与科技相关的艺术作品,包括大厅里两个巨大的玻璃钢多面体,据说是旨在“为数值计算中抽象的完美连贯性赋予一种坚硬而闪亮的具体感。”

这种多学科氛围反映了伦敦丰富的文化历史,也体现了哈萨比斯的兴趣。他的兴趣广泛,涵盖“哲学、艺术和人文学科”。他说:“我认为这同样适用于价值观和社会。我觉得全世界都应该参与输入(对AI的)期望,而不仅仅只是加州的那片土地上。”

另一个影响是游戏,这也是对哈萨比斯最为根本的影响。1976年,他出生于伦敦,父亲是希腊塞浦路斯裔,母亲则是新加坡裔,4岁时就展现了非凡的天赋,能轻松击败父亲和叔叔的国际象棋。8岁时,他靠象棋比赛赚到了人生第一台个人电脑;17岁时,他已经成为职业电子游戏开发者,曾开发过一款游乐园模拟器,销量数百万份。

1997年,哈萨比斯从剑桥大学获得计算机科学学位,同年,IBM的国际象棋超级计算机“深蓝”战胜了国际象棋世界冠军加里·卡斯帕罗夫。哈萨比斯深受启发,但同时他也认为,这一里程碑式的时刻实际上是“一个奇怪的死胡同。” 深蓝是一种“专家系统”人工智能构造,专被设计用于象棋对弈,仅此而已。它无法被训练来玩其他游戏,更无法胜任其他类型的任务。

哈萨比斯被另一种AI方法深深吸引:神经网络。通过模仿人类大脑的运作,基于这种模型的软件可以像人类一样学会处理多种任务。这项技术此前受限于计算能力的不足,但哈萨比斯、苏莱曼(二人认识是因为苏莱曼当时是他弟弟的好朋友,)以及莱格(伦敦大学学院的同行研究者)相信,随着超级计算机能力的提升,这种技术能够取得重大进展。

2010年,他们三人创立了DeepMind,这是一家极其低调的初创公司,其最初的网站只有一个标志,没有任何其他内容。在早期,DeepMind开发的软件能够学会玩20世纪70年代的Atari电子游戏,这是为打造能够自主学习规则和目标,而无需通过人工详细编程的AI所迈出的第一步。最终,DeepMind在围棋领域实现了类似的突破。围棋是一种拥有2500年历史的棋类游戏,其复杂程度让许多人认为计算机永远无法掌握。然而在2016年,DeepMind的AlphaGo软件击败了传奇围棋大师李世乭,这一成就对AI领域的意义甚至超过了19年前卡斯帕罗夫被计算机击败的时刻。

↗ 2016年,DeepMind的AlphaGo软件击败了传奇围棋大师李世乭的历史性时刻。

至此,DeepMind作为一家独立公司的短暂历史便终结了。在击败李世乭的两年前,谷歌收购了这家初创公司,据说收购价格为4亿至6.5亿美元。尽管与OpenAI目前1570亿美元的估值相比,这笔交易金额微不足道,但在2014年,这已经是一个相当不错的价格。当时,投资圈对AI兴趣寥寥。哈萨比斯回忆称,作为初创公司,DeepMind当时“甚至很难筹集到1000万美元”。他与谷歌联合创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)因为对AI发展的共同热情而建立了深厚的联系。

DeepMind的首批员工之一、现任GDM责任高级总监海伦·金(Helen King)说道:“出售公司意味着哈萨比斯不必再花时间与投资者周旋,他可以专注于推动研究的进行。”她负责监督公司工作的安全性,包括缓解Gemini中的偏见问题,以及应对AGI和其他未来技术可能带来的潜在风险。

在攻克围棋之后,DeepMind准备将AI应用于比游戏更重要的实际问题。哈萨比斯说:“在我看来,下一步是走出实验室,将AI应用于现实世界的问题,而蛋白质折叠研究是我首要考虑的方向。”了解蛋白质如何折叠成三维结构可以为药物发现和其他生物技术领域提供关键信息,但这个过程非常困难——在数十亿种可能的结构中,人类仅破解了约10万种。

DeepMind启动了一个让这一过程自动化的项目,并将其命名为AlphaFold。第一代版本在2018年的双年度蛋白质结构预测竞赛中获胜;第二代版本于2020年获胜,它为生物技术和AI领域带来了更非凡的突破。这也证明了DeepMind的研究优先文化在谷歌内部依然能蓬勃发展。AlphaFold的共同开发者朱珀在撰写芝加哥大学博士论文后加入了DeepMind,他的研究主题是利用机器学习进行蛋白质预测。2021年,他表示:“在这里工作就像每天都在参加一场AI学术会议。”

Part 2

全面发力

“PLEASE WELCOME, FOR THE FIRST TIME on the I/O stage, Sir Demis.”

“让我们欢迎德米斯爵士首次登上I/O大会舞台。”

当谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024年5月的年度谷歌 I/O开发者大会(在其总部附近的海岸线露天剧场举行)上介绍哈萨比斯上台时,这既让人觉得姗姗来迟(毕竟哈萨比斯已在谷歌工作了十多年),又恰逢其时,因为他的研究已迅速成为谷歌未来发展的核心。

身穿标志性的蓝色衬衫和蓝框眼镜,哈萨比斯展示了一段关于“Project Astra”(阿斯特拉计划)的视频。阿斯特拉是谷歌下一代AI助理的实验愿景,由Gemini支撑,可在智能手机或智能眼镜上运行。它不仅仅是一个聊天机器人;可通过机器视觉识别放在桌上的设备(这里使用了音乐音箱)并解释其工作原理。它还能理解显示在电脑显示器上的加密代码的功能,准确判断白板上涂鸦的卡通形象与薛定谔的猫相关,并提醒用户她把眼镜放在哪里了。

阿斯特拉的某些功能已在2024年底发布的视频中有所展示。在某种程度上,这似乎是一种竞争需要:如果谷歌不开发全球最佳的具备摄像头功能的AI助理,其他公司可能会捷足先登。OpenAI已经展示了ChatGPT的一些类似功能,包括解决手写数学问题和根据面部表情推测情绪。即使是对AI采取谨慎态度的苹果,也在为iPhone引入更多摄像头相关的智能功能。

然而,哈萨比斯告诉我,他“深度参与”了阿斯特拉的开发,并不仅仅是在打造一个更智能的AI助理。为软件赋予理解周围环境的能力,对于GDM探索实现AGI至关重要。他说:“如果想让计算机像人类一样思考,就不能只局限于语言和数学的世界。它必须理解物理世界。”

尽管如此,他并未等待完全弄清AGI就开始推进高潜力的研究项目,这些项目与谷歌的短期收益没有直接关联。2021年,GDM创建了一家名为Isomorphic Labs的公司(简称Iso),用于推动AlphaFold技术商业化。哈萨比斯担任这家公司的CEO,而GDM首席商务官科林·默多克(Colin Murdoch)则担任总裁。如今,Iso拥有150名员工、独立的办公空间,并专注于加速药物发现。这也为GDM提供了另一个与物理世界建立联系的机会。

同时,GDM的研究人员正在努力推动其他项目来解决现实生活中的挑战:GraphCast利用AI在不到一分钟内生成准确的10天天气预报;GNoME已识别出38万种可能用于制造电池和太阳能电池板等产品中的新型无机晶体;Torax由GDM与瑞士洛桑联邦理工学院合作开发,帮助预测如何控制核聚变所需的超过太阳温度的条件。

每一家大型AI公司都声称希望为生活的方方面面带来积极改变,但GDM正在承担异常繁多的相关工作。这需要它超越计算机科学领域的根基来扩展团队。研究副总裁普什米特·科利(Pushmeet Kohli)表示:“我们拥有一些全球最优秀的聚变专家、生物学家、材料科学家。”

这些努力的方向正是谷歌前首席执行官拉里·佩奇(Larry Page)九年前创建Alphabet作为谷歌及其其他子公司的控股公司的初衷。他希望开发“登月计划”,这个新业务可能需要多年孵化,且将带来世界性变革,但并非与谷歌现有成功直接相关。

如今,这些“登月计划”中有些已经不复存在。即使是其中最知名且最具前景的一个项目,即Waymo的自动驾驶出租车(其软件由GDM协助开发),目前也仅在凤凰城、洛杉矶和旧金山实现了全面商业部署。

但Iso无疑是符合Alphabet“登月计划”标准的项目。GDM希望找到更多类似的项目。默多克表示:“我们现在已经有了一张蓝图的雏形。”

科技分析师本尼迪克特·埃文斯(Benedict Evans)指出,尽管AT&T公司的贝尔实验室享有盛名并取得了巨大成功,但“打造一个通用的创新实验室并让它持续输出产品一直是件很困难的事情。”不过Iso已经超越了概念验证阶段。今年1月,该公司宣布与制药巨头礼来公司(Eli Lilly)和诺华公司(Novartis)建立战略合作伙伴关系,据称这些合作可能带来近30亿美元的预付款,这还不包括未来可能从其参与研发的药物中获得的使用费。(为了分散AI投资风险,礼来也与OpenAI合作研究抗菌素。)

30亿美元对于Alphabet而言并不算可观的收入,其2023年的总营收达到3070亿美元,其中大部分来自广告。这并不能满足公司当前的迫切需求,即为现有、无处不在的谷歌软件产品注入突破性AI能力。然而,哈萨比斯对未来充满信心。

他问道:“AI还能有比治愈严重疾病更好的用途吗?但从长远来看,我认为这对Alphabet也将极其有价值。我认为其中不存在任何矛盾。”

能够深度思考的科技GDM研究里程碑简史

Part 3

深度思考未来

一个面向作家和研究人员的AI增强型笔记工具看起来似乎不太可能吸引广泛关注。然而,2024年9月下旬,谷歌在其免费的NotebookLM网络应用(该应用于去年首次推出)中推出新功能 Audio Overview ,吸引了TikTok、X和YouTube用户的注意。通过提供的参考资料(如PDF和网页),它可以利用Gemini在两个虚拟主持人之间生成类似播客的对话,涵盖任何主题。其语气自然流畅,包括“嗯”“啊”等语气词,甚至还有玩笑和岔题,令人误以为是一档由真人主持的冷门节目。

哈萨比斯对这种病毒式传播反应感到欣喜,有人甚至将其称为Gemini的“ChatGPT时刻”。他说:“在科学领域,你发表论文、获得审稿意见,然后会看到引用之类的东西。而这在某种程度上更为直观,这真的令人兴奋。”

不过,并非所有人都期待科技行业竞相开发日益强大的大型语言模型、广泛推出基于这些模型的产品以及向AGI不断迈进。谷歌内部就存在紧张局势,这从“人工智能之父”、Google Brain负责人之一杰弗里·辛顿(Geoffrey Hinton)在GDM成立后不久便辞职就可见一斑。辛顿表示,他离开是为了能够更自由地谈论前方可能存在的危险道路。

谷歌最近推出的多项Gemini相关功能显示出“它们被拖入了与大型语言模型竞争的局面,因为一旦OpenAI开启了这个大门,每个人都不得不参与进来。”这番话出自未来生命研究所执行主任安东尼·阿吉雷(Anthony Aguirre)。这家非营利组织于2023年3月发起了一封公开信,呼吁六个月内暂停高级大型语言模型开发,该信签署人员数量超过33000人,其中包括三位DeepMind科学家(目前仍有两人在公司)。他说:“我认为这有些遗憾,因为我更倾向于设计AI来解决我们实际面临的问题。”

根据《The Information》在2024年4月的一篇报道,哈萨比斯本人也曾对迅速面向大众商业化AI的日益明显的趋势感到担忧,这种趋势最终促成了DeepMind和Google Brain合并为GDM。他坦言:“起初,我有些担心这会影响我们的研究路线图。”但随着时间的推移,他认为整合谷歌的AI专业知识和技术架构带来的好处变得更加明晰:“我们作为一家以研究为主导的公司成立,现在仍然是一个以研究为主导的部门。这与我们对世界的影响完全是相辅相成的。”阿斯特拉计划就是一个例子。

在伦敦的GDM总部,一堵墙上挂满了研究人员发表在科学期刊上的论文纪念海报。哈萨比斯似乎并未屈从于短期的竞争压力。詹姆斯·曼尼卡(James Manyika)说:“他一直坚持的一件事,就是我们应该用科学的方法来处理所有的工作。这一点我完全赞同。”曼尼卡自DeepMind创立初期就认识哈萨比斯,并于2022年加入谷歌担任高级副总裁,专注于技术与社会的交叉点,并直接向皮查伊汇报。“我们应该做实验,我们应该保持严谨,我们应该发表研究成果。”这正是GDM中的DeepMind(意为“深度思维”)部分,重视这一点是保留它的第一步。

0 阅读:0

出色的力量

简介:感谢大家的关注