冷眼与嘲讽之后,谷歌的AI大模型翻盘之路

跳起一只行业舞 2024-12-31 19:15:19

“我认为2025年将至关重要。我认为我们必须意识到这一刻的紧迫性,并需要作为一家公司加快步伐。风险很高。这些都是颠覆性的时刻。在2025年,我们需要坚持不懈地专注于释放这项技术的优势并解决真正的用户问题。”12月18日举行的2025年战略会议上,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)如是说。

听起来像是公司生死存亡的时刻,事实是远没有到这地步。谷歌刚刚经历了一个扬眉吐气的12月,当然扬眉吐气之前是灰头丧气。

而在2023-2024年,能让谷歌的命运如此波折的事件,只有当下最受瞩目的新赛道——大模型。谷歌在大模型的赛场上可谓受尽了冷眼和嘲讽。

首先要说,谷歌的大模型或者人工智能起步非常早,几乎是Mag-7中起步最早的,甚至在OpenAI发布了3.5之后,马上在2023奶奶出发布了自己的第一代成熟大模型Bard。但几乎招来的不是赞叹,而是近乎嘲讽的对待,股价也随之低迷。直到现在,谷歌仍然是Mag-7中PE最低的。

作为上个移动互联网时代的绝对胜利者,早在2001年就已经开始机器学习研究的谷歌来说,这是无法容忍的。

01 坎坷的大模型之旅起大早赶晚集

作为上个移动互联网时代绝对的胜利者,谷歌向来在技术储备和技术创新方面不逊色于任何公司。尤其是在深度学习、神经网络这类人工智能领域,需要绝对比拼算力和算法的领域,谷歌一直都处于领导地位。

2001年,谷歌开始利用机器学习来帮助人们纠正关键词输入的错误拼写。

2006年,推出基于机器学习的谷歌翻译。

2015年,开源机器学习框架 TensorFlow推出,使得人工智能更易于访问、可扩展和高效,由此推荐算法进入主流移动应用场景。

2016年,DeepMind开发的AlphaGo击败世界围棋冠军,人工智能这个曾经出现在科幻作品中的词汇变成现实。

同年,DeepMind就推出了机器学习发明并针对 TensorFlow 优化的定制芯片TPU,这种定制化芯片可以更快、更有针对性地训练和运行AI模型,2024年12月谷歌的新一代大模型Gemini 2.0 就是基于第六代TPU训练得来。

2017年,谷歌推出了新型神经网络架构Transformer,奠定了生成式 AI 系统的基石。

2019年2月,GPT-2正式基于Transformer架构的语言模型,随后催生了GPT-3.5、GPT 4.0,GPT o1等等。遗憾的是,谷歌自己的初代大模型反而不是基于Transformer架构。

竞争来的太快太急

为了应对2022年底GPT-3.5的爆红,2023年2月6日谷歌发布大模型Bard,3月份首批在美国和英国推出。

初代版本的Bard,是基于谷歌2021年发布的LaMDA(Language Models for Dialog Applications)大模型。这款模型具有多达 1370 亿个参数,更注重自然对话能力,对于信息和数据处理的能力不够强,因此在巴黎的直播发布会中表现不佳,导致谷歌的股价下跌了8%。

谷歌内部和媒体纷纷批评和质疑谷歌的大模型能力。我们的测试中,也发现和ChatGPT相比,Bard更像是上个时代的产物,对话效果比Apple的Siri好不了多少。

2023年4月10日,Bard的底层模型升级为更强大的通用语言模型PaLM(Pathways Language Model)。和前代LaMDA模型相比,PaLM拥有更强大的语言理解和生成能力,对话过程更为流畅自然。

5月10日,Bard升级为PaLM2大模型,在PaLM的基础上增加大大提升了逻辑推理能力,来减少对话中的笑话。谷歌在这个阶段开始了大模型和自身产品的集成,从PaLM2开始大模型已经为多款 Google产品提供生成式AI功能,包括Gmail 和Workspace等。

一直到2023年12月,Bard才再次迎来大升级,谷歌官方给出的表现报告显示Gemini Pro性能表现全面超越GPT-3.5,模型从PaLM切换为Gemini Pro。Gemini Pro在文本理解、总结、推理、编码和规划等方面都得到了显著加强。

在整个2023年中,尽管谷歌在不断迭代模型,但始终并未进入“大模型顶流”行列,甚至应用范围没有走出谷歌自己的生态链。要知道彼时已经有不少套壳产品依靠OpenAI的chatgpt开始盈利了。

谷歌周围,强敌环伺。OpenAI占据大模型绝对的领头羊第二,Anthropic的Claude每次迭代都能带来惊喜,并不断投Amazon等一轮轮融资,大有赶超OpenAI气势。Meta索性将自家大模型开源,剑走偏锋。

谷歌自己的基本盘搜索业务上,又有垂直AI搜索产品Preplexy爆火,直接改革了搜索结果这一谷歌搜索广告的重要流量源。

谷歌大概很多年没有感受到这么强烈的危机感了。大模型竞赛就像一场开卷考试,比拼的就是算法、算力和基建,幸好这几样谷歌都不缺。

老牌霸主凭实力赶上

2024年2月8日 Bard正式更名为Gemini,谷歌开始了赶超之旅。

2024年5月14日Gemini 1.5Pro和Gemini1.5Pro,2024年12月6日Gemini发布2.0 Flash。

在迎头赶上垂直大模型产品之外,谷歌还拓展了大模型外围产品,广受好评的就是NotebookLM。

NotebookLM是2024年9月份谷歌发布了一款AI笔记应用。该产品可以对输入进行理解和摘要,生成一个对谈式的音频内容,堪称播客制作的先天圣体。12月份NotebookLM进行了重大升级,包括新外观、新功能(例如“加入”音频概览以与主持人交谈的能力)以及高级版本 NotebookLM Plus。

我们在测试了两款由该笔记应用制作的播客节目,谈话的娴熟程度已经超过播客从业者初级水平,AI主持人的音色自然,聊天过程中的不乏由谈话内容产生的抑扬顿挫,几乎无法识别是真人还是AI节目。唯一的不足就是对内容的理解,过于“AI”化,对输入内容的挖掘无法跟进时下热门内容。

但这款AI音频制作工具带来的强大效率是真人播客无法比拟的,不仅可以应用在播客制作,还可以应用在论文理解和解读方面,大大降低了人们对高深内容的阅读门槛。Spotify Wrapped 的粉丝们推出一档Spotify Wrapped AI 播客,该播客完全使用NotebookLM 构建。

多模态方面 ,2024年2月,谷歌推出了文生图模型Imagen 2。但推出后不久,就被用户发现混淆了真实历史错误而蒙上阴影。随后进行“回炉再造”直到8月才迭代到Imagen 3。

重生后的Imagen 3模型细节准确性方面得到了增强,并支持多种画面各种风格和更丰富的纹理,文生图像质量得到显著提高。

5月份,谷歌发布视频生成模型Veo来对抗OpenAI的Sora。初期Veo主要面向内容创作者,可以支持高清晰度的视频生成,用户能够轻松制作分辨率达1080p、时长超过60秒的高质量视频,还支持多种电影效果的视频风格。

多家媒体测评发现,尽管Veo在画质方面细腻度更胜一筹,但视频内容“科幻感”太强,无法做到Sora的现实感,几乎一眼假。

DeepMind还为天气预测研发了AI天气模型GenCast,可以做到比其他天气预报系统提前15天预报气象变化,这对于农业地区气象灾难预警极为有利。

2024年10月份DeepMind因为蛋白质结构预测模型AlphaFold顺便拿了一个诺比尔化学奖,尽管是和David Baker均分的。无论是天气还是在生物医药领域,都表明谷歌AI在科研领域渗透远超OpenAI等AI新秀。

丰收的月份

经过2024年一年的煎熬和打磨,谷歌找到了自己的节奏,在24年最后一个月份迎来了丰收。不仅以Gemini 2.0打破了OpenAI连续12天产品发布会的连续剧,更是以量子芯片Willow证明了自己在科技界不可撼动的地位。

12月11日Gemini 2.0发布前,谷歌已经“不引人注意”地发布了gemini-exp-1206模型。这是一款实验性模型,甫已发布就在小范围内成为了多个LLM评分榜单的top,甚至超过自家后来发布的2.0 flash。预计这个版本的模型会是未来更先进模型的测试版。

更轰动的当然是12月11日的Gemini 2.0 Flash,从“flash”这个单词可以看出,大概率这还不是Gemini 2.0的完整版,但目前释放出的功能就足以帮谷歌拿回技术引领者地位。

其强大之处不仅在于强大的推理能力,更在于一步到位的多模态支持能力。

这点和OpenAI相比就良心很多,说实话这两年OpenAI的发布有点像评估的挤牙膏,每隔一段时间就发布一款模型,能力上绝对高于上一代,但提高的不多,对于多模态的支持更是相当滞后。

Gemini 2.0 Flash比上一代的推理能力更强,相应速度更快。谷歌官方称,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。

2.0 Flash作为一款原生多模态模型,可以支持支持图像、视频和音频等多种信息模态的输入和输出。还可以原生调用 Google 搜索、代码执行等工具以及第三方用户定义函数。尤其是在数学运算、编程等方面,lmarena ai给出的评测结果是力压OpenAI 的o1-preview和o1-mini。

除了性能和多模态能力的提升外,Gemini 2.0 Flash也在积极推进AI代理的产品形态演进和应用,伴随这次模型发布谷歌还推出了一系列相关功能,包括对多模态人工智能助手Project Astra 的更新,推出了浏览器助手Project Mariner和代码助手Jules。

人工智能助理Project Astra最早于2024年5月推出,用户可以借助摄像头、麦克风等端口和AI互动,用来进行物体识别、语音信息交互等操作。更新之后的Project Astra增加了对多语言、口音和生僻词的支持。同时和谷歌产品生态进行了更好的融合,借助Project Astra用户可以使用谷歌的搜索、Lens和地图产品,增加了上下文记忆功能,可以拥有长达10分钟的对话记忆,语音延迟方面也有了很大的改善。

现阶段的Project Mariner以一款实验性质的浏览器扩展形态存在,该拓展可以理解当前页面上的像素、文本、代码、图像和表单等元素,并根据用户的指令输入完成特定的任务,如下单购物、填写表单、浏览关闭等操作。

Jules是一款为开发者打造的代码助理,目前已经集成到GitHub 工作流中,帮助开发者进行代码分析和指导。

这次发布还推出了二代的视频和图像生成模型,Veo 2 和 Imagen 3。视频大模型Veo2,基于对现实世界的物理有了更好的理解——因此它可以制作出非常高质量的视频,整体上细节和真实感都有所提高。

以及为研究人员打造的研究工具Deep Research,它直接使用高级推理模式帮助研究人员进行研究主题的探索和编写研究报告,根据笔者在多个社媒论坛潜水发现不仅各类学科的学生、教师群体第一时间已经使用上了Deep Research,某些从事复杂技术工作的企事业员工也正常尝试将其作为大模型的首选产品。

可以说这次发布会将谷歌带回了人工智能超一流行当,取得了大模型竞赛阶段性的全方位的胜利。更重要的是,借助其产品生态链完整的优势,谷歌有能力在AI大模型竞赛的下一个赛场——AI Agent研发和应用上比其他厂商走的更远。

谷歌的在大模型领域的领先不仅包含其“大模型”产品本身的性能、多模态能力领先,更包含谷歌在模型芯片、模型训练平台和下游应用场景的全方位覆盖。

随着2.0flash模型的发布,其背后的核心硬件也浮出水面——第六代TPUTrillium。Gemini2.0的训练和推理100%由该芯片支持。

TrilliumTPU是谷歌云AI超级计算机的关键组件,这是一种突破性的超级计算机架构,它采用性能优化的硬件、开放式软件、领先的ML框架和灵活的消费模型的集成系统。

与上一代TPU v5e相比,Trillium TPU可将密集型LLM(如Llama-2-70b和gpt3-175b)的训练速度提高高达4倍,将MoE模型的训练速度提高高达3.8倍。主机动态随机存取内存(DRAM)是v5e的3倍,有助于最大限度地提高性能和规模吞吐量。

现在Trillium已经走向实际应用阶段,任何厂商都可以购买来构建自己的大模型产品。

但面对NVIDIA的强大竞争压力,Trillium目前只取得了参数层面的领先,以及一个成功的大模型案例,其与上下游硬件的兼容能力和业界的接受度还需要时间的检验。

02 谷歌的优势和隐忧优势:生态与金钱

一直以来谷歌都是个“爱折腾”的公司,最为著名的就是曾经的“谷歌20%时间政策”,允许谷歌员工每周可以花费20%的工作时间开展自己感兴趣的项目。在类似的鼓励创新的企业氛围下,谷歌内部诞生了大量大大小小的项目,尽管大部分都悄然下线,但其中也诞生了不少至今仍带给谷歌滚滚财源的营收产品,据说Gmail、Adsense就是这一政策的产物。

这条政策能够执行至今,都说明谷歌是个鼓励创新的企业,这是新技术和新产品的温床。

除了鼓励创新,谷歌在算力、云服务方面的基建能力和技术架构、人才储备是其他垂直厂商和Meta、Amazon等大公司短时间无法追赶的。

除了发展大模型所必须的软硬件条件,下游应用生态的比拼中谷歌也是一枝独秀。谷歌自己的视频平台Youtube天然就是多模态最佳应用场景、谷歌的搜索已经上线了AI Overview来应对Preplexity AI的追赶。谷歌的无人驾驶平台Waymo,未来也未必不能应用语音模型产品。

丰富的产品生态,使得谷歌可以尝试AI Agent、AI硬件、机器人多个方向的大模型应用。更重要的,谷歌有钱。

根据三季度财报,谷歌当季营收883 亿美元,同比增幅达到16%,净利润263亿美元,同比增长35%。谷歌云服务营收114亿美元,同比增长 35%。三季度实现了 176 亿美元的自由现金流,季度末现金储备达到了930亿美元。

经过两年的大模型竞赛,谷歌依然手握近千亿美元现金。这样大的现金储备,什么算力、芯片、人才问题还会是问题吗?

谷歌几乎具备大模型从0到1,再到100以至于工业级应用所需的软硬件条件。只要管理层不再想2023年初那样乱了节奏,大模型给谷歌的营收和股价贡献力量是就是不远的现实。

隐忧:反垄断风险

谷歌的股价偏低,其主要原因就是反垄断官司可能导致的业务被拆分的风险。最新的反垄断审判中谷歌落败之后,给谷歌核心业务的前景蒙上一层阴影。

美国司法部(DOJ)要求谷歌出售Chrome浏览器,解除与苹果等公司达成的搜索引擎默认位置的协议,甚至未来可能要求出售安卓操作系统。

这一系列要求对于谷歌最为核心的搜索业务无疑会造成巨大的影响,无他这几项调整关系到搜索的主要流量入口,没有这几个入口谷歌搜索的市占率势必会受到影响,进而影响到搜索广告的收入。出售安卓操作系统则可能会影响谷歌的移动端应用生态完整性。

为了应对司法部的要求,谷歌提出数项针对性浏览器协议、Android厂商的谷歌商店和浏览器改为非独占性质,或者是搜索的默认设置进行年度评定来减少公众对其“垄断性”地位的认定。

近期日本公平交易委员会也做出了谷歌搜索违反日本《垄断禁止法》的判决,这意味着未来谷歌日本的业务也会受到影响。甚至由此引发其他国家也会陆续对谷歌做出反垄断相关的判决。

树大招风,曾经帮助谷歌搜索崛起的因素似乎开始出现不稳定的波动,谷歌面对内外强大的竞争对手和核心业务的多重打击,很是需要一个稳定强硬的管理层。无怪乎桑达尔·皮查伊内部公开说,2025年风险很高,谷歌到了紧迫性时刻。

谷歌正在逐渐夺回大模型竞赛的行业关注度和开发者认同,反垄断大锤还尚未真正落下,谷歌获得了一个难得的发展窗口来在新的技术革新潮流中暂时站稳脚跟,为下一个人工智能时代真正到来前做好准备。

0 阅读:38

跳起一只行业舞

简介:感谢大家的关注