“沉寂”已久的谷歌终于放大招了。
美国当地时间12月6日,谷歌发布多模态大模型Gemini。谷歌DeepMind直接宣布,Gemini是“谷歌最大、最强的人工智能模型”。
在过去的一年里,基于大模型的聊天机器人单月访问量已经超过 20 亿,其中ChatGPT 遥遥领先,Google Bard 虽然排在第二,但和几个竞品一起归为「其他」更为合适。
因此,Gemini 早已被寄予了赶超ChatGPT 的厚望,无论成败,它就是Google 过去对AI 大模型孤注一掷的成果。
三大版本、五种模态
多模态性能全面超越GPT-4V
目前,Gemini 1.0 提供了三个不同的尺寸版本,分别如下:
Gemini Ultra:规模最大、能力最强,用于处理高度复杂的任务;
Gemini Pro:在各种任务上扩展的最佳模型;
Gemini Nano:用于端侧(on-device)任务的最高效模型。
以前,多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起,就像OpenAI的GPT-4、DALL·E和Whisper那样。
虽然在某些任务(比如图像描述)上表现良好,但在处理需要更深层次概念理解和复杂推理的任务时,它们的表现往往不尽人意。
而谷歌的Gemini模型从一开始就在不同模态上进行预训练,再通过使用额外的多模态数据进行微调,进一步提升了模型的有效性。
随后,研究人员又用额外的多模态数据进行了微调,进一步提升了模型的有效性。最终,实现了「无缝」地理解和推理各种模态的输入内容。
从结果上来看,Gemini的性能要远远优于现有的多模态模型,而且它的功能几乎在每个领域都是SOTA级别的。
而这个最大、最有能力的模型,也意味着Gemini可以用和人类一样的方式理解我们周围的世界,并且吸收任何类型的输入和输出——
作为一个从头开始构建的多模态大模型,Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。
这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。
当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
闲着无聊,也可以和 Gemini 玩个游戏,你的手指指向哪个区域,Gemini 就能说出那个国家及其代表性的事物。
三仙归洞,猜猜纸球在哪个杯子下面,手速再快,也躲不过 Gemini 的「眼睛」。
Google DeepMind首席执行官兼联合创始人Demis Hassabis表示,谷歌一直对非常通用的系统感兴趣。
而这里最关键的,就是如何混合所有这些模式,如何从任意数量的输入和感官中收集尽可能多的数据,然后给出同样多样化的响应。DeepMind和谷歌大脑合并后,果然拿出了真东西。
之所以命名为Gemini,就是因为谷歌两大AI实验室的合体,另外也一个解释是参考了美国宇航局的Gemini项目,后者为阿波罗登月计划铺平了道路。
多模态Gemini
VS
GPT-4
虽然没有正式公布,但根据内部消息,Gemini有万亿参数,训练所用的算力甚至达到GPT-4的五倍。
既然是被拿来硬刚GPT-4的模型,Gemini当然少不了经历最严格的测试。
谷歌在多种任务上评估了两种模型的性能,惊喜地发现:从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上,已经超越GPT-4!
而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,首次超过了人类专家。
Gemini Ultra在大模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过此前SOTA结果。
其中,在多选问题、数学问题、Python代码任务、阅读等方面,Gemini的性能都超过了此前最先进的水平。
谷歌称,他们对MMLU采用了新的基准方法,使Gemini能够利用推理能力在回答难题之前进行更仔细的思考,相比仅仅根据问题的第一印象作答,Gemini的表现有显著改进。
在新的MMMU基准测试中,Gemini Ultra也取得了59.4%的高分,这一测试包括了跨越不同领域的多模态任务,这些任务需要深入的推理过程。
图像基准测试中,Gemini Ultra的表现也超过了之前的领先模型,而且,这一成就是在没有OCR系统帮助的情况下实现的!
种种测试表明,Gemini在多模态处理上表现出了强大的能力,并且在更复杂的推理上也有着极大潜力。
Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval和Natural2Code。
其中仅Gemini仅在HellaSWAG数据集上的测试逊色于GPT-4。
HellaSWAG数据集主要用于研究扎根的常识推理能力,但是一位NLP领域的研究专家向「甲子光年」表示:"这并不能说明GPT4的常识推理性能更好,因为不能排除ChatGPT的模型在HellaSWAG数据集上训练过。"
对谷歌来说同样重要的是,Gemini显然是一个效率更高、更可靠、可扩展的模型。
它是在谷歌自己的张量处理单元上训练的,比谷歌以前的模型(如PaLM)运行起来更快、更便宜。
开发人员使用了谷歌内部研发的张量处理单元TPU v4和v5e,在AI优化的基础设施上对Gemini 1.0进行了大规模的训练。
而可靠、可扩展的训练模型和最高效的服务模型,就是谷歌做出Gemini的重要目标。
在TPU上,Gemini的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的AI加速器是谷歌大模型产品的核心。
要知道,这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。
它们还帮助了世界各地的科技公司经济、高效地训练大模型。
除了Gemini,谷歌在今天还发布了迄今为止最强大、最高效,并且可扩展的TPU系统——Cloud TPU v5p,专为训练尖端的AI模型而设计。
新一代TPU将加速Gemini的发展,帮助开发人员和企业客户更快地训练大规模生成式AI模型,开发出新产品和新功能。
谷歌凭Gemini追赶
微软和OpenAI步伐
不久前,微软刚刚宣布了旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。
正当我们感慨,留给谷歌的时间已经不多了的时候,谷歌突然亮出底牌,甩出Gemini全家桶与之对抗。
虽然目前仅开放了Gemini Pro和Nano,但Gemini Ultra在测评基准上取得的成绩已十分亮眼,尤其是代码生成能力方面。
这无疑是在OpenAI陷入内部混乱的时候给了它重重一击。
Gemini是否会改变世界?最好的情况是,它能帮谷歌在生成式AI竞赛中赶上OpenAI。
但劈柴、Hassabis等人似乎都认为,这是谷歌真正伟大的开始。
发布的技术报告,没有透露架构细节、模型参数或训练数据集。
艾伦人工智能研究所前CEO Oren Etzioni说:“没有理由怀疑Gemini在这些基准上比GPT-4更好,但没准GPT-5会比Gemini做得更好。”
打造像Gemini这样的巨量模型,可能需要花费数亿美元,但对于在通过云提供AI占据主导地位的公司来说,最终的回报可能是数十亿甚至数万亿美元。
这是一场不能失败,必须打赢的战争。