打响大模型之战!谷歌推出最强开源大模型Gemma

卓乎 2024-02-22 19:21:22

继2月16日,谷歌发布Gemini 1.5,正面硬刚OpenAI的GPT-4后。当地时间2月21日,谷歌又推出了新一代开源模型“Gemma”,又直指Meta的开源模型Llama 2。

谷歌表示,Gemma是轻量级中“最先进的”开放模型系列,超越了Mistral 7B 与 Llama 2,是迄今为止同类规模中最强大的语言模型。

谷歌官网写道,Gemma在拉丁语中意为“宝石”,以此命名的开放模型系列Gemma由Google DeepMind等团队开发,采用了与创建Gemini模型相同的研究和技术。

目前,Gemma系列有两种规模,分别是“Gemma 2B”和“Gemma 7B”,即20亿参数和70亿参数,以满足开发人员的不同需求。

性能方面,在包括MMLU、BBH、MATH等多项测试上领先于Llama 2。

其中,Gemma 7B在MMLU(大规模多任务语言理解)的得分率达到64.3%。在同等规模中,原本最强Mistral 7B的得分率为62.5%,Meta的Llama-2 7B和13B为45.2%和54.8%,远不及Gemma。

在使用方面,开发者可以根据自己的数据对Gemma模型微调,跨框架、工具和硬件进行优化。首先,谷歌通过原生Keras 3.0 兼容所有主流框架(JAX、PyTorch 和 TensorFlow),为 Gemma 提供推理和监督微调(SFT)的工具链。

同时,Gemma支持跨多个AI硬件平台,包括NVIDIA GPU和Google Cloud TPU,这使得Gemma 模型可以在包括笔记本电脑、台式机、物联网、移动设备和云等类型设备运行。

不过,相较于闭源模型,开源模型的安全性也是很多人关心的问题。

为此,谷歌使用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。此外,还利用人类反馈 (RLHF) 进行广泛的微调和强化学习,使指令调整模型与负责任的行为保持一致。同时还对Gemma 模型的风险状况进行了评估。

在发布Gemma的同时,谷歌还一起发布了新的Responsible Generative AI Toolkit,用以帮助开发人员和研究人员优先构建安全且负责任的AI应用程序。

作为开放产品,谷歌表示Gemma允许所有组织(无论规模大小)在负责任并遵守安全标准情况下进行商业使用。

此外,谷歌副总裁兼总经理兼开发者关系主管Jeanine Banks也强调了一点,Gemma与Meta的开源不同,Meta制定了许可条款,阻止自己的大型科技竞争对手使用其 Llama 2 开源模型,而谷歌Gemma没有此类商业限制。这一波谷歌确实上分!

事实上,在人工智能领域,如果说Meta是大模型开源鼻祖,那么谷歌可以说是人工智能领域的开源鼻祖。无论是OpenAI还是Meta这些谷歌的竞争对手,还是任何一家生成式人工智能公司都离不开Transformer框架的影响。

Transformer这个框架最早是谷歌2017年的《Attention is All You Need》论文中提到的。由谷歌的AI研究人员Vaswani等人撰写。

在谷歌发布该论文之前,OpenAI的技术路线主要集中在卷积神经网络(CNN)和循环神经网络(RNN)上。由于Transformer架构的提出,帮助其解决了RNN在长距离依赖问题上的困境。

原始论文中Transformer模型主要组件的图示

Transformer模型在机器翻译、文本摘要、问答等任务上取得了显著的效果,并迅速成为自然语言处理领域的标准模型。如今的大部分大型语言模型,包括GPT-2、GPT-3、GPT-4、Claude、BERT、XLNet 、RoBERTa 和ChatGPT都展示了Transformer执行各种此类自然语言处理(NLP)相关任务的能力。

从另一层面来看,谷歌在人工智能领域的实力此前或被低估,可以说其甚至有着比OpenAI和Meta等竞争对手更大的先发优势。

但从2022年ChatGPT发布以来,OpenAI一直代表着世界最先进的生成式大模型。作为先行者的谷歌反而在这一领域几乎“销声匿迹”。

为应对ChatGPT的挑战,谷歌在2023年3月,紧急推出Bard。2023年12月,又紧接着发布Gemini多模态大模型。与此同时,谷歌也面临着诸多质疑,甚至一度被指发布会演示视频虚假剪辑。

面对外界的打击,谷歌并没有就此泄气。2024年2月,谷歌连放Gemini Ultra免费版、Gimini 1.5、Gemma开源三个大招。可以看出谷歌一直用实际行动为自己证明。

近期OpenAI再次推出颠覆性产品Sora,将多模式人工智能领域也提上日程。对于谷歌来说有压力,但也并不惧。

早在去年年底,谷歌就推出了视频生成大模型VideoPoet。据谷歌称,该模型可以“零样本生成视频”,不仅支持常见的文生视频、图生视频,还支持视频编辑、风格化处理、视频扩展以及视频配乐。从谷歌提供的输出视频效果来看,VideoPoet确实较以往的AI视频大模型有了质的飞跃。未来或与OpenAI一较高下。

目前来看,在开源大模型领域,随着谷歌的强势杀入,形成了Meta、欧洲Mistral AI和谷歌三足鼎立的态势。在闭源大模型领域,谷歌占据着一席之地,对抗着OpenAI和微软为首的阵营。

2024年不到两个月,“大模型之战”已经打响,可以预见2024年大模型领域的竞争将进一步白热化。

但就国内市场而言,目前还没有一家能够独当一面,是否会有黑马异军突起,还需要我们继续观望。当然,我们也期待这样的黑马出现。

1 阅读:17

卓乎

简介:专注半导体、新能源、人工智能、云计算等科技领域