挑Llama-2下马!谷歌开放轻量级大模型Gemma重返开源,个人PC可跑

趣唠科技不打烊 2024-02-25 10:15:58

文丨Congerry

在放出 Gemini 1.5 不到一周后,Google 又发新品了!

2月21日,Google 发布了 Gemma 大模型,包括 Gemma 2B(20亿参数)和 Gemma 7B(70亿参数)两个版本,每个版本都提供了原始的预训练检查点,以及针对对话、指令遵循、有用性和安全性进行微调的检查点。

轻量级是Gemma模型的特点之一。这两个版本旨在满足不同的计算需求和应用场景。Gemma 2B模型适用于CPU和设备上的应用,而Gemma 7B模型则适用于GPU和TPU上的高效部署和开发。这两个模型将通过 Kaggle、Hugging Face、Nvidia 的 NeMo 和谷歌的 Vertex AI 提供。

尽管参数较小,但 Gemma 的70亿参数模型在主流的测试平台如 MMLU、BBH、GSM8K 等上,在数学、推理、代码等方面的性能超过了同规模的 Llama-2 模型,在某些关键能力上甚至超越了 Llama-2 的130亿参数模型。

值得注意的是,Gemma 模型目前被谷歌定位为“开放模型”(open models),而不是“开源模型”(open source models)。

简而言之,Google的Gemma模型虽然对外部开发者和研究人员开放,允许他们访问和修改模型的权重(weights),但并不等同于完全的开源,因为开源通常意味着源代码的完全公开,允许用户自由地使用、修改和分发。

Google选择使用“开放模型”这个术语,是为了明确表达他们的模型虽然提供了一定程度的开放性,但这种开放是有限制的,并且受到特定的使用条款约束。

Google挑战Meta,一举成为最强“开源”模型

自去年以来,Meta 就凭借开源 Llama 大语言模型震撼了业界。

虽然使用Llama的成本不一定很低,但对于那些不想从包括OpenAI在内的供应商那里获取专有LLM许可的初创公司来说,这些免费开放模型无疑是一大福音。

现在,Google也加入其中了。

根据Google的技术报告,Gemma在18个基于文本的任务中的11个上优于类似规模的开源模型,如拥有7亿和130亿参数的LLaMA 2以及Mistral-7B。

Gemma相对最大的领先优势体现在数学和编码任务上。

在GSM8K(Graded Sentences of Mathematics)基准测试中,Gemma 7B模型的得分为46.4%,这在所有模型中表现最好。在MATH基准测试中,Gemma 7B模型的得分为24.3%,同样领先于其他模型。

在MBPP(Modeling and Benchmarking for Programming)基准测试中,Gemma 7B模型的3-shot准确率为44.4%,超过了Mistral-7B模型的40.2%。(∗ 代表Google进行的评估。)

Gemma技术细节

Gemma模型的架构基于Transformer解码器,参数如下:

相较于基础Transformer,Gemma采用了一些改进,如RoPE嵌入、GeGLU激活函数和RMSNorm归一化层。

训练基础设施使用了TPUv5e,这是一种专为机器学习设计的高性能计算平台。Gemma模型在训练过程中,通过模型分片和数据复制等技术,实现了大规模分布式训练。

在训练数据方面,Gemma模型使用了来自网络文档、数学和代码的主要英语数据。为了减少不想要或不安全的内容,训练数据经过了过滤,移除了某些个人信息和其他敏感数据。

此外,还进行了针对性的污染分析,以检查评估集泄露的风险,并尽量减少敏感输出的传播。

指令调整(Instruction Tuning)是Gemma模型的一个重要特点,它通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来提高模型在下游自动评估和人类偏好评估中的性能。

在微调过程中,使用了特定的格式化器来标注指令调整示例,以便在训练和推理时提供额外的信息。

在安全性方面,Gemma模型在部署前需要进行严格的安全测试。

Google DeepMind团队提供了一个详细的模型卡片,以帮助研究人员更全面地理解Gemma,并发布了一个生成性AI负责任工具包,以支持开发者构建负责任的AI。

此外,团队还致力于研究和开发更强大的缓解策略,以应对未来模型开发中的潜在风险。

开放是开源第一步

Gemma可能代表了Google DeepMind试图进入开源领域的一次尝试。目前很难预测模型市场的发展趋势,以及专有模型是否会像OpenAI的GPT那样继续占主导地位。

到目前为止,Meta通过其LLaMA系列成为大型科技公司中开源语言模型的先驱。

通过开源策略,Meta希望在开发者领域占据主导地位,让开发者习惯其AI生态系统,以便未来可以更高效地开发出质量更高的AI产品。

扎克伯格此前在Meta的财报电话会议中,解释了他认为 Meta 开源战略的潜在好处。扎克伯格表示,开源模型通常更安全、更高效,而且运行起来更具成本效益,因为它们不断受到社区的审查和开发。

开源软件还可以成为行业标准,从而更容易将创新融入 Meta 的产品中。最后,开源在开发人员和研究人员中的普及可以帮助 Meta 吸引更好的人才。

而Gemma开源使更多人可以直接尝试谷歌的AI技术,而不必转向那些提供更好访问权限的竞争对手。

值得注意的是,OpenAI 去年准备发布开源 LLM G3PO,但由于无法得知的原因而选择不发布。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注