挑Llama-2下马！谷歌开放轻量级大模型Gemma重返开源，个人PC可跑

文丨Congerry

在放出 Gemini 1.5 不到一周后，Google 又发新品了！

2月21日，Google 发布了 Gemma 大模型，包括 Gemma 2B（20亿参数）和 Gemma 7B（70亿参数）两个版本，每个版本都提供了原始的预训练检查点，以及针对对话、指令遵循、有用性和安全性进行微调的检查点。

轻量级是Gemma模型的特点之一。这两个版本旨在满足不同的计算需求和应用场景。Gemma 2B模型适用于CPU和设备上的应用，而Gemma 7B模型则适用于GPU和TPU上的高效部署和开发。这两个模型将通过 Kaggle、Hugging Face、Nvidia 的 NeMo 和谷歌的 Vertex AI 提供。

尽管参数较小，但 Gemma 的70亿参数模型在主流的测试平台如 MMLU、BBH、GSM8K 等上，在数学、推理、代码等方面的性能超过了同规模的 Llama-2 模型，在某些关键能力上甚至超越了 Llama-2 的130亿参数模型。

值得注意的是，Gemma 模型目前被谷歌定位为“开放模型”（open models），而不是“开源模型”（open source models）。

简而言之，Google的Gemma模型虽然对外部开发者和研究人员开放，允许他们访问和修改模型的权重（weights），但并不等同于完全的开源，因为开源通常意味着源代码的完全公开，允许用户自由地使用、修改和分发。

Google选择使用“开放模型”这个术语，是为了明确表达他们的模型虽然提供了一定程度的开放性，但这种开放是有限制的，并且受到特定的使用条款约束。

Google挑战Meta，一举成为最强“开源”模型

自去年以来，Meta 就凭借开源 Llama 大语言模型震撼了业界。

虽然使用Llama的成本不一定很低，但对于那些不想从包括OpenAI在内的供应商那里获取专有LLM许可的初创公司来说，这些免费开放模型无疑是一大福音。

现在，Google也加入其中了。

根据Google的技术报告，Gemma在18个基于文本的任务中的11个上优于类似规模的开源模型，如拥有7亿和130亿参数的LLaMA 2以及Mistral-7B。

Gemma相对最大的领先优势体现在数学和编码任务上。

在GSM8K（Graded Sentences of Mathematics）基准测试中，Gemma 7B模型的得分为46.4%，这在所有模型中表现最好。在MATH基准测试中，Gemma 7B模型的得分为24.3%，同样领先于其他模型。

在MBPP（Modeling and Benchmarking for Programming）基准测试中，Gemma 7B模型的3-shot准确率为44.4%，超过了Mistral-7B模型的40.2%。（∗ 代表Google进行的评估。）

Gemma技术细节

Gemma模型的架构基于Transformer解码器，参数如下：

相较于基础Transformer，Gemma采用了一些改进，如RoPE嵌入、GeGLU激活函数和RMSNorm归一化层。

训练基础设施使用了TPUv5e，这是一种专为机器学习设计的高性能计算平台。Gemma模型在训练过程中，通过模型分片和数据复制等技术，实现了大规模分布式训练。

在训练数据方面，Gemma模型使用了来自网络文档、数学和代码的主要英语数据。为了减少不想要或不安全的内容，训练数据经过了过滤，移除了某些个人信息和其他敏感数据。

此外，还进行了针对性的污染分析，以检查评估集泄露的风险，并尽量减少敏感输出的传播。

指令调整（Instruction Tuning）是Gemma模型的一个重要特点，它通过监督式微调（SFT）和基于人类反馈的强化学习（RLHF）来提高模型在下游自动评估和人类偏好评估中的性能。

在微调过程中，使用了特定的格式化器来标注指令调整示例，以便在训练和推理时提供额外的信息。

在安全性方面，Gemma模型在部署前需要进行严格的安全测试。

Google DeepMind团队提供了一个详细的模型卡片，以帮助研究人员更全面地理解Gemma，并发布了一个生成性AI负责任工具包，以支持开发者构建负责任的AI。

此外，团队还致力于研究和开发更强大的缓解策略，以应对未来模型开发中的潜在风险。

开放是开源第一步

Gemma可能代表了Google DeepMind试图进入开源领域的一次尝试。目前很难预测模型市场的发展趋势，以及专有模型是否会像OpenAI的GPT那样继续占主导地位。

到目前为止，Meta通过其LLaMA系列成为大型科技公司中开源语言模型的先驱。

通过开源策略，Meta希望在开发者领域占据主导地位，让开发者习惯其AI生态系统，以便未来可以更高效地开发出质量更高的AI产品。

扎克伯格此前在Meta的财报电话会议中，解释了他认为 Meta 开源战略的潜在好处。扎克伯格表示，开源模型通常更安全、更高效，而且运行起来更具成本效益，因为它们不断受到社区的审查和开发。

开源软件还可以成为行业标准，从而更容易将创新融入 Meta 的产品中。最后，开源在开发人员和研究人员中的普及可以帮助 Meta 吸引更好的人才。

而Gemma开源使更多人可以直接尝试谷歌的AI技术，而不必转向那些提供更好访问权限的竞争对手。

玩酷网

挑Llama-2下马！谷歌开放轻量级大模型Gemma重返开源，个人PC可跑

趣唠科技不打烊