AI开源标杆，MetaLlama3.1来了

文丨俊俊

近日，Llama 3.1 正式发布！

Meta 官方表示，“直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。

现在，我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B，我们认为这是世界上最大、功能最强大的开源基础模型。

迄今为止，所有 Llama 版本的总下载量已超过 3 亿次，我们才刚刚开始。”

Llama 3.1 405B 独树一帜

Llama3.1 有三个版本，除了同参数量的 80 亿和 700 亿外，让人眼前一亮的是 4050 亿参数！

Llama 3.1 将上下文长度扩展到了 128K、增加了对八种语言的支持，作为首个公开可用的模型，其在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。

Meta 官方称Llama 3.1 405B 独树一帜，已经完全追上 ChatGPT4o 和 Claude3.5-Sonnet ，像长文本和数学这些方面甚至超过他俩。

Llama 3.1通过大量的训练进行算力和数据的扩充，用了 1.6 万台 H100 跑了 3930 万 GPU 小时（相当于单块 GPU3930 万个小时的计算量）。运算规模比 Llama2 翻了 50 倍，还填了包括多种语言的 15 万亿 Tokens ，相当于 7500 亿单词进去，而上代版本只有 1.8 万亿 Tokens 。模型上下文窗口也从 8K 增加到 128K ，扩展了 16 倍。

这回，是开源的胜利！

Meta 还优化和微调了训练内容，提高了用于预训练和后训练的数据数量和质量，如为预训练数据开发更仔细的预处理和管理管道，为后训练数据开发更严格的质量保证与过滤方法。

而在模型结构上，为了照顾这么大量的数据训练， Meta 也做了不少改进，像是把训练数据由 16 位精度降低到 8 位，这样不但能节省储存空间还方便计算，并且有利于在移动端部署。

地址：https://llama.meta.com/

此外，Llama3.1 还放弃了用传统的强化学习算法来进行模型后处理，而是选择靠测试员的标注和监督，边反馈边迭代。

虽然比较费人，但能增加 Llama3.1 的可扩展性，也就是像后续要增加的图像、语音、视频识别等功能，生成的结果也会更加自然，跟人类认知对齐。

英伟达、亚马逊、戴尔这些大厂和 Groq 这样的新锐小厂看到 Llama3.1 的开源大旗，纷纷来投，官宣要出基于 Llama3.1 的新模型。

硅谷的其他大佬也对这个模型相当看好，斯坦福大学计算机教授、谷歌 AI 负责人 Andrew Ng 感慨道， Meta 的这次更新，对所有人来说都是超赞的礼物。

英伟达科学家， AI 实验室负责人 Jim Fan 甚至认为，比肩 GPT-4 的力量已经发送到大家手中了，这是个历史性时刻！

此次发布还提供了更多与模型配合使用的组件（包括参考系统）来将 Llama 打造为一个系统。为了兑现开源承诺，Meta 将这些模型提供给社区，用户可以在 llama.meta.com 和 Hugging Face 上下载。

地址：

https://huggingface.co/meta-llama

https://llama.meta.com/

现在，用户通过 WhatsApp 和 meta.ai 就可以体验 Llama 3.1 405B。

效果评估

对于普通开发者来说，部署 405B 这样大规模的模型无疑是一项挑战，它需要大量的计算资源和专业技能。

实际效果中，Llama 3.1 405B 在长文本阅读时，表现的就还可以，能在回答里反馈到当时给出的信息。

但是面对无训练数据时，也会胡言乱语。经典弱智吧训练方面， Llama3.1 表现的不如隔壁 Gemini。（上图为 Llama3.1 ，下图为 Gemini ）

数据推理上，像用前几天考倒了众多 AI 的 9.11 和 9.9 谁大问题，也翻车。

不少人纷纷吐槽Llama 3.1 不好用，但这也并不意味着Llama3.1 的真实实力就这样。

目前官方发布的这个模型版本，相当于一个完全没优化的基本型号。而它的优势在于后期用户可以在它里面安排各种定制化操作，那时候才是真正产品。

Llama 的意义在于开源后创作者们的调教和微操，这才是这类开源模型的独到之处。

发布即日起，Llama 3.1 405B 模型的所有高级功能都将开放，开发者们可以即刻上手，探索更高阶的工作流，例如基于模型蒸馏的合成数据生成。

这次升级，Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案，以实现更高效的检索增强生成（RAG）。此外，Groq 已经为在云端部署模型进行了低延迟推理的优化，也对本地系统进行了类似的性能提升。

从 Llama2 到 3 到 3.1 ，是开源党的节节胜利。

扎克伯格在近日接受彭博社采访报道时表示，仅Llama 3模型的训练就耗资“数亿美元”，并预计未来模型的开发成本将攀升至“数十亿美元”级别。尽管2023年Meta在“效率之年”中削减了部分未来技术和管理层的开支，并裁减了数千个职位，扎克伯格依然愿意为人工智能竞赛投入巨资。

据扎克伯格所说，在完成所有投资后，Meta将免费向公众开放Llama背后的技术，只要使用者遵守“可接受使用政策”。

他希望通过开源策略，推动Meta成为其他成功创业公司和产品的基础，在行业发展中拥有更大影响力。不过，Meta仍将用于训练Llama 3.1的数据集保密。

此外，扎克伯格还认为美国在AI方面领先中国数年的想法，“不现实”，且技术封锁会阻碍技术发展。他担心的是，将美国的AI技术与世界其他地区隔绝，最终会适得其反。

在大模型领域最权威的榜单LLM Arena排行榜上，OpenAI的GPT-4o目前占据榜首。排名前十的模型全部为闭源。虽然闭源模型在排名上仍遥遥领先，但开源与闭源模型之间的差距，实际上正在逐渐缩小。

未来是否如扎克伯格大胆豪言的“开源AI必将胜出，就如Linux最终取得了胜利”，相信我们很快就会看到答案。

玩酷网

趣唠科技不打烊