AI开源标杆,MetaLlama3.1来了

趣唠科技不打烊 2024-08-12 03:37:27

文丨俊俊

近日,Llama 3.1 正式发布!

Meta 官方表示,“直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。

现在,我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B,我们认为这是世界上最大、功能最强大的开源基础模型。

迄今为止,所有 Llama 版本的总下载量已超过 3 亿次,我们才刚刚开始。”

Llama 3.1 405B 独树一帜

Llama3.1 有三个版本,除了同参数量的 80 亿和 700 亿外,让人眼前一亮的是 4050 亿参数!

Llama 3.1 将上下文长度扩展到了 128K、增加了对八种语言的支持,作为首个公开可用的模型,其在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。

Meta 官方称Llama 3.1 405B 独树一帜,已经完全追上 ChatGPT4o 和 Claude3.5-Sonnet ,像长文本和数学这些方面甚至超过他俩。

Llama 3.1通过大量的训练进行算力和数据的扩充,用了 1.6 万台 H100 跑了 3930 万 GPU 小时(相当于单块 GPU3930 万个小时的计算量 )。运算规模比 Llama2 翻了 50 倍,还填了包括多种语言的 15 万亿 Tokens ,相当于 7500 亿单词进去,而上代版本只有 1.8 万亿 Tokens 。模型上下文窗口也从 8K 增加到 128K ,扩展了 16 倍。

这回,是开源的胜利!

Meta 还优化和微调了训练内容,提高了用于预训练和后训练的数据数量和质量,如为预训练数据开发更仔细的预处理和管理管道,为后训练数据开发更严格的质量保证与过滤方法。

而在模型结构上,为了照顾这么大量的数据训练, Meta 也做了不少改进,像是把训练数据由 16 位精度降低到 8 位,这样不但能节省储存空间还方便计算,并且有利于在移动端部署。

地址:https://llama.meta.com/

此外,Llama3.1 还放弃了用传统的强化学习算法来进行模型后处理,而是选择靠测试员的标注和监督,边反馈边迭代。

虽然比较费人,但能增加 Llama3.1 的可扩展性,也就是像后续要增加的图像、语音、视频识别等功能,生成的结果也会更加自然,跟人类认知对齐。

英伟达、亚马逊、戴尔这些大厂和 Groq 这样的新锐小厂看到 Llama3.1 的开源大旗,纷纷来投,官宣要出基于 Llama3.1 的新模型。

硅谷的其他大佬也对这个模型相当看好,斯坦福大学计算机教授、谷歌 AI 负责人 Andrew Ng 感慨道, Meta 的这次更新,对所有人来说都是超赞的礼物。

英伟达科学家, AI 实验室负责人 Jim Fan 甚至认为,比肩 GPT-4 的力量已经发送到大家手中了,这是个历史性时刻!

此次发布还提供了更多与模型配合使用的组件(包括参考系统)来将 Llama 打造为一个系统。为了兑现开源承诺,Meta 将这些模型提供给社区,用户可以在 llama.meta.com 和 Hugging Face 上下载。

地址:

https://huggingface.co/meta-llama

https://llama.meta.com/

现在,用户通过 WhatsApp 和 meta.ai 就可以体验 Llama 3.1 405B。

效果评估

对于普通开发者来说,部署 405B 这样大规模的模型无疑是一项挑战,它需要大量的计算资源和专业技能。

实际效果中,Llama 3.1 405B 在长文本阅读时,表现的就还可以,能在回答里反馈到当时给出的信息。

但是面对无训练数据时,也会胡言乱语。经典弱智吧训练方面, Llama3.1 表现的不如隔壁 Gemini。(上图为 Llama3.1 ,下图为 Gemini )

数据推理上,像用前几天考倒了众多 AI 的 9.11 和 9.9 谁大问题,也翻车。

不少人纷纷吐槽Llama 3.1 不好用,但这也并不意味着Llama3.1 的真实实力就这样。

目前官方发布的这个模型版本,相当于一个完全没优化的基本型号。而它的优势在于后期用户可以在它里面安排各种定制化操作,那时候才是真正产品。

Llama 的意义在于开源后创作者们的调教和微操,这才是这类开源模型的独到之处。

发布即日起,Llama 3.1 405B 模型的所有高级功能都将开放,开发者们可以即刻上手,探索更高阶的工作流,例如基于模型蒸馏的合成数据生成。

这次升级,Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案,以实现更高效的检索增强生成(RAG)。此外,Groq 已经为在云端部署模型进行了低延迟推理的优化,也对本地系统进行了类似的性能提升。

从 Llama2 到 3 到 3.1 ,是开源党的节节胜利。

扎克伯格在近日接受彭博社采访报道时表示,仅Llama 3模型的训练就耗资“数亿美元”,并预计未来模型的开发成本将攀升至“数十亿美元”级别。尽管2023年Meta在“效率之年”中削减了部分未来技术和管理层的开支,并裁减了数千个职位,扎克伯格依然愿意为人工智能竞赛投入巨资。

据扎克伯格所说,在完成所有投资后,Meta将免费向公众开放Llama背后的技术,只要使用者遵守“可接受使用政策”。

他希望通过开源策略,推动Meta成为其他成功创业公司和产品的基础,在行业发展中拥有更大影响力。不过,Meta仍将用于训练Llama 3.1的数据集保密。

此外,扎克伯格还认为美国在AI方面领先中国数年的想法,“不现实”,且技术封锁会阻碍技术发展。他担心的是,将美国的AI技术与世界其他地区隔绝,最终会适得其反。

在大模型领域最权威的榜单LLM Arena排行榜上,OpenAI的GPT-4o目前占据榜首。排名前十的模型全部为闭源。虽然闭源模型在排名上仍遥遥领先,但开源与闭源模型之间的差距,实际上正在逐渐缩小。

未来是否如扎克伯格大胆豪言的“开源AI必将胜出,就如Linux最终取得了胜利”,相信我们很快就会看到答案。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注