编译 |孟强
编辑 |云鹏
智东西7月25日消息,继Meta昨日推出开源Llama3.1模型之后,法国初创AI公司Mistral AI也加入了竞争行列,推出新一代旗舰模型Mistral Large 2。
该模型拥有1230亿参数,128k上下文窗口,可以在单个节点上以高吞吐量运行,支持包括中文在内的数10种语言、80多种编程语言,在多项基准测试中接近GPT-4o和Claude 3.5 Sonnet,预训练版本的多任务语言理解准确率高达84%,击败Llama 3.1 70B。
除了性能上的提升,Mistral AI还投入大量成本增强该模型的推理能力,训练的重点放在减少模型产生“幻觉”的概率,通过微调模型,使其在响应时更加谨慎和敏锐,提升模型输出的精准度和可信度。
一、多任务语言理解超越Llama 3.1 70BMistral Large 2拥有128k的上下文窗口,在代码生成、数学和推理方面比Mistral Large功能更强大,并提供更强大的多语言支持和高级函数调用功能,支持包括中文在内的10余种语言及Python、Java在内的80多种编码语言。
该模型拥有1230亿参数,与刚发布的Llama 3.1 405B的4050亿参数相比,参数数量偏少,但性能却在能接近后者,甚至在多项基准测试中表现接近GPT4-o和Claude 3.5 Sonnet。
▲Mistral Large 2与Llama 3.1 70B和Llama 3.1 405B在MMLU测试中的准确率对比
在MMLU(Massive Multi-task Language Understanding)测试中,Mistral Large 2的准确率击败Llama 3.1 70B。MMLU为大规模多任务语言理解测试,是一项综合评估,涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等方面。在此测试中,Mistral Large 2准确率高达84%,意味着该模型在多种任务和语言环境中都有出色的性能和广泛适应性。
二、训练过程中着重减少“幻觉”Mistral AI表示,团队在训练过程中花费大量成本来增强Mistral Large 2的代码生成和推理能力。
在使用海量代码进行训练后,该模型的代码生成能力远超其前身Mistral Large,并且接近GPT-4o、Claude3 Opus和Llama 3 405B。
▲代码生成基准测试中Mistral Large 2与其他模型的性能和准确率对比
▲Mistral Large 2与其他模型在GSM8K(8-shot)和MATH(0-shot,no CoT)生成基准测试中的性能和准确率对比
在推理能力训练方面,Mistral Large 2的训练重点之一还在于尽量降低模型产生“幻觉”的概率。“幻觉”是AI系统,尤其是生成模型(如大语言模型)在生成内容时出现的虚假、错误或不准确的信息。经过微调后,Mistral Large 2在响应时更加谨慎和敏锐,确保提供的信息是可靠、准确的。
Mistral AI称,经过训练后,该模型能在自己无法找到解决方案,或没有足够自信能提供准确答案时,会承认无法回答该问题,而不是继续编造答案。
此外,Mistral AI还大幅改进了Mistral Large 2的指令遵循和对话能力。该模型在遵循精确指令和处理长时间多轮对话方面表现尤为出色。
▲Mistral Large 2与其他模型在通用对齐基准测试中的性能对比
同时,Mistral Large 2在生成答案时尽量保持简洁明了,以加快交互速度,增加该模型的成本效益。
▲Mistral Large 2与其他模型生成回答的平均长度对比
目前,Mistral Large 2可通过Mistral平台(la Plateforme)访问,在Mistral研究许可下,该模型可供非商业使用。商业应用需要Mistral的商业许可。此外,用户可以在le Chat上测试该模型,亲身体验其功能。
结语:在高性能和成本效益间找到平衡AI模型研发正以前所未有的速度推进,全球科技巨头以及新兴初创公司之间竞争激烈,模型研发方向已不是一味地追求神经网络的规模,Mistral Large 2的发布预示着一个潜在的趋势,即AI模型要在高性能和成本效益间找到平衡。
Mistral AI表示,Mistral Large 2是其在成本效益、生成速度和性能上的新尝试。在参数量1230亿的情况下,性能能接近4050亿的Llama 3.1 405B,同时能快速提供简洁、准确的回答。几天前,三个小模型(Mistral Nemo、GPT-4omini、SmolLM)的陆续发布也表示,并不是参数量越大就越好。将来,我们期待更多更具成本效益的模型出现,提高AI生成模型生态的多元化。
来源:Mistral AI