Llama4模型训练被曝掺杂测试数据，Meta员工愤然辞职，代码测试表现不佳引发争议？

Llama 4，Meta的最新力作，本应是AI领域的耀眼新星，却在发布后迅速陷入争议的漩涡。

代码测试结果不尽人意，训练过程更是被曝出存在严重问题，引发业内一片哗然。

这一切究竟是怎么回事？

Llama 4开源首日，本应是开发者们欢欣鼓舞的时刻，然而实际情况却令人大跌眼镜。

许多网友迫不及待地进行了代码测试，结果却发现Llama 4的代码能力远低于预期。

一位网友用相同的提示词，分别让Llama 4 Maveric和GPT-4o制作旋转多边形的动画。

结果显示，Llama 4 Maveric生成的多边形不仅不规则，而且没有开口，小球甚至直接穿过了多边形，完全不符合物理规律。

相比之下，GPT-4o制作的动画虽然也存在瑕疵，但整体效果明显优于Llama 4。

除了这个案例，其他网友的测试结果也同样令人失望。

有人表示，Llama 4的表现甚至不如一些参数量更小的模型，例如Qwen-QwQ-32B、Grok-2、Ernie 4.5，甚至比Gemma 3 27B还要差。

更有甚者，认为Llama 4的代码能力与Llama 3.2相比没有任何进步，甚至连写诗都无法完成。

一位名为Deedy的网友直接将Llama 4称为“一个糟糕的编程模型”，并指出其在Kscores基准测试中表现不佳。

关于Llama 4训练过程的质疑声也甚嚣尘上。

有内部员工爆料称，Llama 4在多次内部训练后仍未达到开源SOTA基准。

为了“蒙混过关”，Meta高层竟然建议在后训练阶段将多个benchmark测试集混入训练数据，这种做法无异于“让Llama 4背题”。

这位爆料的员工表示无法接受这种做法，并在辞职信中明确要求不要在Llama 4技术报告中挂名。

更令人震惊的是，这并非个例。

另一位Meta内部员工在一亩三分地论坛上爆料称，由于小扎下达了4月底交付Llama 4的“死令”，团队承受着巨大的压力，一些高管甚至已经提出了辞职。

虽然该员工并未直接指出辞职原因与数据造假有关，但如此巧合的时间点难免引发人们的联想。

此外，Meta AI研究部副总裁Joelle Pineau也申请了5月底辞职，尽管有网友称其辞职与Llama 4无关，但考虑到Meta的组织架构，Pineau是FAIR的副总裁，而FAIR与负责Llama项目的GenAI是完全独立的组织，GenAI的副总裁Ahmad Al-Dahle并未辞职，这其中的关系更加扑朔迷离。

除了内部员工的爆料，一些网友也发现Llama 4在LMarena上存在过拟合现象，这进一步加深了人们对其“作弊”的怀疑。

沃顿商学院教授Ethan Mollick也一针见血地指出，“如果你经常使用AI模型，不难分辨出哪些是针对基准测试进行优化的，哪些是真正的重大进步”。

Meta在公告中将LM Arena上的Maverick称为“实验性的聊天版本”，并在官网的性能对比测试图中注明“Llama 4 Maverick optimized for conversationality”（针对对话优化的Llama 4 Maverick）。

这种“区别对待”的做法，以及公开版本与测试版本之间存在的显著差异，都让开发者难以准确预测模型在特定上下文中的表现，也引发了更多质疑。

一位名为anton的网友表示，Llama 4“真的有点令人失望”。

他认为Llama 4的两个模型体积过大，不利于本地部署，建议Meta应该专注于开发性能优秀的小模型，而不是盲目追求成为SOTA，“因为目前他们根本做不到”。

Llama 4的发布，本应是AI领域的一大盛事，如今却演变成一场信任危机。

数据造假、代码翻车、员工辞职……这一系列事件究竟是偶然的巧合，还是背后隐藏着更深层次的问题？

Llama 4的未来将何去何从？

这不仅关系到Meta自身的声誉，也关乎整个AI行业的健康发展。

面对这些质疑，Meta该如何回应？

又该如何挽回用户的信任？

这值得我们深思。

玩酷网

Llama4模型训练被曝掺杂测试数据，Meta员工愤然辞职，代码测试表现不佳引发争议？

袁浩说