Llama 4,Meta的最新力作,本应是AI领域的耀眼新星,却在发布后迅速陷入争议的漩涡。
代码测试结果不尽人意,训练过程更是被曝出存在严重问题,引发业内一片哗然。
这一切究竟是怎么回事?
Llama 4开源首日,本应是开发者们欢欣鼓舞的时刻,然而实际情况却令人大跌眼镜。
许多网友迫不及待地进行了代码测试,结果却发现Llama 4的代码能力远低于预期。
一位网友用相同的提示词,分别让Llama 4 Maveric和GPT-4o制作旋转多边形的动画。
结果显示,Llama 4 Maveric生成的多边形不仅不规则,而且没有开口,小球甚至直接穿过了多边形,完全不符合物理规律。
相比之下,GPT-4o制作的动画虽然也存在瑕疵,但整体效果明显优于Llama 4。
除了这个案例,其他网友的测试结果也同样令人失望。
有人表示,Llama 4的表现甚至不如一些参数量更小的模型,例如Qwen-QwQ-32B、Grok-2、Ernie 4.5,甚至比Gemma 3 27B还要差。
更有甚者,认为Llama 4的代码能力与Llama 3.2相比没有任何进步,甚至连写诗都无法完成。
一位名为Deedy的网友直接将Llama 4称为“一个糟糕的编程模型”,并指出其在Kscores基准测试中表现不佳。
关于Llama 4训练过程的质疑声也甚嚣尘上。
有内部员工爆料称,Llama 4在多次内部训练后仍未达到开源SOTA基准。
为了“蒙混过关”,Meta高层竟然建议在后训练阶段将多个benchmark测试集混入训练数据,这种做法无异于“让Llama 4背题”。
这位爆料的员工表示无法接受这种做法,并在辞职信中明确要求不要在Llama 4技术报告中挂名。
更令人震惊的是,这并非个例。
另一位Meta内部员工在一亩三分地论坛上爆料称,由于小扎下达了4月底交付Llama 4的“死令”,团队承受着巨大的压力,一些高管甚至已经提出了辞职。
虽然该员工并未直接指出辞职原因与数据造假有关,但如此巧合的时间点难免引发人们的联想。
此外,Meta AI研究部副总裁Joelle Pineau也申请了5月底辞职,尽管有网友称其辞职与Llama 4无关,但考虑到Meta的组织架构,Pineau是FAIR的副总裁,而FAIR与负责Llama项目的GenAI是完全独立的组织,GenAI的副总裁Ahmad Al-Dahle并未辞职,这其中的关系更加扑朔迷离。
除了内部员工的爆料,一些网友也发现Llama 4在LMarena上存在过拟合现象,这进一步加深了人们对其“作弊”的怀疑。
沃顿商学院教授Ethan Mollick也一针见血地指出,“如果你经常使用AI模型,不难分辨出哪些是针对基准测试进行优化的,哪些是真正的重大进步”。
Meta在公告中将LM Arena上的Maverick称为“实验性的聊天版本”,并在官网的性能对比测试图中注明“Llama 4 Maverick optimized for conversationality”(针对对话优化的Llama 4 Maverick)。
这种“区别对待”的做法,以及公开版本与测试版本之间存在的显著差异,都让开发者难以准确预测模型在特定上下文中的表现,也引发了更多质疑。
一位名为anton的网友表示,Llama 4“真的有点令人失望”。
他认为Llama 4的两个模型体积过大,不利于本地部署,建议Meta应该专注于开发性能优秀的小模型,而不是盲目追求成为SOTA,“因为目前他们根本做不到”。
Llama 4的发布,本应是AI领域的一大盛事,如今却演变成一场信任危机。
数据造假、代码翻车、员工辞职……这一系列事件究竟是偶然的巧合,还是背后隐藏着更深层次的问题?
Llama 4的未来将何去何从?
这不仅关系到Meta自身的声誉,也关乎整个AI行业的健康发展。
面对这些质疑,Meta该如何回应?
又该如何挽回用户的信任?
这值得我们深思。