开云体育 里面职工爆料-开云官网登录入口 开云app官网入口
剪辑:剪辑部 NXY
【新智元导读】Llama 4本该是AI圈的焦点,却成了大型翻车现场。开源首日,全网实测代码才气崩盘。更让东谈主颤抖的是,里面职工径直请辞,爆料Meta高层提议测试集舞弊。
Meta前脚刚发Llama 4,后脚就有大佬请辞了!
一亩三分地/Reddit的爆料贴称,经过反复考验后,Llama 4未能获得SOTA,以至与顶尖大模子实力悬殊。
为了蒙混过关,高层以至建议:
在后考验阶段中,将多个benchmark测试集混入考验数据。
在后考验阶段中,将多个benchmark测试集混入考验数据。
最终目标,让模子短期提高盘算,拿出来可以看起来可以的恶果。
这位里面职工@dliudliu暗意,「我方根底无法接纳这种作念法,以至离职信中明确条目——不要在Llama 4时刻敷陈中挂名」。
另一方面,小扎给全员下了「死令」——4月底是Llama 4委派临了期限。
在一系列高压之下,已有高管淡薄了离职。
其实,Llama 4昨天开源之后,并莫得在业内得到好评。全网测试中,代码才气极差,实力不如GPT-4o。
网友Flavio Adamo使用换取的辅导词,诀别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。

可以看出,Llama 4 Maveric生成的多边形并不规矩何况莫得启齿。小球也不相宜物理规矩,径直穿过多边形掉下去了。
比拟之下GPT-4o制作的动画天然也不好意思满,但至少要好得多。
以至,有东谈主径直曝出,Llama 4在LMarena上存在过拟合步地,有极大的「舞弊」嫌疑。
而如今,里面职工爆料,进一步阐发了网友的猜思。
沃顿商学院闇练Ethan Mollick一语中的,「如若你络续使用 AI 模子,不难分辨出哪些是针对基准测试进行优化的,哪些是委果的裂缝罕见」。
不外,另一位里面职工称,并莫得遭遇这类情况,不如让枪弹飞一忽儿。
里面职工爆料,Llama 4考验舞弊?
几位AI商讨东谈主员在布置媒体上齐「吐槽」覆没个问题,Meta在其公告中提到LM Arena上的Maverick是一个「试验性的聊天版块」。
如若看得仔细少量,在Llama官网的性能对比测试图的最底下一排,写着「Llama 4 Maverick optimized for conversationality.」
翻译过来即是「针对对话优化的Llama 4 Maverick」——似乎有些「鸡贼」。
这种「区别对待」的会让竖立东谈主员很难准确测度该模子在特定高下文中的阐明。
AI的商讨东谈主员不雅察到可公开下载的Maverick与LM Arena上托管的模子在行径上存在权臣各异。
而就在今天上昼,仍是有东谈主爆料Llama 4的考验进程存在严重问题!
即Llama 4里面考验屡次仍然莫得达到开源SOTA基准。
Meta的辅导层决定在后考验进程中羼杂多样基准测试集——让Llama 4「背题」以生机在测试中获得「好收获」。
这个爆料的原始开端是「一亩三分地」,字据对话,爆料者很可能来自于Meta公司里面。
对话中提到的Meta AI商讨部副总裁Joelle Pineau也肯求了5月底离职。(不外,也有网友称并非是与Llama4干系)
然而字据Meta的组织架构体系,Pineau是FAIR的副总裁,而FAIR内容上是Meta里面与GenAI全齐孤苦的组织,GenAI才是矜重Llama方法的组织。
GenAI的副总裁是Ahmad Al-Dahle,他并莫得离职。
Llama 4才刚刚发布一天,就出现如斯重磅的音问,让未来显得扑朔迷离。
代码翻车,网友大失所望
在昨天网友的实测中,驳倒如故有好有坏。
然而以前一天进行更多的测试后,更多的网友抒发了对Llama 4的不悦。
在Dr_Karminski的一篇热帖中,他说Llama-4-Maverick——总参数402B的模子——在编码才气方面梗概只可与 Qwen-QwQ-32B异常。
Llama-4-Scout——总参数109B的模子——梗概与Grok-2或Ernie 4.5肖似。

在驳倒中,网友反馈了这个判断。
有东谈主说Llama 4的阐明比Gemma 3 27B还要差。
有东谈主觉得Llama 4的阐明以至和Llama 3.2一样莫得任何罕见,也无法完成写诗。
其他用户在测试后也抒发了相同的不雅点,Llama 4有点不相宜预期。
网友Deedy也抒发了对Llama 4的失望,称其为「一个厄运的编程模子」。
他暗意,Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中阐明不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。
他还给出了贴出了Llama 4两个模子的一张测试排行,恶果浮现这两个新发布的模子远远莫得达到顶尖的性能。
网友anton说,Llama 4「确凿有点令东谈主失望」。
他暗意我方不会用它来接济编码,而Llama 4的定位有点凄迷。
anton觉得Llama 4的两个模子太大了,不太好腹地部署。他建议Meta应该推出性能优秀的小模子,而不是去追求成为SOTA。
「因为当今他们根底作念不到开云体育。」他写谈。