栏目分类

热点资讯

新闻

开云体育里面职工爆料-开云官网登录入口开云app官网入口

发布日期：2025-08-22 03:59 点击次数：113

开云体育里面职工爆料-开云官网登录入口开云app官网入口

剪辑：剪辑部 NXY

【新智元导读】Llama 4本该是AI圈的焦点，却成了大型翻车现场。开源首日，全网实测代码才气崩盘。更让东谈主颤抖的是，里面职工径直请辞，爆料Meta高层提议测试集舞弊。

Meta前脚刚发Llama 4，后脚就有大佬请辞了！

一亩三分地/Reddit的爆料贴称，经过反复考验后，Llama 4未能获得SOTA，以至与顶尖大模子实力悬殊。

为了蒙混过关，高层以至建议：

在后考验阶段中，将多个benchmark测试集混入考验数据。

在后考验阶段中，将多个benchmark测试集混入考验数据。

最终目标，让模子短期提高盘算，拿出来可以看起来可以的恶果。

这位里面职工@dliudliu暗意，「我方根底无法接纳这种作念法，以至离职信中明确条目——不要在Llama 4时刻敷陈中挂名」。

另一方面，小扎给全员下了「死令」——4月底是Llama 4委派临了期限。

在一系列高压之下，已有高管淡薄了离职。

其实，Llama 4昨天开源之后，并莫得在业内得到好评。全网测试中，代码才气极差，实力不如GPT-4o。

网友Flavio Adamo使用换取的辅导词，诀别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。

可以看出，Llama 4 Maveric生成的多边形并不规矩何况莫得启齿。小球也不相宜物理规矩，径直穿过多边形掉下去了。

比拟之下GPT-4o制作的动画天然也不好意思满，但至少要好得多。

以至，有东谈主径直曝出，Llama 4在LMarena上存在过拟合步地，有极大的「舞弊」嫌疑。

而如今，里面职工爆料，进一步阐发了网友的猜思。

沃顿商学院闇练Ethan Mollick一语中的，「如若你络续使用 AI 模子，不难分辨出哪些是针对基准测试进行优化的，哪些是委果的裂缝罕见」。

不外，另一位里面职工称，并莫得遭遇这类情况，不如让枪弹飞一忽儿。

里面职工爆料，Llama 4考验舞弊？

几位AI商讨东谈主员在布置媒体上齐「吐槽」覆没个问题，Meta在其公告中提到LM Arena上的Maverick是一个「试验性的聊天版块」。

如若看得仔细少量，在Llama官网的性能对比测试图的最底下一排，写着「Llama 4 Maverick optimized for conversationality.」

翻译过来即是「针对对话优化的Llama 4 Maverick」——似乎有些「鸡贼」。

这种「区别对待」的会让竖立东谈主员很难准确测度该模子在特定高下文中的阐明。

AI的商讨东谈主员不雅察到可公开下载的Maverick与LM Arena上托管的模子在行径上存在权臣各异。

而就在今天上昼，仍是有东谈主爆料Llama 4的考验进程存在严重问题！

即Llama 4里面考验屡次仍然莫得达到开源SOTA基准。

Meta的辅导层决定在后考验进程中羼杂多样基准测试集——让Llama 4「背题」以生机在测试中获得「好收获」。

这个爆料的原始开端是「一亩三分地」，字据对话，爆料者很可能来自于Meta公司里面。

对话中提到的Meta AI商讨部副总裁Joelle Pineau也肯求了5月底离职。（不外，也有网友称并非是与Llama4干系）

然而字据Meta的组织架构体系，Pineau是FAIR的副总裁，而FAIR内容上是Meta里面与GenAI全齐孤苦的组织，GenAI才是矜重Llama方法的组织。

GenAI的副总裁是Ahmad Al-Dahle，他并莫得离职。

Llama 4才刚刚发布一天，就出现如斯重磅的音问，让未来显得扑朔迷离。

代码翻车，网友大失所望

在昨天网友的实测中，驳倒如故有好有坏。

然而以前一天进行更多的测试后，更多的网友抒发了对Llama 4的不悦。

在Dr_Karminski的一篇热帖中，他说Llama-4-Maverick——总参数402B的模子——在编码才气方面梗概只可与 Qwen-QwQ-32B异常。

Llama-4-Scout——总参数109B的模子——梗概与Grok-2或Ernie 4.5肖似。

在驳倒中，网友反馈了这个判断。

有东谈主说Llama 4的阐明比Gemma 3 27B还要差。

有东谈主觉得Llama 4的阐明以至和Llama 3.2一样莫得任何罕见，也无法完成写诗。

其他用户在测试后也抒发了相同的不雅点，Llama 4有点不相宜预期。

网友Deedy也抒发了对Llama 4的失望，称其为「一个厄运的编程模子」。

他暗意，Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中阐明不如4o、Gemini Flash、Grok 3、DeepSeek V3和Sonnet 3.5/7。

他还给出了贴出了Llama 4两个模子的一张测试排行，恶果浮现这两个新发布的模子远远莫得达到顶尖的性能。

网友anton说，Llama 4「确凿有点令东谈主失望」。

他暗意我方不会用它来接济编码，而Llama 4的定位有点凄迷。

anton觉得Llama 4的两个模子太大了，不太好腹地部署。他建议Meta应该推出性能优秀的小模子，而不是去追求成为SOTA。

「因为当今他们根底作念不到开云体育。」他写谈。

上一篇：开云体育彩蛋功能：双击剧本可检察剩余激活天数-开云官网登录入口开云app官网入口
下一篇：欧洲杯体育这次看成旨在系念“反念念卢旺达大屠杀国外日”-开云官网登录入口开云app官网入口