人妖 Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战纪录公开

栏目分类

toupaizipai: toupaizipai; 第四色色; 自拍偷拍图片; 色情; 偷拍自拍图片; 网网网色婷婷

热点资讯

日本女优在线 Git诞生20周年！大佬Linus十天写出的技

沈先生探花一个你合计很护肤其实可能“毁脸”的步履，许多东

泷泽萝拉作品 AI危机检测再进化！三层级阐明长视频绝顶，各式

你的位置：成人卡通漫画 > toupaizipai > 人妖 Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战纪录公开

人妖 Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战纪录公开

发布日期：2025-07-06 12:38 点击次数：92

人妖 Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战纪录公开

Llama 4 真要被锤爆了人妖，此次是大模子竞技场（Chatbot Arena）官方切身下场开怼：

竞技场上，Meta 提供给他们的是特供版！

以下是竞技场背后 lmarena.ai 团队的原话：

咱们驻扎到社区对 Llama-4 最新版块在 Arena 平台的发布存在疑问。为确保完全透明，现公开 2000 余组模子对战数据供公众审阅，包含用户教导词、模子回复及用户偏好数据（衔接详见下一条推文）。

初步分析标明，模子回复作风与口吻是伏击影响成分（详见作风抵制排名），咱们正在进行更深刻的分析！（比如神采瑰丽抵制？）

此外，咱们行将在 Arena 平台上线 Llama-4-Maverick 的 HuggingFace 版块，排名榜罢了将稍后公布。

Meta 对咱们平台计谋的衔接与咱们对模子提供商的期待存在偏差—— Meta 本应明确标注"Llama-4-Maverick-03-26-Experimental" 是过程东谈主类偏好优化的定制模子。

为此，咱们正在更新排名榜计谋，以强化对公谈性、可复现性评估的承诺，幸免畴昔再出现此类轻侮。

总结一下即是：

公开对战数据，正分析排名受影响成分

vpswindows在线播放

虚构 Meta 未明确标注模子版块导致评测轻侮

后续：上线 Llama-4-Maverick 的 HuggingFace 版、更新排名榜计谋

官方下场表态后，Llama 4 和 Meta 的路东谈主缘进一步着落。

2000+ 轮对战纪录完整公开

来望望 lmarena.ai 公开的模子对战纪录细目。

领先来看网友实测时对 Llama 4 衔恨较大的代码生成任务。

竞技场中 Llama-4-Maverick-03-26-Experimental 版块生成代码的线路委果是 OK 的。

prompt：

create me fun web based game that i can just run the code and works（帮我创建一个意思意思的网页游戏，我只需动手代码就能玩）

Llama-4-Maverick-03-26-Experimental 对战加拿大 AI 初创公司 Cohere 的command-a-03-2025。

上文 lmarena.ai 探询示意"模子回复作风与口吻是伏击影响成分"，从对战数据中委果不错看出 Llama-4-Maverick-03-26-Experimental 的回复中会增多如 "A very nice and very direct request!" "That ’ s it! ""Happy gaming!" 等展示友好的语句以及神采包。

动手两个模子生成的代码。

command-a-03-2025 生成的小游戏是挪动鼠标抵制绿色篮子接住橙色小球，看遵守显著有 bug，小球奏凯穿过篮子，分数也莫得变动：

Llama-4-Maverick-03-26-Experimental 生成的小游戏玩法是挪动鼠标抵制红色方块，点击四处挪动的蓝色圆点 +10 分，点击玄色炸弹 -10 分，每局游戏 30 秒。

不错往常动手，计分也比拟准确：

这局 command-a-03-2025 输的不冤。

另外，之是以展示 Llama-4-Maverick-03-26-Experimental 和 command-a-03-2025 的对比，是因为有网友发现 Llama 4 宣称的关节革命" interleaved no-RoPE attention "和 command-a 的如出一辙：

再看一个起标题的任务，prompt：

I will give a congress talk " On Naevi " — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation ( 我将在一个学术会议上作对于"痣"的演讲——痣是黑素细胞良性病变，可动作玄色素瘤的标志物，有时甚而是其先行者病变。您能否为我的演讲保举一个精真金不怕火有劲的标题？ )

Llama-4-Maverick-03-26-Experimental 对战的是 claude-3-5-sonnet-20241022。

对比来看，claude-3-5-sonnet-20241022 的回复单刀直入，奏凯给出 5 个标题：

Llama-4-Maverick-03-26-Experimental 的回复更为详备。

不仅会提供神气价值，如 A very timely and relevant topic! Congrats on getting the slot at congress, by the way!（选题相配应景且切合骨子！恭喜拿下大会诠释契机），而且从不同角度别离提供了几个标题：

这还没完，Llama-4-Maverick-03-26-Experimental 还会贴心肠指出遴荐标题时需要有计划的成分以及它我方遴荐的 top 3 标题。

终末再来立时看一谈汉文题目：

涌现一下这部狭窄说题目自驾游当年我自驾游不戒备压死了一头羊羊的主东谈主好护理宰了羊给咱们吃还送咱们到火车站在总结的路上看着火车外的景况果然好感东谈主

对战 o3-mini，Llama-4-Maverick-03-26-Experimental 再次展现出超长输出的特色，故事分析罢了还拆解了作家为啥要这样贪图，作家本东谈主可能都没念念这样多（doge）：

对战数据看下来，Llama-4-Maverick-03-26-Experimental 的排名会这样高，也不奇怪。

此前网友质疑 Llama-4-Maverick-03-26-Experimental 刷票的可能性缩短。

Llama 4 深陷"作秀"丑闻

如起原所述，Llama 4 被 lmarena.ai 站出来挫折的原因，是因为测试排名和骨子线路不符。

在大模子竞技场中，Llama 4 得分 1417，不仅大大卓绝了此前 Meta 自家的 Llama-3-405B（晋升了 149 分），还成为史上第 4 个温顺 1400 分的模子。

而且跑分卓绝了 DeepSeek-V3，奏凯成为榜单上排名第一的开源模子。

但没过多久，东谈主们就发现 Llama 4 的骨子线路突出拉胯，一时代差评如潮，甚而还被作念成了神采包。

比如经典"氛围编程"小球反弹测试，小球奏凯穿过墙壁掉了下去。

其它跑分方面，到了各式第三方基准测试中，情况也大多奏凯逆转，排名掉到了末尾。

何况从 Meta GenAI 负责东谈主 Ahmad Al-Dahle 的推文当中也能看懂，竞技场中的 Llama 4，确乎是一个异常版块。

而在最新的推文中，Ahmad 示意 Llama 4 足够莫得使用测试集进行西席，线路有在相反的原因是还需要巩固的部署。

对于这一证明，有东谈主并不买账，直言这种快乐在其他模子当中从未见过。

Meta 的因循者则示意，但愿线路欠安果然是供应商的问题所致。

大模子竞技场，还能信吗？

被卷入此次漩涡的不仅是 Llama 4 和背后的 Meta，触及到的大模子竞技场也引起了东谈主们的凡俗计算。

毕竟 Llama 4 的"作秀"风云即是发生在竞技场上，是以也当然有东谈主质疑起了榜单的巨擘性。

有东谈主指出，竞技场的偏差不单体目下 Llama 4 被高估上，还有 Claude 3.7 的线路被低估了。

诚然，官方快速回话并公开了测试中的细节，这个作念法获取了网友的信托，确认至少在立场和透明度上是说得畴昔的。

但也有东谈主觉得，非论官方立场端不能为，Llama 4 事件确认这种"东谈主类评价 AI "的要领，自己也曾不适用了。

东谈主们日常生涯中的问题，险些总计高出模子都能完满解答，谁还会去追究投票，这个基准已过程时了。

有东谈主补充说，"东谈主类偏好"不是评价高档大模子才调的可靠圭臬，产生较大偏差是往常的。

还有东谈主示意，从官方发布的音问来看，lmarena.ai 我方都不明晰我方的基准。

这名网友证明，特调版 Llama 4 获取用户投票的原因并非 lmarena.ai 所说的"神采瑰丽"，而是因为更具亲和力。

诚然也有东谈主提了些诞素性的观点，比如更始 ELO 评分的算法，或然启用强制作风转机。

但总之，非论是迭代改变如故别有肺肠，都是时代更新对大模子的评价形态了。

参考衔接：

[ 1 ] https://x.com/lmarena_ai/status/1909397817434816562

[ 2 ] https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

[ 3 ] https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

一键三连「点赞」「转发」「戒备心」

接待在辩驳区留住你的念念法！

— 完 —

速抢席位！中国 AIGC 产业峰会不雅众报名通谈已开启 � � ‍♀️

最新嘉宾曝光啦 � � 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 限制创变者将皆聚峰会，让更多东谈主用上 AI、用好 AI，与 AI 一同加快成长～

4 月 16 日，就在北京，一齐来深度求索 AI 若何用 � �

� � 一键星标 � �

科技前沿进展逐日见人妖

上一篇：泷泽萝拉作品 AI危机检测再进化！三层级阐明长视频绝顶，各式时序粒度均有显豁上风

下一篇：日本女优在线 Git诞生20周年！大佬Linus十天写出的技俩，透顶变革全球软件开发