成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    本文作者: 鄭佳美   2025-04-23 10:44
    導語:被 AI 快速重塑的時代,真實性與信任比排名更重要。

    昨天一早,Meta 了放出自家用了 20 萬顯卡集群訓練出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消息一出,直接引爆了大模型圈。

    Meta 還特意強調,這些模型都經(jīng)過了大量未標注的文本、圖像和視頻數(shù)據(jù)的訓練,視覺理解能力已經(jīng)到了 Next level,有種在大模型領域一騎絕塵的既視感。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    Meta GenAI 負責人 Ahmad Al-Dahle 也表示:“我們的開放系統(tǒng)將產(chǎn)出最好的小型、中型和即將出現(xiàn)的前沿大模型。”并附上了一張 Llama 4 的性能對比測試圖。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    緊接著,在大模型競技場中 Llama 4 Maverick 的排名直接躍升到第二名,成為了第 4 個突破 1400 分的大模型。在開放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

    “首次采用 MoE 架構”、“千萬 token 上下文”...一時間 Llama 4 就被貼滿了各種 Title。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    但在一片贊美和吹捧聲中,很快就有心細的網(wǎng)友發(fā)現(xiàn)了不對勁。這位網(wǎng)友用頭段時間在 ? 上很火的讓模型直出幾何程序的方式來測試 Llama 4,但最終的結果是在畫六角形內(nèi)含一個受重力影響球的集合圖像時,Llama 4 試了 8 次也錯了 8 次,而反觀 DeepSeek R1 和 Gemini 2.5 pro 則是一次正確。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    也有網(wǎng)友表示對 Llama 4 的表現(xiàn)感到非常失望。按照以往慣例,更新了版本號的模型在性能上應該有很大的突破,而 Meta 憋了這么久才舍得放出來的 Llama 4 非但沒有進步,在測試中的表現(xiàn)還不如一些現(xiàn)有的大模型。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    還有網(wǎng)友非常貼心的給出 Llama 4 系列的模型能力找了個參照物:“Llama 4 maverick 這個 402B 的大模型,大概跟 Qwen QwQ 32B 寫代碼水平一致,而 Llama 4 scout 則近似于 Grok2 或者 文心 4.5。”

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    Llama 4:超級刷榜選手

    在官方給出的數(shù)據(jù)中,Llama 4 的能力妥妥碾壓了一眾大模型,但在網(wǎng)友們的實際測試中,Llama 4 卻顯得很拉跨,越測越覺得離譜的網(wǎng)友們不由得懷疑,扎克伯格是不是給自家模型偷偷刷榜了?

    經(jīng)過網(wǎng)友們的多方證實,最后發(fā)現(xiàn),嘿!還真是刷的。

    其實如果認真看 Ahmad Al-Dahle 發(fā)布的 Llama 性能對比測試圖最下面一行的小字,你就會發(fā)現(xiàn)上面寫著“Llama 4 Maverick 針對對話進行了優(yōu)化”,而 Meta 其實早就給自己留了個“圖片僅供參考,一切以實物為準”的心眼。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    除了破解 Meta 官方的字謎游戲外,網(wǎng)友們也帶著 Llama 4 進出于各大測試榜單中。

    他們先是把 Llama 4 拉到了著名的 code 測試榜單 Aider ployglot 中,最終的得分比 qwen-32B還低。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    在另一個代碼評測榜單中,Llama 4 的成績也只能排在中間位置。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    除此之外,網(wǎng)友們發(fā)現(xiàn)在 EQBench 測評基準的長文章寫作榜上,Llama 4 系列也是直接墊底。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    而即使是最基礎的翻譯任務,網(wǎng)友們也表示 Llama 4 的表現(xiàn)也是比 3.3 的 70b 還要差得多,甚至還不如 Gemma 3 的 27B。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    混亂的 Meta

    正在網(wǎng)友們風風火火測評 Llama 4 的真實成績時,一則發(fā)布在海外的求職平臺一畝三分地上的內(nèi)容更是直接給Llama 4 的作弊傳聞填了一把柴。

    文中提到 Llama 4 的訓練存在嚴重問題,并且內(nèi)部模型的表現(xiàn)仍然未能達到開源 SOTA,甚至與之相差甚遠,而  Llama 4 的高分也確實是領導層為了能夠在各項指標上交差所做出的“努力”。而這個則消息的爆料者,很可能來自 Meta 公司內(nèi)部。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    除此之外也有其他的 AI 從業(yè)者在線吐槽,表示“我們都被耍了,Llama 4 不過是一個早早被設計好的實驗版本。”

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    還有前 Meta 員工站出來指出公司在產(chǎn)品研發(fā)方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露問題其實從 Llama 1 就已經(jīng)存在了。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    而在 Llama 4 發(fā)布的幾天前,Meta AI 研究副總裁 Joelle Pineau 就在 Linkedin 發(fā)文稱自己已經(jīng)申請將在 5 月份離職,不由得讓人們將這件事與 Llama 4 作弊刷榜的事情聯(lián)系到一起。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    不少人疑惑,為什么一向崇尚“大力出奇跡”的 Meta 這次的翻車力度這么大,明明有錢、有卡、有數(shù)據(jù),但模型創(chuàng)新能力依舊不足,還要靠作弊刷榜來找存在感?

    一個坊間流傳的觀點是,Meta內(nèi)部研究人員壓力過大,因為他們需要做出成果,給公司一個好的交代,因此會求穩(wěn),更加偏向于更能做出成果的事情,而真正重要的內(nèi)容,比如基礎設施的迭代、新算法的實驗,這些需要大量時間去做出成果的內(nèi)容,卻往往沒有人愿意去做。

    這也導致了 Meta 很難在大模型市場上繼續(xù)做出向 DeepSeek R1 這樣轟動整個 AI 領域的東西,而還沒有發(fā)布的超大杯 2T 參數(shù)模型也應證著這個觀點:Meta 其實還沒有更好的想法。

    反觀以研究為導向的 DeepSeek,其實一直在探索新的架構。DeepSeek 團隊先是提出了強化學習里的神奇算法 GRPO,緊接著在 DeepSeek v2 時提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后來發(fā)布的全新注意力架構 NSA 更是實現(xiàn)了超高速長上下文訓練與推理。

    回到 Llama 4  這邊,根據(jù)AI科技評論的了解,對大模型架構有研究的專業(yè)人士認為,Llama 4 非常缺乏技術創(chuàng)新,比如說,在后訓練階段還在死守DPO。而此前的一系列理論和實驗都表明 DPO 的泛化能力,“比PPO差得遠”。PPO在實際使用中需要調的細節(jié)很多,不易上手。在DeepSeek提出GRPO以后,越來越多的研究者開始使用GRPO及其改版。 Meta 還繼續(xù)堅持用著 DPO 而不選擇創(chuàng)新,這么來看 Llama 4 做成如此也屬于意料之中。

    常人沒法用,專家用不著

    而最讓人失望的是,Llama 4 系列的模型都無法放入家用電腦,并且 Llama 4 除了一直在宣傳的 10M 上下窗口外,貌似已經(jīng)沒有任何優(yōu)勢,而這一點對于大多數(shù)人來說其實并不是必需的內(nèi)容。

    除此之外,GPT 4o, Gemini 2.5 Pro 這些擁有生圖能力的模型型號已經(jīng)正式推出,而 Grok3、Gemini 2 Flash 等多模態(tài)模型也已經(jīng)開始廣泛開放,這也意味著更多的人沒有再用 Llama 4 的理由,或者說,Llama 4 本身沒有太強的市場競爭力。

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    反觀這次 Llama 4 的翻車事件,不難看出其實 Llama 4 系列模型很可能是 Meta 在追趕大模型潮流的戰(zhàn)略布局中的一枚重要棋子,但卻因為太過于“急功近利”而選擇作弊,導致直接失去了社區(qū)的支持,進而失去了自身的競爭優(yōu)勢。

    并且 Llama 2、Llama 3 的時代已經(jīng)過去,選擇 Llama 作為基座的開源模型只會越來越少,雷峰網(wǎng)(公眾號:雷峰網(wǎng))認為對于 Meta 來說,與其選擇作弊刷榜博眼球,不如想想如何創(chuàng)新,如何提高社區(qū)適用度,能不能追上最前端的技術暫且放一邊,最重要的是先把口碑先賺回來。


    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

    Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

    分享:
    相關文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說