成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給張進(jìn)
    發(fā)送

    0

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    本文作者: 張進(jìn) 2023-12-14 16:16
    導(dǎo)語:國產(chǎn)開源大模型,有戲!

    【雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息】上周五,全球最大的開源大模型社區(qū)Hugging Face公布了最新的開源大模型排行榜,阿里云通義千問Qwen-72B表現(xiàn)搶眼,以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,超越Llama2登頂榜首。

     

    Hugging Face的開源大模型排行榜(Open LLM Leaderboard)是目前大模型領(lǐng)域最具權(quán)威性的榜單,收錄了全球上百個(gè)開源大模型,測試維度涵蓋閱讀理解、邏輯推理、數(shù)學(xué)計(jì)算、事實(shí)問答等六大測評。 

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2 

    通義千問(Qwen-72B)是基于3Ttokens數(shù)據(jù)訓(xùn)練而成,同時(shí)也在10個(gè)權(quán)威基準(zhǔn)測評中奪得開源模型最優(yōu)成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

     

    這是一個(gè)激動(dòng)人心的時(shí)刻,從Llama2開源可商用,迄今5個(gè)月,國產(chǎn)大模型開源終于有一個(gè)能追上Llama2,大模型開源領(lǐng)域終于不再是Llama2獨(dú)領(lǐng)風(fēng)騷的時(shí)代,國產(chǎn)大模型開源也由此進(jìn)入新時(shí)代。

     

    多個(gè)單項(xiàng)成績斷層領(lǐng)先其他開源模型

     

    從Hugging Face官網(wǎng)公布的開源大模型排行榜(Open LLM Leaderboard)來看,他們是從ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K來對當(dāng)前的開源大模型進(jìn)行測試評估。

     

    從上述截圖我們可以看到通義千問Qwen-72B在多個(gè)測評中斷層領(lǐng)先其他開源模型,其中MMLU、TruthfulQA、GSM8K三個(gè)維度的得分遠(yuǎn)超Llama-2-70B,分別得分為77.37、60.19、70.43,而Llama-2-70B的得分分別是69.83、44.94、54.06。

     

    Qwen-72B得分最高的三大測評:MMLU考察模型的世界知識(shí)和語言能力,綜合評測LLM的英文綜合能力和知識(shí)能力;GSM8K考察的是模型的數(shù)學(xué)推理和計(jì)算關(guān)系大模型的數(shù)學(xué)推理能力;TruthfulQA考察模型的常識(shí)問答關(guān)系模型的常識(shí)能力、抗幻覺能力、問答能力等。

     

    而在其他測評ARC、HellaSwag、Winogrande中,通義千問Qwen-72B與Llama-2-70B的差距僅有1、2分之差。

     

    ARC考察模型閱讀理解,這個(gè)能力關(guān)系大模型的語言理解、文檔問答、工具調(diào)用能力;WinoGrande考察模型的語言推理、指代理解關(guān)系大模型的語言理解、語言推理、指代消歧等能力;Hellaswag考察模型的常識(shí)和語言推理關(guān)系模型的常識(shí)和語言推理能力。

     

    最終Qwen-72B以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一,在這之前,該榜單長期被Meta的Llama2占領(lǐng)。同時(shí),除了阿里云開的通義千問、Meta的Llama2,榜單上還出現(xiàn)了幻方量化的deepseek-67B、零一萬物的Yi-34B、百川的baichuan2-13B等中國開源大模型。

     

    國產(chǎn)開源大模型勢頭正猛。

     

    在評分之外,我們用一道高考數(shù)學(xué)題來粗略測試下Qwen-72B的表現(xiàn),發(fā)現(xiàn)Qwen-72B解題思路清晰,計(jì)算結(jié)果準(zhǔn)確:

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    同時(shí),還問了它一道外國人看了頭大、極具中國語言特色的復(fù)雜語義理解題,沒想到Qwen-72B居然深刻理解了中國式的職場“拉扯”:

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    在復(fù)雜邏輯推理上,表現(xiàn)同樣不錯(cuò):

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    不僅如此,通義千問一經(jīng)發(fā)布,在國外引起了廣泛討論,不少國內(nèi)外開發(fā)者進(jìn)行了測試和應(yīng)用,實(shí)際使用體驗(yàn)在某些領(lǐng)域還超過了GPT-4:

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    為什么Qwen-72B能有這么出色的性能表現(xiàn)?

     

    眾所周知,一個(gè)優(yōu)質(zhì)的模型首先離不開團(tuán)隊(duì)強(qiáng)大的研發(fā)能力,通義千問團(tuán)隊(duì)在國內(nèi)互聯(lián)網(wǎng)公司中最早探索大模型,據(jù)稱是阿里全力投入打造的團(tuán)隊(duì);其次,通義千問背靠阿里云,在AI算力基礎(chǔ)設(shè)施上擁有充足補(bǔ)給;還很重要的是,通義千問一直在奮力發(fā)展自己的開源生態(tài),來自應(yīng)用場景和開源社區(qū)的反饋能幫助研發(fā)團(tuán)隊(duì)不斷優(yōu)化基礎(chǔ)模型。


    具體到Qwen-72B模型的訓(xùn)練,通義千問利用多達(dá)43T的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,折合7Ttokens(目前訓(xùn)練完成3Ttokens,還在持續(xù)進(jìn)行),涵蓋近20種語言,覆蓋網(wǎng)頁、新聞、書籍、數(shù)學(xué)、代碼及各個(gè)垂類領(lǐng)域,如金融、法律、醫(yī)療等等。


    綜合利用了dp、tp、pp、sp等方法進(jìn)行大規(guī)模分布式并行訓(xùn)練,引入flashattentionv2等高效算子提升訓(xùn)練速度。借助阿里云人工智能平臺(tái)PAI的拓?fù)涓兄{(diào)度機(jī)制,有效降低了大規(guī)模訓(xùn)練時(shí)通信成本,將訓(xùn)練速度提高30%。

     

    在訓(xùn)練穩(wěn)定性方面,模型訓(xùn)練過程中,通義千問團(tuán)隊(duì)通過PAI平臺(tái)AiMaster管理組件監(jiān)控作業(yè)的日志/報(bào)錯(cuò)/metric等信息,區(qū)分用戶錯(cuò)誤和系統(tǒng)錯(cuò)誤,根據(jù)作業(yè)類型和容錯(cuò)場景提供管理能力和全鏈路自動(dòng)化運(yùn)維能力,自動(dòng)剔除故障機(jī)器重啟任務(wù),使訓(xùn)練過程中人工干預(yù)重啟頻率由日降低到周。


    Qwen-72B上場,Llama2走下神壇

     

    從今年7月Meta宣布Llama2開源可商用以來,Llama2便一直站在全球大模型開源的神壇上,它更是國產(chǎn)大模型早期蓬勃發(fā)展的救星,元象唯思的創(chuàng)始人姚星曾對AI科技評論吐露真言,國內(nèi)大部分大模型都是基于Llama開源來做的訓(xùn)練,他認(rèn)為沒有 Llama 開源,中國的大模型探索可能還要走很長一段路。

     

    但這背后也要國內(nèi)開發(fā)者承擔(dān)許多“屈辱”,一位大模型公司的CEO曾無奈地告訴AI科技評論,Llama2的中文能力很差。

     

    由于此,一些基于Llama2做垂直行業(yè)模型的廠商曾告訴我們,他們要用Llama2必須得先跟國內(nèi)做Llama2中文化的公司合作,不能直接用Llama2去做訓(xùn)練。

     

    而且Llama2對中國很不友好,在Llama2的開源協(xié)議里強(qiáng)調(diào)了English tended,其他地區(qū)illegal,意思就是中國拿它來做中文的大模型和應(yīng)用是不合法的,但國內(nèi)又必須得用。

     

    因?yàn)樵谕x千問Qwen-72B發(fā)布之前,我們并沒有能跟Llama2比肩的開源大模型,很長一段時(shí)間Llama2無與爭鋒。

     

    由于各大模型廠商選擇了“小參數(shù)用來開源,大參數(shù)拿來商業(yè)化”的策略,導(dǎo)致國內(nèi)大模型開源一直停留在14B,所以國產(chǎn)開源大模型看似越來越卷,實(shí)則中國大模型市場還沒有出現(xiàn)足以對標(biāo)Llama-2-70B的優(yōu)質(zhì)開源模型。

     

    但很多開發(fā)者曾對AI科技評論表示,雖然大模型開源非常豐富,但他們能真正用起來的不多。在一些領(lǐng)域,例如金融行業(yè)、醫(yī)療行業(yè),以及一些科研機(jī)構(gòu),14B其實(shí)是遠(yuǎn)遠(yuǎn)不夠的。

     

    直到11月、12月,開源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陸續(xù)拋出,國產(chǎn)開源似乎有了新進(jìn)展,真正跨入了“追趕Llama2”的時(shí)代。

     

    而Qwen-72B登頂Hugging Face榜首,超過Llama2這一事件,意味著國產(chǎn)大模型開源開始參與全球競爭,同時(shí),Qwen-72B的出現(xiàn)填補(bǔ)了中國大模型開源長期被Llama2所占據(jù)的空白領(lǐng)域。

     

    個(gè)人開發(fā)者、中國能源建設(shè)集團(tuán)浙江省電力設(shè)計(jì)院有限公司系統(tǒng)室專工陶佳,他在想要做大模型應(yīng)用時(shí)遇到的困境應(yīng)該是國內(nèi)大多數(shù)開發(fā)者都會(huì)遇到的:國外的模型,如閉源的如OpenAI能力是很強(qiáng),但是API調(diào)用不便,而且我們這種B端用戶更喜歡自己上手定制,API能做的事還是太少;開源的比如Llama2,但是中文能力一般。

     

    他試了幾款,試下來通義千問是最好的。“準(zhǔn)確,而且‘手感’很好,沒有那些稀奇古怪的 bug”,他說。

     

    有鹿機(jī)器人公司正在研發(fā)第二代具身智能技術(shù)LPLM大模型,LPLM是融合了LLM大語言模型和物理世界大模型。在創(chuàng)始人、CEO陳俊波看來,LLM本身是一個(gè)偏慢速的、邏輯推理的、有比較完整的結(jié)構(gòu)性思考的智能系統(tǒng),而物理世界大模型是一個(gè)更偏實(shí)時(shí)響應(yīng)、偏直覺的一套思維過程,比方說人類怎么去感知這個(gè)世界,怎么去對這個(gè)世界做預(yù)判,以及怎么去規(guī)劃我們整個(gè)動(dòng)作思維。LPLM融合了這兩個(gè)系統(tǒng),使它們能夠很好地配合跟協(xié)作,能夠從人類的高層的指令理解、到拆解、再到底層對物理世界進(jìn)行理解和規(guī)劃。

     

    他們把市面上能找到的大模型都做過實(shí)驗(yàn),最后選擇了通義千問,創(chuàng)始人、CEO陳俊波認(rèn)為原因主要有以下幾點(diǎn):

    第一,它是目前至少在中文領(lǐng)域能找到的智能性表現(xiàn)最好的開源大模型之一。

    第二,它提供了非常方便的工具鏈,可以在他們自己的數(shù)據(jù)上快速地去做finetune和各種各樣的實(shí)驗(yàn)。

    第三,它提供了一個(gè)特式量化的模型,量化前跟量化后基本上沒有掉點(diǎn),這對我們來說非常有吸引力,因?yàn)槲覀冃枰阉渴鹪谝粋€(gè)嵌入式的設(shè)備上。

     

    不僅如此,國外一些網(wǎng)友也對Qwen-72B等國產(chǎn)大模型表達(dá)了驚嘆:

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2


    后記

     

    通義千問還開源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio,至此,通義千問共開源了18億、70億、140億、720億參數(shù)的4款大語言模型,以及視覺理解、音頻理解兩款多模態(tài),是業(yè)界首個(gè)“全尺寸、全模態(tài)”開源大模型。

     

    阿里云CTO周靖人表示,開源生態(tài)對促進(jìn)中國大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要,通義千問將持續(xù)投入開源,希望成為“AI時(shí)代最開放的大模型”,與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。

     

    開源、開放成為阿里在大模型領(lǐng)域頻頻提到的關(guān)鍵詞,開源Qwen-72B就是其最好的態(tài)度展示。

     

    Meta全球事務(wù)主管Nick Clegg曾這樣評價(jià)開源:開源是消除AI相關(guān)恐懼的最佳解藥,開源有助于Meta追趕競爭對手。

     

    正如業(yè)內(nèi)人普遍認(rèn)同的,未來90%的企業(yè)會(huì)傾向于基于開源大模型發(fā)展,依托于開源生態(tài)。

     

    如今,有了Qwen-72B的開源,國內(nèi)大模型也能接上Llama2的步伐,允許各種規(guī)模的公司在Qwen-72B上改進(jìn)這項(xiàng)技術(shù),并在其上構(gòu)建應(yīng)用程序。

     

    7月,Llama2開源蓬勃了全球大模型發(fā)展,12月,通義千問Qwen-72B開源,使得國產(chǎn)開發(fā)者不再“求外”。


    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    通義千問登頂Hugging Face榜首,國產(chǎn)開源大模型趕超Llama2

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說