通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

本文作者：張進(jìn)

2023-12-14 16:16

導(dǎo)語：國產(chǎn)開源大模型，有戲！

【雷峰網(wǎng)(公眾號：雷峰網(wǎng))消息】上周五，全球最大的開源大模型社區(qū)Hugging Face公布了最新的開源大模型排行榜，阿里云通義千問Qwen-72B表現(xiàn)搶眼，以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一，超越Llama2登頂榜首。

Hugging Face的開源大模型排行榜（Open LLM Leaderboard）是目前大模型領(lǐng)域最具權(quán)威性的榜單，收錄了全球上百個(gè)開源大模型，測試維度涵蓋閱讀理解、邏輯推理、數(shù)學(xué)計(jì)算、事實(shí)問答等六大測評。

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

通義千問（Qwen-72B）是基于3Ttokens數(shù)據(jù)訓(xùn)練而成，同時(shí)也在10個(gè)權(quán)威基準(zhǔn)測評中奪得開源模型最優(yōu)成績，在部分測評中超越閉源的GPT-3.5和GPT-4。

這是一個(gè)激動(dòng)人心的時(shí)刻，從Llama2開源可商用，迄今5個(gè)月，國產(chǎn)大模型開源終于有一個(gè)能追上Llama2，大模型開源領(lǐng)域終于不再是Llama2獨(dú)領(lǐng)風(fēng)騷的時(shí)代，國產(chǎn)大模型開源也由此進(jìn)入新時(shí)代。

多個(gè)單項(xiàng)成績斷層領(lǐng)先其他開源模型

從Hugging Face官網(wǎng)公布的開源大模型排行榜（Open LLM Leaderboard）來看，他們是從ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K來對當(dāng)前的開源大模型進(jìn)行測試評估。

從上述截圖我們可以看到通義千問Qwen-72B在多個(gè)測評中斷層領(lǐng)先其他開源模型，其中MMLU、TruthfulQA、GSM8K三個(gè)維度的得分遠(yuǎn)超Llama-2-70B，分別得分為77.37、60.19、70.43，而Llama-2-70B的得分分別是69.83、44.94、54.06。

Qwen-72B得分最高的三大測評：MMLU考察模型的世界知識(shí)和語言能力，綜合評測LLM的英文綜合能力和知識(shí)能力；GSM8K考察的是模型的數(shù)學(xué)推理和計(jì)算關(guān)系大模型的數(shù)學(xué)推理能力；TruthfulQA考察模型的常識(shí)問答關(guān)系模型的常識(shí)能力、抗幻覺能力、問答能力等。

而在其他測評ARC、HellaSwag、Winogrande中，通義千問Qwen-72B與Llama-2-70B的差距僅有1、2分之差。

ARC考察模型閱讀理解，這個(gè)能力關(guān)系大模型的語言理解、文檔問答、工具調(diào)用能力；WinoGrande考察模型的語言推理、指代理解關(guān)系大模型的語言理解、語言推理、指代消歧等能力；Hellaswag考察模型的常識(shí)和語言推理關(guān)系模型的常識(shí)和語言推理能力。

最終Qwen-72B以73.6的綜合得分在所有預(yù)訓(xùn)練模型中排名第一，在這之前，該榜單長期被Meta的Llama2占領(lǐng)。同時(shí)，除了阿里云開的通義千問、Meta的Llama2，榜單上還出現(xiàn)了幻方量化的deepseek-67B、零一萬物的Yi-34B、百川的baichuan2-13B等中國開源大模型。

國產(chǎn)開源大模型勢頭正猛。

在評分之外，我們用一道高考數(shù)學(xué)題來粗略測試下Qwen-72B的表現(xiàn)，發(fā)現(xiàn)Qwen-72B解題思路清晰，計(jì)算結(jié)果準(zhǔn)確:

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

同時(shí)，還問了它一道外國人看了頭大、極具中國語言特色的復(fù)雜語義理解題，沒想到Qwen-72B居然深刻理解了中國式的職場“拉扯”：

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

在復(fù)雜邏輯推理上，表現(xiàn)同樣不錯(cuò)：

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

不僅如此，通義千問一經(jīng)發(fā)布，在國外引起了廣泛討論，不少國內(nèi)外開發(fā)者進(jìn)行了測試和應(yīng)用，實(shí)際使用體驗(yàn)在某些領(lǐng)域還超過了GPT-4：

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

為什么Qwen-72B能有這么出色的性能表現(xiàn)？

眾所周知，一個(gè)優(yōu)質(zhì)的模型首先離不開團(tuán)隊(duì)強(qiáng)大的研發(fā)能力，通義千問團(tuán)隊(duì)在國內(nèi)互聯(lián)網(wǎng)公司中最早探索大模型，據(jù)稱是阿里全力投入打造的團(tuán)隊(duì)；其次，通義千問背靠阿里云，在AI算力基礎(chǔ)設(shè)施上擁有充足補(bǔ)給；還很重要的是，通義千問一直在奮力發(fā)展自己的開源生態(tài)，來自應(yīng)用場景和開源社區(qū)的反饋能幫助研發(fā)團(tuán)隊(duì)不斷優(yōu)化基礎(chǔ)模型。

具體到Qwen-72B模型的訓(xùn)練，通義千問利用多達(dá)43T的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練，折合7Ttokens（目前訓(xùn)練完成3Ttokens，還在持續(xù)進(jìn)行），涵蓋近20種語言，覆蓋網(wǎng)頁、新聞、書籍、數(shù)學(xué)、代碼及各個(gè)垂類領(lǐng)域，如金融、法律、醫(yī)療等等。

綜合利用了dp、tp、pp、sp等方法進(jìn)行大規(guī)模分布式并行訓(xùn)練，引入flashattentionv2等高效算子提升訓(xùn)練速度。借助阿里云人工智能平臺(tái)PAI的拓?fù)涓兄{(diào)度機(jī)制，有效降低了大規(guī)模訓(xùn)練時(shí)通信成本，將訓(xùn)練速度提高30%。

在訓(xùn)練穩(wěn)定性方面，模型訓(xùn)練過程中，通義千問團(tuán)隊(duì)通過PAI平臺(tái)AiMaster管理組件監(jiān)控作業(yè)的日志/報(bào)錯(cuò)/metric等信息，區(qū)分用戶錯(cuò)誤和系統(tǒng)錯(cuò)誤，根據(jù)作業(yè)類型和容錯(cuò)場景提供管理能力和全鏈路自動(dòng)化運(yùn)維能力，自動(dòng)剔除故障機(jī)器重啟任務(wù)，使訓(xùn)練過程中人工干預(yù)重啟頻率由日降低到周。

Qwen-72B上場，Llama2走下神壇

從今年7月Meta宣布Llama2開源可商用以來，Llama2便一直站在全球大模型開源的神壇上，它更是國產(chǎn)大模型早期蓬勃發(fā)展的救星，元象唯思的創(chuàng)始人姚星曾對AI科技評論吐露真言，國內(nèi)大部分大模型都是基于Llama開源來做的訓(xùn)練，他認(rèn)為沒有 Llama 開源，中國的大模型探索可能還要走很長一段路。

但這背后也要國內(nèi)開發(fā)者承擔(dān)許多“屈辱”，一位大模型公司的CEO曾無奈地告訴AI科技評論，Llama2的中文能力很差。

由于此，一些基于Llama2做垂直行業(yè)模型的廠商曾告訴我們，他們要用Llama2必須得先跟國內(nèi)做Llama2中文化的公司合作，不能直接用Llama2去做訓(xùn)練。

而且Llama2對中國很不友好，在Llama2的開源協(xié)議里強(qiáng)調(diào)了English tended，其他地區(qū)illegal，意思就是中國拿它來做中文的大模型和應(yīng)用是不合法的，但國內(nèi)又必須得用。

因?yàn)樵谕x千問Qwen-72B發(fā)布之前，我們并沒有能跟Llama2比肩的開源大模型，很長一段時(shí)間Llama2無與爭鋒。

由于各大模型廠商選擇了“小參數(shù)用來開源，大參數(shù)拿來商業(yè)化”的策略，導(dǎo)致國內(nèi)大模型開源一直停留在14B，所以國產(chǎn)開源大模型看似越來越卷，實(shí)則中國大模型市場還沒有出現(xiàn)足以對標(biāo)Llama-2-70B的優(yōu)質(zhì)開源模型。

但很多開發(fā)者曾對AI科技評論表示，雖然大模型開源非常豐富，但他們能真正用起來的不多。在一些領(lǐng)域，例如金融行業(yè)、醫(yī)療行業(yè)，以及一些科研機(jī)構(gòu)，14B其實(shí)是遠(yuǎn)遠(yuǎn)不夠的。

直到11月、12月，開源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陸續(xù)拋出，國產(chǎn)開源似乎有了新進(jìn)展，真正跨入了“追趕Llama2”的時(shí)代。

而Qwen-72B登頂Hugging Face榜首，超過Llama2這一事件，意味著國產(chǎn)大模型開源開始參與全球競爭，同時(shí)，Qwen-72B的出現(xiàn)填補(bǔ)了中國大模型開源長期被Llama2所占據(jù)的空白領(lǐng)域。

個(gè)人開發(fā)者、中國能源建設(shè)集團(tuán)浙江省電力設(shè)計(jì)院有限公司系統(tǒng)室專工陶佳，他在想要做大模型應(yīng)用時(shí)遇到的困境應(yīng)該是國內(nèi)大多數(shù)開發(fā)者都會(huì)遇到的：國外的模型，如閉源的如OpenAI能力是很強(qiáng)，但是API調(diào)用不便，而且我們這種B端用戶更喜歡自己上手定制，API能做的事還是太少；開源的比如Llama2，但是中文能力一般。

他試了幾款，試下來通義千問是最好的。“準(zhǔn)確，而且‘手感’很好，沒有那些稀奇古怪的 bug”，他說。

有鹿機(jī)器人公司正在研發(fā)第二代具身智能技術(shù)LPLM大模型，LPLM是融合了LLM大語言模型和物理世界大模型。在創(chuàng)始人、CEO陳俊波看來，LLM本身是一個(gè)偏慢速的、邏輯推理的、有比較完整的結(jié)構(gòu)性思考的智能系統(tǒng)，而物理世界大模型是一個(gè)更偏實(shí)時(shí)響應(yīng)、偏直覺的一套思維過程，比方說人類怎么去感知這個(gè)世界，怎么去對這個(gè)世界做預(yù)判，以及怎么去規(guī)劃我們整個(gè)動(dòng)作思維。LPLM融合了這兩個(gè)系統(tǒng)，使它們能夠很好地配合跟協(xié)作，能夠從人類的高層的指令理解、到拆解、再到底層對物理世界進(jìn)行理解和規(guī)劃。

他們把市面上能找到的大模型都做過實(shí)驗(yàn)，最后選擇了通義千問，創(chuàng)始人、CEO陳俊波認(rèn)為原因主要有以下幾點(diǎn)：

第一，它是目前至少在中文領(lǐng)域能找到的智能性表現(xiàn)最好的開源大模型之一。

第二，它提供了非常方便的工具鏈，可以在他們自己的數(shù)據(jù)上快速地去做finetune和各種各樣的實(shí)驗(yàn)。

第三，它提供了一個(gè)特式量化的模型，量化前跟量化后基本上沒有掉點(diǎn)，這對我們來說非常有吸引力，因?yàn)槲覀冃枰阉渴鹪谝粋€(gè)嵌入式的設(shè)備上。

不僅如此，國外一些網(wǎng)友也對Qwen-72B等國產(chǎn)大模型表達(dá)了驚嘆：

通義千問登頂Hugging Face榜首，國產(chǎn)開源大模型趕超Llama2

后記

通義千問還開源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio，至此，通義千問共開源了18億、70億、140億、720億參數(shù)的4款大語言模型，以及視覺理解、音頻理解兩款多模態(tài)，是業(yè)界首個(gè)“全尺寸、全模態(tài)”開源大模型。

阿里云CTO周靖人表示，開源生態(tài)對促進(jìn)中國大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要，通義千問將持續(xù)投入開源，希望成為“AI時(shí)代最開放的大模型”，與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。

開源、開放成為阿里在大模型領(lǐng)域頻頻提到的關(guān)鍵詞，開源Qwen-72B就是其最好的態(tài)度展示。

Meta全球事務(wù)主管Nick Clegg曾這樣評價(jià)開源：開源是消除AI相關(guān)恐懼的最佳解藥，開源有助于Meta追趕競爭對手。

正如業(yè)內(nèi)人普遍認(rèn)同的，未來90%的企業(yè)會(huì)傾向于基于開源大模型發(fā)展，依托于開源生態(tài)。

如今，有了Qwen-72B的開源，國內(nèi)大模型也能接上Llama2的步伐，允許各種規(guī)模的公司在Qwen-72B上改進(jìn)這項(xiàng)技術(shù)，并在其上構(gòu)建應(yīng)用程序。

7月，Llama2開源蓬勃了全球大模型發(fā)展，12月，通義千問Qwen-72B開源，使得國產(chǎn)開發(fā)者不再“求外”。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張進(jìn)

主筆

發(fā)私信

當(dāng)月熱門文章