10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

本文作者：貝爽

2021-06-01 20:16

導語：新一代人工智能已經邁向“煉大模型”的時代。

新一代人工智能已經邁向“煉大模型”的時代。這一切源于GPT-3的橫空出世，這個具有1750億的參數的通用預訓練模型不僅帶來了超乎想象的生成能力，更讓人們看到了“超大模型”實現通用人工智能的潛力。

2021年1月，距離GPT-3問世不足一年，Google重磅推出Switch Transformer模型，將參數量提升到1.6萬億，成為人類歷史上首個萬億級語言模型。然而，人們對預訓練語言模型的想象遠不止如此，隨著算力的提升，大數據的涌現，越來越多學術機構和企業加入”煉大模型“的行列，在這場激烈的軍備賽中，誰將成為下一位贏家？

6月1日，2021北京智源大會在中關村國家自主創新示范區會議中心如期拉開大幕，開幕式上，清華大學教授，智源研究院學術副院長唐杰重磅發布了超大規模智能模型“悟道2.0”。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

經過近三個月的技術迭代，悟道2.0參數量達到1.75萬億，創下全球最大預訓練語言模型記錄。

唐杰教授表示，“悟道”超大模型智能模型旨在打造數據和知識雙輪驅動的認知智能，讓機器能夠像人一樣思考，實現超越圖靈測試的機器認知能力。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

“悟道”由智源研究院學術副院長、清華大學唐杰教授領銜，帶領來自北大、清華、人大、中科院等高校院所，以及阿里等諸多企業的100余位AI專家共同研發，是國內首個超大預訓練語言模型系統。

本次發布的“悟道2.0”實現了“大而聰明”，具備大規模、高精度、高效率的特點。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

與悟道1.0相比，“悟道2.0”不僅在模型規模上實現了萬億級參數的跨越，還在世界公認的9項 Benchmark 上達到了世界第一，在多項基準測試中超越OpenAI GPT-3、DALL·E以及Google ALIGN等先進模型。

另外，悟道2.0完全基于國產神威超算實現萬億級規模訓練，并且打破了原來只能用GPU訓練的局限。

我們注意到，GPT-3、Turing-NLG等主流的超大預訓練模型均出自科技企業，國內最大的預訓練語言模型也為阿里研發的PLUG（270億參數），悟道2.0的發布意味著，智源研究院成為了“大煉模型”的首家科研機構，并且在國內接棒企業成為了“煉大模型”的主力。

在本屆峰會上，基于中文、多模態、認知三個方面，悟道2.0帶來了哪些底層技術創新，為何悟道2.0參數能夠在短時間內實現爆發式增長？大會還有哪些全新升級，接下來3位圖靈獎得主，200位頂級專家就前沿科技將分享哪些真知灼見？下面我們來一一來揭曉答案。

FastMoE，實現“萬億模型”的關鍵

悟道2.0成功實現萬億級突破，得益于FastMoE算法。

FastMoE的研發靈感來源于MoE（Mixture of Experts）。MoE一項在神經網絡中引入若干專家網絡（Expert Network）的技術，也是Google發布的1.5萬億參數預訓練模型Switch Transformer的核心技術。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

FastMoE在提升預訓練模型參數量方面有著巨大的潛力。

如對于每個輸入，MoE動態地由門網絡選擇k個專家網絡進行激活，一般情況下，每個輸入x激活的專家網絡數量都很少，如512個專家網絡可能只挑選兩個。在運算量（FLOPs）不變的情況下，這有利于增加模型參數量。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

在一項實驗中，Google將MoE應用到基于Transformer的神經機器翻譯的任務上，使用2048個TPU v3 cores花4天時間訓練了一個6千億參數的模型。

不過，MoE對Google分布式訓練框架mesh-tensorflow和定制硬件TPU有較強的依賴性，這給其他人開源社區的使用和研究帶來了不便。

智源研究院為此以MoE為原型研發了一種易用性強、靈活性好、訓練速度快的FastMoE系統，它可以在不同規模的計算機或集群上支持不同的MoE模型。而且，相比MoE，有如下技術優勢：

既可以作為PyTorch模塊使用，也可以引入Gate變為MoE層。
支持將任意神經網絡模塊作為專家網絡使用，僅需要修改MoE層的一個參數。
相比直接使用PyTorch實現的版本，提速47倍。
支持大規模并行訓練

為了支撐這個萬億級模型，悟道2.0配備了國產超算GPU打造的高性能算力平臺。唐杰教授表示，隨著算力的不斷提升，模型或許有一天能夠達到與人腦突觸量級相當的 100 萬億參數規模。當然模型越大，意味著更高的訓練成本，GPT-3一次訓練費用可達到了數千萬美元。

在數據方面，智源研究院創建了全球最大中文語料數據庫WuDaoCorpora，規模達3TB，超出之前最大的中文語料庫CLUECorpus2020十倍以上。在悟道2.0中，WuDaoCorpora擴展了多模態數據集（90TB）和中文對話數據集，其數據規模達（181GB）。

參數量越大不代表模型性能一定越好。在悟道2.0中，40億參數的多模態預訓練模型CogView，在MS COCO數據集上比擁有130億參數的DALL·E表現更好。因此，在大數據和算力的支持下，算法的性能更為重要。谷歌發布的Switch Transformer，雖然達到了萬億級規模，但其下游任務的精度并沒有大幅度提升。

為了提高超大規模預訓練模型的精度和效率，悟道2.0從模型、訓練、微調、推理等環節對算法進行了全鏈路升級：

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

高效模型：首創純非歐空間模型，50%參數量即可達到近似歐式模型的效果。

高效訓練：首創預訓練語言模型融合框架“知識繼承”，可使訓練時間縮短 27.3%，速度提升37.5%。它的核心思想是提取已有的小預訓練語言模型模型蘊藏的“隱式”知識，并將其注入超大規模模型當中。

高效微調：首創基于檢索的半監督少樣本的微調算法Prompt，只要需訓練0.2%數據即可達到完整數據訓練90%的效果。

高效推理：首創低資源大模型推理系統，單機單卡GPU即可以進行千億參數規模的模型推理。

悟道2.0創新算法，刷新9項紀錄

如何將中文融入預訓練模型，推動中文應用背景下的人工智能發展？如何實現圖、文和視頻等多模態信息之間理解與建模的統一？如何提升大規模預訓練模型的語言理解能力？如何進一步實現對超長/復雜蛋白質序列的建模和預測？

圍繞這些問題，悟道2.0創建文源、文瀾、文匯、文朔四大預訓練模型，經過一系列底層算法升級，在世界公認的9項 Benchmark 上達到了世界第一！

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

GLM+CogView+Inverse Prompting—文匯

在悟道2.0中，參數量達1.75萬億的超大規模預訓練語言模型便是悟道·文匯，基于GLM+P-tuning+Inverse Prompting+CogView多項創新算法，文匯能夠學習不同模態（文本和視覺領域為主）之間的概念，實現文生文、圖生文以及圖文生文等多項任務。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ? 文匯是面向認知的萬億級多模態模型，旨在解決大規模自監督預訓練模型不具有認知能力的問題。目前，1.75萬億級規模的文匯已經具備初級認知能力，并且在開放對話、知識問答、可控文本生成等認知推理任務上均有不錯的表現。而這得益于四項算法創新：

首先是通用預訓練框架GLM。GLM能夠同時在分類、無條件生成和有條件生成三類NLP任務取得最優結果；在訓練數據相同的前提下，其在SuperGLUE自然語言理解基準上的性能表現遠超BERT；并且更擅長填空問題以及內容生成。

其次是P-tuning，一種用連續的向量來表示Prompt的方法，它解決了Prompt在少樣本學習場景下容易過擬合的問題，即“通過連續向量輸入，直接在連續空間里尋找Prompt的最優解。”

在知識探測任務（LAMA）上，不需要任何額外文本，P-tuning提取的知識可以達到超過60%的準確率，超越之前最好結果20個百分點。此外，P-tuning在少樣本學習中優于包括PET和GPT-3在內的所有few-shot learning的SOTA方法。

第三是Inverse Prompting，它解決了預訓練模型“答非所問”的難題，其核心思路是用生成的內容反過來以同樣的模型預測原來的Prompt，從而保證問題與答案之間較強的關聯性。

最后是CogView，通過40億參數的Transformer模型和VQ-VAE圖像分詞器解決了跨模態理解的問題。類似于OpenAI 發布的DALL·E，CogView可以根據文本提示生成對應圖像，不過其性能表現在MS COCO數據集上要優于DALL·E以及基于GAN的模型。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

以上算法創新只是第一步，文匯的長期目標是從預測去構造決策，包括完全解決少樣本問題，并通過對預訓練和微調模式的創新，進一步接近認知目標。

雙塔預訓練結構-文瀾

“悟道·文瀾是多模態多語言預訓練模型。文瀾2.0首次實現了7種不同的語言的生成和理解，包括中、英、法、德、捷克、日、韓。在中文公開多模態測試集AIC-ICC圖像生成描述任務中，得分比冠軍隊高出5%；在圖文互檢任務中，比目前最流行的UNITER模型高出20%。另外，在圖文檢索和圖像問答任務上均超過現有多模態多語言預訓練模型。

不同于大多預訓練模型，文瀾模型獨創性地采用了一種基于多模態對比學習的雙塔結構（Bridging Vision and Language，BriVL），與常見的單塔架構相比，BriVL在圖像和文本之間建立了“弱相關”假設，在圖文互檢任務中能夠表現更好的性能。

重要的是，這種基于視覺-語言的弱相關假設也在一定程度上解決了大數據標注難題，如唐杰教授所說，“標注數據很稀缺，如今我們對數據規模的需求越來越大，對億級數據進行標注幾乎不可能實現。所以未來，弱相關的多模態訓練是一個大趨勢。”

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

為了彌補神經網絡在表達上的損失，BriVL結構中引入了監督學習和對比學習。BriVL首先使用獨立的語言和視覺編碼器提取語言和視覺信息的特征向量，然后將這些向量傳入到對比學習模塊中進行訓練。

采用這樣的雙塔結構，可以很方便地把編碼器模塊替換為最新的單模態預訓練模型，從而可以持續增強模型表達能力。

此外，文瀾還提出了基于 DeepSpeed 的多模態預訓練算法，能夠最大化的利用 GPU 和 CPU，并最優地支持跨模態對比學習。

首創高效混合編碼機制-文源

悟道·文源是以中文為核心的大規模預訓練模型，具有識記、理解、檢索、數值計算、多語言等多種能力。在開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務中均優于同等參數量模型。

區別于其他模型，文源最大的創新之處在于采用了獨特的信息編碼方式。作為最復雜的語言體系之一，中文語料庫中的生僻字、形近字、音近字為模型訓練帶來了諸多挑戰。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

智源研究院為此首創了一種基于字音和字形的混合高效編碼機制，它與目前普遍使用的基于中文單字的編碼方式相比具有更好穩定性。基于新型編碼機制訓練后得到的兩大模型“說文”和“解字”，在文本分類，句對分類，閱讀理解任務中的得分平均高于后者0.6個點。

另外，這種編碼方式對于形近字和同音字等常見錯別字場景也具有一定優勢。比如，對于中文簡體字的繁體字、異體字變種，基于字形的編碼方式可以將復雜漢字拆解成更為常見的部首組合，幫助模型更好地理解復雜的異體字、罕見字。有實驗數據顯示，在數據集存在異體字噪聲場景下，該模型優于中文單字編碼機制最高18.8個點。

不僅僅局限于中文，文源也有向英文擴展的能力，并在一系列偏向實際應用層面的英文任務上超越了GPT-3。文源下一階段的目標是嘗試用跨語言模型將不同語言的專家模型連接到一起，實現模型的多語言擴展。

加速產業生態建設，邁向AGI

“悟道”的定位從一開始就很明確：從更加本質的角度進一步探索通用人工智能。

去年10月，智源研究院啟動新型超大規模預訓練模型研發項目正式啟動，智源研究院院長黃鐵軍在會上表示，近年來人工智能的發展，已經從“大煉模型”逐步邁向了“煉大模型”的階段，通過設計先進的算法，整合盡可能多的數據，匯聚大量算力，集約化地訓練大模型，供大量企業使用，這是必然趨勢。

目前，GPT-3等預訓練語言模型提供了一條探索通用人工智能的可能路徑，OpenAI、谷歌、Facebook等國際IT企業都在此持續加碼，然而，隨著Turing NLG、BERT、GPT-3、Switch Transformer等重磅成果不斷被發布，以中文為核心的預訓練模型仍寥寥無幾，在此發展態勢下，研發我國自主的大規模預訓練模型勢在必行。

與此同時，悟道啟動以中文為核心的文源、基于多模態的文瀾、面向認知的文匯、以及用于蛋白質預測的文溯四大預訓練模型，其目標在于解決目前國際主流模型存在的前沿問題。

我們知道，雖然GPT-3在多項任務中表現出色，寫小說、做圖表、寫代碼統統不在話下，但它并沒有通過圖靈測試。它最大的問題是沒有常識，不具備認知能力。此外，它在處理開放對話、基于知識的問答、可控文本生成等復雜的認知推理任務上，也與人類智能有較大差距。

基于此，悟道·文匯希望從更本質的認知層面去探索通用人工智能的潛力。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

悟道·文瀾嘗試通過多模態解決現實場景的需求。隨著自然語言處理、計算機視覺以及語音識別等人工智能技術日益成熟，如何實現大規模落地成為人們必須思考的問題。而面對復雜多變的現實場景，“多模態”成為了前沿技術走向產業應用的下一個突破口。

今年OpenAI打破語言與視覺的界限，推出文本生成圖像模型DALL·E 和 CLIP達到SOTA性能；谷歌推出多語言多模態模型MUM，顯著提高了搜索效率。

然而以上成果只是一個開端，人工智能模型在文本、圖像、音頻、視頻等不同數據類型之間的跨模態理解上仍面臨不小的挑戰。

悟道·文溯則旨在通過前沿技術加速推動電子信息、生物醫藥等基礎科學科的科學研究進程。人工智能技術在解決重大科學問題上表現出了巨大的潛力，尤其是蛋白質預測領域，去年DeepMind公司研究人員研發的AlphaFold，將蛋白質結構預測的準確度提高到了原子水平，解決了困擾科學界近50年的重大難題。

在此背景下，悟道嘗試以基因領域認知圖譜為指導，通過超大規模預訓練模型解決超長/復雜蛋白質序列的建模和預測問題。

在悟道2.0中，文源、文瀾、文匯、文溯均在標準測試中達到了世界領先水平。悟道在研發的同時，智源研究院也在同步探索其生態建設模式。隨著悟道2.0的發布，其產業應用進程也進一步加快。

在開幕式上，智源研究院學術副院長唐杰教授現場與21家企業舉辦了合作簽約儀式，圍繞悟道2.0的產業應用，與美團、小米、快手、搜狗、360、寒武紀、好未來、新華社等21家企業達成了戰略合作。悟道2.0將以開放API（應用程序接口）的形式為這些企業提供服務。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

此外，智源研究院還與新華社合作將悟道模型應用于新聞智能化轉型，這是新聞領域0到1 的突破。在新聞領域，悟道模型能夠處理新聞下游任務， 包括新聞內容處理、圖文生成、傳播優化等，還具備接近人類的圖文創意能力，可以作詩、問答、創意寫作等。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

智源研究院副院長唐杰教授在會上表示，悟道2.0后續將支持智源研究院牽頭成立獨立的模型商業化運營公司，并將面向個人開發者、中小創新企業、行業應用企業、IT領軍企業等不同主體，分別提供模型開源、API（應用程序編程接口）調用、“專業版”大模型開發、大模型開發許可授權等多種形態的模型能力服務，賦能AI技術研發。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

可以預見，以智源2.0為代表的大模型將成為一個AI未來平臺的起點，成為類似“電?”的基礎建設，為社會源源不斷供應智?源。

30場專題探索，真正的AI內行人盛會

悟道2.0的研發集結了中國人工智能產業界和學術界的各方力量。

黃鐵軍表示，“我認為，未來真正賦值各行各業的大模型，在全世界范圍能都是屈指可數的，應該盡快把資源收斂到少數超大規模智能模型上來。”

正是因為認識到這一點，智源研究院聯合了北京大學、清華大學、人民大學、中國科學院等單位的100余位AI科學家聯合攻關悟道超大預訓練模型。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

唐杰教授在會上表示，“我們的WuDaoCorpora是全球最大數據集的3倍，希望每一位都加入其中，我們做更大的數據，只有更大的數據、更大的算力，才能做出更優美的模型。”

為此，智源研究院在會上正式啟動了“智源學者計劃”，目標是遴選最優秀的科學家，共同探索人工智能科技前沿“無人區”，挑戰最基礎的問題和最關鍵的難題。

截至目前，智源研究院已在人工智能的數理基礎、人工智能的認知神經基礎、機器學習、自然語言處理、智能信息檢索與挖掘、智能系統架構與芯片等六大研究方向，遴選智源學者94人，分別來自北大、清華、中科院等高校院所與曠視、京東等優勢企業。值得關注的是，面向青年科研人員，智源研究院今年還成立了AI青年科學家學術組織“青源會”，為海內外的AI青年科學家和技術人員建立的寬松、活躍的學術交流平臺。

智源大會也是智源研究院為學者提供學術交流與思想碰撞的平臺，目前已經成功舉辦兩年。是國內人工智能領域最具影響力的年度盛會。

由于采取極為嚴格的內行榮譽邀請制，智源大會的參會嘉賓均為人工智能領域的頂級專家和學者，因而也被稱為真正的AI內行人盛會。

本屆大會邀請到了包括圖靈獎得主Yoshua Bengio、David Patterson在內的200多位頂級人工智能專家。

包括加州大學伯克利分校教授Stuart Russell，宋曉冬（Dawn Song），澳大利亞科學院院士、ACM Fellow、AAAI Fellow Toby Walsh，康奈爾大學教授Carla Gomes，AAAI候任主席、康奈爾大學教授Bart Selman，Numenta聯合創始人、美國工程院院士Jeff Hawkins，北京大學、中國科學院院士鄂維南，清華大學國家金融研究院院長朱民，蒂賓根大學教授李兆平等。

10倍GPT-3！全球最大預訓練模型“悟道2.0”問世：9項精準記錄，多項任務逼近圖靈測試 ?

此外，大會圍繞當前人工智能領域的前沿熱門學研主題和產業落地主題設置了30多個專題論壇：

6月1日：開幕式和全體大會，預訓練論壇，人工智能的數理基礎論壇，智能體系架構與芯片論壇，AI科技女性論壇，AI人才培養論壇。

6月2日：青源學術年會，人工智能倫理、治理與可持續發展論壇，全體大會，機器學習論壇，智能信息檢索與挖掘論壇，科學智能論壇，產業畫像和精準治理中的AI創新應用論壇，決策智能科學場景暨滴滴決策智能仿真開放平臺發布會，人工智能的認知神經基礎論壇，精準智能論壇，認知智能論壇，晚間全體大會；

6月3日：AI創業論壇，AI交通論壇，自然語言處理論壇，國際AI研究機構論壇，強化學習與決策智能論壇，人工智能與社會經濟論壇，AI賦能生命健康與生物醫藥論壇，工業智能論壇，視覺大模型論壇，AI制藥論壇，AI系統論壇，AI開放與共享論壇，AI安全與產業治理論壇，全體大會及閉幕式；

大會精華內容預告

1、機器學習論壇（6月1日）

論壇主席：朱軍清華大學教授，智源機器學習方向首席科學家

Opening the Black Box of Deep Learning: Some Lessons and Take-aways | Sanjeev Arora 普林斯頓大學計算機科學Charles C. Fitzmorris教授
Deep (Convolution) Networks from First Principles | 馬毅加州大學伯克利分校教授
開放環境機器學習 | 周志華南京大學教授
可解釋性定義與可解釋模型的學習 | 張長水清華大學教授，智源研究員

2、認知神經基礎論壇（6月2日）

論壇主席: 劉嘉 - 清華大學教授，智源首席科學家

History and recent advances of deep learning theories | 甘利俊帝京大學綜合科學研究機構特任教授、理化學研究所榮譽研究員
Data-driven Simulations of Basal Ganglia Microcircuits | Jeanette Hellgren Kotaleski 英國皇家理工學院教授，卡洛琳斯卡學院教授
Human brain works differently from Deep Learning technology | Danko NikolicEvocenta 人工智能和數據科學主管
Challenging Artificial Intelligence Vision Algorithms to achieve human level performance | Alan Yuille Bloomberg 特聘教授
高精度模擬-生物智能涌現之基石

3、視覺大模型（6月3日）

主席和主持人: 山世光 - 中科院計算所研究員