中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

本文作者：我在思考中

2022-01-04 11:12

導語：「智源指數」不僅要測計算機的語言能力，更重要的是能夠指出計算機的語言能力的發展方向。

人工智能大模型時代，評測基準成為大模型發展的風向標。從扁平到全面系統，從簡化到多重維度，智源指數CUGE旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。

作者丨琰琰

編輯丨青暮

人工智能領域有兩大權威基準，一是在CV圈引爆深度學習的ImageNet，二是見證BERT掀起預訓練風潮的GLUE。

作為自然語言理解的通用評估標準，GLUE在一定程度上能夠反映NLP 模型性能的高低。2018年，BERT在GLUE基準刷新了11項任務指標。自那之后，預訓練+微調的2-Stage模式在NLP領域蔚然成風，GLUE也因此一炮而紅，成為公認最具權威性的機器語言能力評估基準之一。

GLUE評估體系由紐約大學、華盛頓大學、DeepMind等機構聯合推出。2019年，GLUE在預訓練模型評估方面日漸乏力，隨后SuperGLUE應運而生，并憑借多樣化任務，全方位的考察能力受到產學界的廣泛追捧。

無獨有偶，隨著超大規模預訓練語言模型的興起，也對SuperGLUE的評估能力提出更高要求，尤其是面對悟道、源1.0等滾滾而來的中文大模型。

12月30日，北京智源研究院在位于「宇宙中心」的智源大廈舉辦了首場 BAAI—NLP Open Day 活動。會上，中國工程院院士、清華大學教授、中國人工智能學會理事長戴瓊海，北京語言大學教授、國家語言文字工作委員會原副主任李宇明，清華大學教授、智源研究院自然語言處理重大研究方向首席科學家孫茂松，智源研究院副院長曹崗同國內NLP科學家和青年學者一起，重磅發布了機器中文語言能力評測基準——智源指數CUGE。

CUGE，取自Chinese LanguageUnderstanding and Generation Evaluation的首字母縮寫，代表著兼顧自然語言理解（NLU）與自然語言生成（NLG）兩大任務體系的中文語言能力評測標準。它涵蓋7種重要語言能力、17個主流任務、19個代表性數據集。

孫茂松教授表示，我們希望站在已有相關工作的基礎上，構建出更全面均衡的機器語言評測體系，在學術上指引中文大規模預訓練模型的發展方向，同時，也希望通過不斷提高評測體系的科學性和權威性，更好地幫助研究者把更多精力放在模型本身的改進上，提升對模型發展的指導性。

為什么要做「智源指數」？

如戴瓊海院士所言，如果說NLP是人工智能皇冠上的一顆明珠，建立科學的評價標準就需要尋找這顆明珠的指北針，如果方向錯了，走的越遠偏離越多，而且很有可能找不到。

所以，在NLP技術極速發展的過程中，其評價體系也需要亦步亦趨。

縱觀NLP發展歷程，預訓練語言模型無疑是一個里程碑式的突破點。孫茂松教授表示，“自監督學習預訓練模型+任務相關的精微調整”的適配方案初步掌握了通用語言能力的密碼，是未來NLP領域最具前景的新范式。而面對試圖掌握通用語言能力的預訓練模型，以英文為代表的GLUE，對中文并不能夠作出全面、科學的有效評測。這也是智源學者合力研發「智源指數」的一個重要原因。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

預訓練語言模型，其最大的價值是把深度學習推向了互聯網上近乎無窮無盡的大規模數據——互聯網上任何一個任何類型的文本，不需要人工標注就可以直接學習，而在此之前，深度學習訓練僅限于特定任務的有標注數據。有了充足的底層“燃料”，預訓練模型的規模也隨之急劇膨脹，如今超大規模智能語言模型參數量達到了萬億級。

計算機如何評判機器的語言能力，需要科學有效的評價體系。NLP模型的評價標準最早可以追溯到圖靈測試，后來逐漸演進到更為具體的基準任務和數據集。進入預訓練時代后，GLUE/SuperGLUE一直被視為NLP評測方面的事實性標準，并在預訓練發展歷程中發揮了重要的指引作用。

然而，隨著預訓練模型逐漸向超大規模演進，GLUE仍停留在自然語言理解層面，不支持語言生成、多語言、數學推理等其他重要語言能力。

上個月，Google 在自然語言處理頂級會議NeurIPS 2021 投稿了一篇名為AI and the Everythingin the Whole Wide World Benchmark的文章，揭示了GLUE/SuperGLU等“通用”評估基準的若干局限性，包括任務設計過于武斷、數據集/任務集組合太隨意，數據范圍受限等等。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

論文地址：https://arxiv.org/abs/2111.15366

文章指出，數據基準測試本就是封閉的、主觀的且基于有限數據構造的。但由于大家長期接受并強調用于“通用”能力評測的設定，“通用”反倒成為了掩護，開發基準的人以此為借口，逃避報告基準數據細節（如數據源、可能存在的偏向性）的責任。

與此同時，正因為基準對“通用”能力的評估被夸大，直接導致研究者們不假思索地去追求算法在基準評估中的性能指標。盲目“刷榜”而來的算法，忽略了指標與真實世界的匹配，也無法解決相關的現實問題。

針對這篇質疑 Benchmark 公平性的文章，劉知遠教授表示，谷歌并沒有否認Benchmark在模型發展中的價值，而是說，如今這些Benchmark與原本的指引作用出現了一些偏差，而這也是為什么智源指數強調未來需要持續改進的原因。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

對于傳統主流榜單基于機器在有限采樣上的強表達能力，給予“遠超人類水平”的成績，劉知遠表示：“ 傳統主流榜單為行業發展做出了巨大貢獻，我們期待在巨人的肩膀上繼續進步。如果Benchmark包含的數據集，長期一成不變，指引的作用必然會越來越小，因為任何事物發展到最后都會形成內卷。就像高考，分數很重要，但能力的持續提升才是我們進行所有指標衡量的最終目的。”

在劉知遠教授看來，模型與基準的發展是辯證統一的過程，我們不能站在某個結點，否定其過去的效用。人工智能的自然語言處理評測，本身是一個科學開放的事情，只要我們持續思考和探索，一定會做的越來越好。未來，智源指數每年會更新數據集，并以智源作為平臺發布機器語言能力發展報告，向學術共同體傳達未來需要一起改進和努力的方向。

同時，國內大模型研究產業如火如荼，但目前用于中文語言能力評測的基準卻少之又少，劉知遠教授認表示，他們希望智源指數，通過更科學有效地的評測體系幫助產學界更好地指引中文預訓練模型的發展方向。同時，為國內NLP發展構建公正客觀的基準生態，促進整個行業和領域的進步。

「全面均衡」的語言評測基準

為了使中文機器語言能力評測體系更全面、更系統，智源指數包含高質量中文自然語言處理（NLP）數據集、排行榜與在線評測平臺，創造性的設計了多層次維度的評測方案。

報告地址：arxiv.org/pdf/2112.13610.pdf

網站地址：cuge.baai.ac.cn

針對傳統側重語言理解能力，評測框架體系扁平化，缺乏系統性多樣性，以及過于專注平均數據集性能，覆蓋的語言能力、任務和數據集偏少等普遍特點。

智源指數定位「中文語言」，覆蓋自然語言理解和生成兩大任務體系，按照「能力- 任務- 數據集」的層次結構篩選和組織高質量數據集，為機器語言能力提供更加全面系統和多層多維的評測標準。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

在評分策略上，傳統評測基準通常直接將不同數據集上的得分平均得到總體得分，評測維度較為單一。而智源指數基于層次結構，提供了模型在數據集、任務、能力、總體不同層次維度的得分，并通過語言能力雷達圖，直觀地展示模型語言能力。

一般而言，將不同數據集上的不同指標直接平均，會受到不同數據集和指標不同特性的影響，最終得分也容易被少數得分變化幅度較大的數據集和指標主導，難以有效地全面衡量模型的語言能力進展。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

智源指數采用歸一化方法計算得分，參考標準基線模型（mT5-small）的得分，計算參評模型的相對得分，最大程度消除不同數據集和指標特性影響。目前智源發布的大規模預訓練模型CPM-2，以及mT5-small/large/XXL的評測結果已經在智源指數榜單上公布。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

以上可以看出，預訓練模型在不同的語言能力表現的差異較大，通用的語言智能仍然有非常大的提升空間。

我們知道，基準任務和數據集支持著自然語言處理能力的開發和評估，是NLP工具的驅動力。智源指數覆蓋了7 種重要語言能力，17 個主流自然語言處理任務，19個高質量數據集，分別為：

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

語言理解-詞句級：中文分詞、中文分詞和詞性標注、古詩文識記、命名實體識別、實體關系抽取；
語言理解-篇章級：幽默檢測、故事情節完形填空、閱讀理解；
信息獲取及問答：反向詞典、開放域問答、文檔檢索；
語言生成：摘要生成、數據到文本生成；
對話交互：知識驅動的對話生成；
多語言：機器翻譯、跨語言摘要；
數學推理：數值計算。

為了讓研究人員方便快捷參與評測，智源指數為每個語言能力選擇代表性任務和數據集，組成精簡榜。相當于在7種語言能力下，為每個語言能力提供一個數據集。包括：

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

「智源指數」的一個重要的核心點是如何構建高質量、大跨度的標注語言資源庫。在發布會現場，山西大學譚紅葉教授和北京語言大學楊爾弘教授介紹了兩個特色大規模數據集的標注規則和數據質量。

其中，面向可解釋評測的高考于都理解數據集GCRC，匯集近10年高考閱讀理解測試題包含5000多篇文本、8700多道選擇題（約1.5萬個選項）。標注信息涉及信息句子級支持事實、干擾項（不正確選項）錯誤原因、回答問題所需推理能力為三類，可從中間推理、模型能力兩方面進行可解釋評價。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

二是面向漢語學習者文本多維標注數據集YACLC。該數據集由北京語言大學、清華大學、北京師范大學、云南師范大學、東北大學、上海財經大學等機構聯合構建，其訓練集規模高達8000條，每條數據包括原始句子及其多種糾偏標注與流利標注。驗證集和測試集規模都為1000條，每條數據包括原始句子及其全部糾偏標注與流利標注。

基于單數據集的榜單能力，未來智源指數還將定期吸納最新優秀數據集。劉知遠表示說，他們還將結合現有的行業力量，建立用戶面向數據集和評測結果的反饋、討論機制，構建起中文高質量數據集社區，推動中文自然語言處理的發展。

中文大模型的「風向標」

整個人工智能發展過程中，高質量數據集，科學地評測體系都發揮了重要的作用。當時深度學習在CV領域的崛起，是因為AlexNet模型在ImageNet數據集上刷新SOTA，引發了整個學術界，產業界對深度學習的關注。

類似地，中文自然語言處理要想取得重大突破，至少要知道如何“量化”突破，所以科學標準很重要。此外，一個好的「智源指數」不僅要測計算機的語言能力，更重要的是能夠指出計算機的語言能力的發展方向。

劉知遠表示，“期待CUGE的指引可以幫助更多中文大模型，尋找到新的突破方向。對于智源指數的發展，我們需要做好頂層設計，放式地吸引更多的優秀學者和機構，不斷構建、發布、吸納更多高質量的中文數據集，才有望建立權威的評測標準。”

為了更好地去支持智源指數的發展，智源研究院搭建了「智源指數工作委員會」，由孫茂松擔任主任，穗志方和楊爾弘擔任副主任。

中文語言能力評測基準「智源指數」問世：覆蓋17種主流任務，19個代表性數據集，更全面、更均衡

目前，委員會單位已經吸納了國內在自然語言處理方面10余家優勢單位，接近20個相關優勢研究組，去針對智源指數不斷進行改進，力求更加科學、規范、高質量地推進中文自然語言處理技術的標準評測。

智源研究院表示，未來將通過持續的機制創新和服務保障，以“功成不必在我”的理念，建立起更有效的系統化研究環境，促進智源學者們不斷成就新發明、新突破，共同創造經得起時間檢驗的人工智能技術創新和產業“代表作”。

雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章