追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀

本文作者：黃善清

2019-10-29 17:39

導語：國內(nèi)首場 NL2SQL 挑戰(zhàn)賽

語音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

雷鋒網(wǎng)開發(fā)者按：10 月 12 日下午，由追一科技主辦、南京大學計算機軟件新技術(shù)國家重點實驗室協(xié)辦的「首屆中文 NL2SQL 挑戰(zhàn)賽」總決賽答辯暨頒獎典禮在南京大學舉行。經(jīng)過最終決賽的 5 強選手隊伍精彩分享、答辯和現(xiàn)場評委考評，決出最終名次。來自國防科技大學的選手團隊「不上 90 不改名字」奪得冠軍。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀

值得一提的是，此次 NL2SQL 挑戰(zhàn)賽是國內(nèi)首次舉辦，NL2SQL（自然語言轉(zhuǎn)結(jié)構(gòu)化查詢語句）作為新興的研究領(lǐng)域，在國外由 SalesForce 耶魯大學等發(fā)布了 WikiSQL 和 Spider 數(shù)據(jù)集，但在國內(nèi)市場，目前還處于起步階段。

經(jīng)過選手的不斷努力與探索，比賽任務短期內(nèi)就達到與英文數(shù)據(jù)集上相當水平的分數(shù)，并持續(xù)刷新記錄。比賽初期，準確率尚為 60% 多，至 8 月份初賽結(jié)束時，榜上頭部分數(shù)已經(jīng)達到 89％，接近 WikiSQL 成績。復賽結(jié)束時，選手最高成績達到 92％，并且，最終晉級決賽的 5 支隊伍，個個都在「90 分」以上。

比賽期間，追一科技發(fā)布了業(yè)內(nèi)首個大規(guī)模的中文數(shù)據(jù)集，包括 4870 張表格數(shù)據(jù)、近 50000 條標注數(shù)據(jù)以及相應的 SQL 語句，并獲得很多學界專家、產(chǎn)業(yè)界伙伴的支持，通過「產(chǎn)學研」等多方聯(lián)動，希望提供一個平臺，來推動 NL2SQL 的研究和應用。

NL2SQL 有什么用？

簡單來說，NL2SQL 可以讓非專業(yè)人士，不需要學習和掌握數(shù)據(jù)庫程序語言，就可以自由地查詢各種豐富的數(shù)據(jù)庫，主要體現(xiàn)在：

說句話就行。
沒有條條框框的限制，內(nèi)容和信息更加豐富。以前是程序員寫一個「模板」，在這個模板里查詢內(nèi)容。
NL2SQL 的實現(xiàn)，運用了大量前沿的人工智能算法模型，比如運用了多個預訓練語言模型，相當于 AI 大腦，讓 AI 讀懂用戶語言；運用了圖神經(jīng)網(wǎng)絡，讓 AI「看到」數(shù)據(jù)庫，一目十行過目不忘，而且更加清晰地分清每個表。

在具體使用場景上，NL2SQL 可以用在基于結(jié)構(gòu)化知識的智能交互（問答），比如用戶問「我上個月在南京的差旅住宿，花了多少錢？」這里面有時間上個月，地點南京，項目差旅等多個維信息檢索需求，甚至更復雜、更多維的問題，AI 也可以解答。

此外，NL2SQl 也可以用在搜索引擎的優(yōu)化上，讓搜索引擎更「聰明」。現(xiàn)在的信息檢索技術(shù)，在檢索文本時，對于文本中存在的表格內(nèi)容是無區(qū)別對待的，也當做普通的文本來處理；結(jié)合 NL2SQL，可以讓檢索模型結(jié)合普通文本及表格類文本進行更智能的檢索。

冠軍方案解讀

據(jù)了解，本次 1457 支參賽隊伍中，院校和企業(yè)參與者各占「半壁江山」。

其中，學生及科研人員占比 48%，企業(yè)技術(shù)員工占比 52%。學生參賽隊伍來自眾多知名院校，如北京大學、清華大學、復旦大學、上海交通大學、南京大學、浙江大學、中國科學技術(shù)大學、哈爾濱工業(yè)大學、西安交通大學等。

而本場賽事冠軍隊伍「不上 90 不改名字」的組員都來自國防科技大學，分別由隊長張嘯宇（負責模型設計、方案調(diào)優(yōu)）、隊員賽斌（負責模型設計）以及隊員王蘇宏（負責數(shù)據(jù)預處理）組成。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀

據(jù)介紹，為了準備這場比賽，張嘯宇與隊員們預先花了 2、3 天時間把 nl2sql 相關(guān)論文均看一遍，最終發(fā)現(xiàn)X-SQL 是 WikiSQL 表現(xiàn)最好的模型。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀

由于 X-SQL 作者并未開源代碼，因此他們只能嘗試自己復現(xiàn)，結(jié)果在復現(xiàn)過程中發(fā)現(xiàn) X-SQL 有一個顯著性問題：value 抽取時，字段特征并不明顯。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀

針對此問題，他們提出了兩個子模型——value抽取和value匹配，來替換 X-SQL 中原有的 value 抽取方式。當中，value抽取用于抽取所有的value，而value匹配用于判斷value和表字段的所屬關(guān)系。這也就是他們在賽事中提出的 M-SQL 模型，無論精度還是運行效率都達到了商用水平。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕，冠軍方案全解讀