從語言學角度看詞嵌入模型

本文作者： AI研習社-譯站

2018-12-03 11:22

導語：在任何一個基于機器學習的自然語言處理（NLP）流水線中

從語言學角度看詞嵌入模型

本文為 AI 研習社編譯的技術博客，原標題：
Moving beyond the distributional model for word representation.
作者 | Tanay Gahlot
翻譯 | 喬叔叔
校對 | 醬番梨整理 | 菠蘿妹
原文鏈接：
https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8

從語言學角度看詞嵌入模型

從語言學角度看詞嵌入模型

在任何一個基于機器學習的自然語言處理（NLP）流水線中，詞的向量化是其中典型的一個步驟，因為我們不能直接給計算機“喂單詞”。在詞的向量化過程中，我們為一個單詞指定一個N維的向量，用來表示它的詞義。結果，這成了處理過程中最為重要的一個步驟之一，因為一個“壞的”表示會導致失敗以及為接下來的NLP任務帶來不愿看到的影響。

在詞向量化的最常用的技術之一就是詞的分布式表示模型。它基于的一個假設是一個詞的意思能夠從它所在的上下文中推斷出來。大部分深度學習論文使用基于該分布式理論而來的詞向量，因為它們是“任務普適”（它們不是針對特定任務）而且“語言普適”（它們不是針對特定語言）。不幸的是，分布式方法并不是詞向量化任務的魔效武器。在本博文中，我們會指出這個方法的一些問題并提供一些潛在的解決方案，以改善詞向量化的過程。

從語言學角度看詞嵌入模型

分布式表示模型有以下的問題，讓人感覺非常痛苦：

罕見詞：對于在語料中出現頻率較低的詞，它們無法通過分布式表示學習得到一個很好的表示。
多義混同：它們將一個詞的所有詞義混成一個表示。例如，單詞“bank”，在英文中可以指“河岸”或者是“金融機構（銀行）”。分布式模型卻將所有的這些詞義混合在一個表示中。
形態缺失：在表示學習的時候，它們并沒有考慮一個單詞多種形態。比如，“evaluate”和“evaluates”具有相似的意思，但是分布式表示模型卻將它們視為兩個不同的單詞。（譯者注：在英語中，一個單詞可能有多種形態，特別是動詞，有時態、人稱、主動被動等對應的不同形態。在本例中evaluates是evaluate的第三人稱單數的一般現在時的形態。）

幸運的是，為了解決這些問題，大家進行了非常廣泛的研究。大致上，這些解決辦法可以分為3個主要類別。我們將會按照下面的順序一一介紹：

形態敏感嵌入
在詞嵌入中，將語言或功能約束進行增強。
多詞義處理

形態敏感嵌入

這些技術在學習詞嵌入的時候，將詞的形態進行了考慮。Fasttext就是這種技術的一個典型代表。它將一個單詞表示成了n-grams（n元模子）字符的匯總。例如單詞where就可以表示成。每個n-gram字符被指定一個向量，這個向量接下來會被用來計算上下文向量與目標向量匹配度的分值：

從語言學角度看詞嵌入模型

在使用這種方法（下表的sisg）對一些詞匯形態豐富的語言，比如德語（De）、法語（FR）、西班牙語（ES），俄語（RU）和捷克語（Cs），進行語言建模的時候，經評估，相較于沒有使用預訓練詞向量的LSTM，以及使用了預訓練詞向量卻沒有相關詞根信息的LSTM模型（下表的sg），效果都有了改善。

從語言學角度看詞嵌入模型

而且，既然fasttext將單詞表示為n元字符（n-gram）的組合，因此它就能為那些語料庫中從來沒有出現過的詞提供嵌入。在一些領域如生命科學領域，由于詞匯表非常有限（長尾現象），語料中大部分的單詞都歸入到未知類別中，該技術就顯得尤其有用。

Morphfitting提供了另外一個技術選項用來將詞的形態輸入到詞嵌入模型中。在這項工作中，他們用“相吸相斥”（Attract-Repel）方法來“后處理”（post-process）詞嵌入，該方法“吸引”曲折形態（通過詞的形式變化來表達有意義的句法信息，比如動詞時態，卻不改變詞義），而“排斥”派生形態（新形式的單詞出現同時詞義也發生遷移變化）。在下一部分我們會詳細討論“相吸相斥”方法。

從語言學角度看詞嵌入模型

通過注入語言形態學的約束，Morphfitting在SimLex和SimVerb兩個數據集上的相關系數評估中都超過了下表給出的10個標準嵌入模型。

從語言學角度看詞嵌入模型

在詞嵌入中，將語言或功能約束進行增強

另外一類詞空間定義的方法是在詞嵌入的后處理中進行語言/功能約束。在上一節中我們已經看到這類方法的一個例子—Morphfitting。在這一節，我們將會探索一下Morphfitting中使用的定義詞嵌入的方法—相吸相斥法（Attract-Repel）。

相吸相斥法（Attract-Repel）是一種后處理技術，它根據語言約束將預訓練的詞嵌入進行進一步定義。例如，在Morphfitting中，語言約束是以兩種集合的形式來表達，再次給出表格2如下：

從語言學角度看詞嵌入模型

表格的上半部分是“相吸集合”（譯者注：由多個詞義相同的單詞對組成的集合），下半部分是“相斥集合”（譯者注：由多個詞義不同的單詞對組成的集合）。利用這些集合，一個迷你批次就形成了，它可以用來優化下面的損失函數：

從語言學角度看詞嵌入模型

損失函數中的第一項對應的是相吸集合，第二項對應的是相斥集合。第三項則保留了分布式表示。而且，前面兩項也會引入負樣例，這是采用了PARAGRAM模型的主意。損失函數（又：成本函數）的前兩項由下式給出：

從語言學角度看詞嵌入模型

第三項由下式給出：

從語言學角度看詞嵌入模型

人們可以用“相吸相斥”法注入用相吸相斥集來表示的語言約束，比如“同義與反義”或者“曲折形態與派生形態”。而相應地，那些無法利用語言約束來表達的“相似性”或者“非相似性”，人們就不能進行詞嵌入定義了。例如，不同“治療”類型的關系，就無法用相吸相斥法來捕獲。為了適應這樣的功能關系，我們介紹另外一種方法叫做“功能改裝”（Functional Retrofitting）。

在功能改裝方法中，關系的語義學習與詞空間的學習是同步進行的。而獲得這一點的方法，主要是將相吸相斥法中的點積替換成一個優化學習過程得來的函數。

從語言學角度看詞嵌入模型

上式中的第一項保留了分布式嵌入，第二項和第三項則引入了知識圖譜中的正向關系空間（E+）與負向關系空間（E-）（譯者注：負向關系空間是沒有在知識圖譜中標明的關系的集合），最后一項在學習函數中執行正則化功能。

通過在國際系統醫學術語集（SNOMED-CT）之上預測兩個實體（i,j）之間的關系（r）而做的鏈路預測，功能改裝方法的語義學習效果得到了驗證。四種不同類型的功能改裝方法分別對四種關系（ “具有發現部位Has Finding Site”、 “具有病理過程Has Pathological Process”、 “誘因Due to”、 “癥狀Cause of”）進行了預測，其結果如下表所示：

從語言學角度看詞嵌入模型

更多關于功能改裝的信息，你可以參考一篇由Christopher Potts寫的優秀blog。如果你需要功能或語言約束來進一步定義你的詞嵌入，請試用Linked Open Data Cloud上優秀的、具有互聯關系的本體匯編。

上述的方法更新了各次匯報的詞嵌入。如果你對定義整個詞空間感興趣，你可以用反向傳播來這么做，正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中建議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。

從語言學角度看詞嵌入模型