阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

本文作者：奕欣

2018-03-27 11:50

導語：阿里巴巴有11篇論文被AAAI 2018錄用，涉及對抗學習、神經網絡、提高輕量網絡性能的訓練框架、機器翻譯、聊天機器人、無監督學習框架、極限低比特神經網絡等方向

雷鋒網 AI 科技評論按：阿里巴巴有 11 篇論文被 AAAI 2018錄用，分別來自機器智能技術實驗室、業務平臺事業部、阿里媽媽事業部、人工智能實驗室、云零售事業部，其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告，另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。論文內容涉及對抗學習、神經網絡、提高輕量網絡性能的訓練框架、機器翻譯、聊天機器人、無監督學習框架、極限低比特神經網絡等技術方向。

以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學厄巴納-香檳分校的合作論文解讀投稿。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

主要作者（中英文）：鐘澤軒 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie

論文下載地址：https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf

摘要

將幾個子知識圖譜上的同一實體信息鏈接在一起（也被稱為用戶身份鏈接（UIL）問題）對很多應用而言都至關重要。實體鏈接問題有兩大主要難點。

第一，收集人工鏈接的實體信息對（user pairs）作為訓練數據的成本非常高昂。

第二，不同子知識圖譜的實體屬性通常有非常不同的定義方式和格式，這使得屬性對齊（attribute alignment）非常困難。

我們在本論文中提出了 CoLink，一種用于實體信息鏈接問題的通用型無監督框架。CoLink 使用了一種能同時操作兩個獨立模型（基于屬性的模型和基于關系的模型）的協同訓練算法，并且能以無監督學習的方式迭代式地讓兩個模型彼此互相增強。我們還提出使用「序列到序列」學習作為基于屬性的模型非常有效，這種方法能將屬性對齊難題當作機器翻譯問題處理。我們將 CoLink 應用到了將企業網絡中的員工映射到他們的領英（LinkedIn）個人資料的實體信息鏈接任務上。實驗結果表明 CoLink 在 F1 分數上的表現超過之前最佳的無監督方法的 20% 以上。

引言

將不同子知識圖譜上的同一實體信息鏈接起來（也被稱為用戶身份鏈接（UIL）問題）通常能得到對該實體的更好和更深度的理解，這通常又能進一步得到更好的商業智能。

盡管機器學習算法已經在實體鏈接問題上得到了廣泛的應用，但訓練數據的標注工作并不簡單。首先，尋找已鏈接實體信息配對是極其耗時的，因為這需要搜索所有子知識圖譜以及仔細評估大量候選配對。另外這個工作還需要人類標注者具有廣泛的領域知識。其次，由于隱私保護的原因，并非所有知識圖譜的實體數據都可以提供給人類標注者，尤其是當這些資料來自個人社交網絡或企業內部網絡時。

在兩個子知識圖譜之間鏈接實體需要仔細比對兩個子圖譜中的實體屬性，比如名稱、職位、位置等。因此，屬性值的對齊對實體鏈接問題而言至關重要。但是，傳統的字符串相似度函數有兩個不足之處：

沒有一個通用方法可以處理相同屬性在不同實體網絡中的變化
無法找到隱式的屬性對應關系

在這篇論文中，我們提出了一種用于實體鏈接問題的通用型無監督框架 CoLink。知識圖譜中的實體數據可以自然地劃分為兩個獨立的角度的特征：屬性和關系，這完美契合協同訓練（co-training）算法的要求。

CoLink 使用兩個獨立的模型：一個基于屬性的模型和一個基于關系的模型。基于屬性的模型和基于關系的模型都是二元分類器，決定兩個實體是否能鏈接起來。它們可以基于任何機器學習或啟發式算法。因此，只要知識圖譜資料中包含屬性和關系，那就可以將 CoLink 應用于該知識圖譜的實體鏈接問題上。

更進一步，我們在 CoLink 的基于屬性的模型的實現中使用了「序列到序列」學習算法，這為不同實體網絡之間的屬性對齊提供了一種通用方法。我們沒有將屬性對齊當成字符串相似度比較而進行處理，而是試圖將一種「語言」（一種特定風格的網絡）的屬性值「翻譯」成另一種「語言」。縮略語、縮寫、同義詞甚至隱式對應關系都可被視為翻譯的特殊情況。我們選擇「序列到序列」算法的原因是其已經表現出了在機器翻譯任務上的有效性。具體而言，「序列到序列」方法有兩種可用于 CoLink 的優勢。首先，它幾乎無需手動提取特征就能自動得到詞層面的映射和序列層面的映射。其次，它只需要正例（已對齊的屬性對）作為訓練數據，這能減輕采樣負例的工作。

我們將 CoLink 應用到鏈接社交網絡的相同用戶的任務上，其中我們試圖將企業網絡中的員工和他們的領英個人資料鏈接起來。我們進一步比較了 CoLink 和之前最佳的無監督方法。實驗結果表明 CoLink 在 F1 分數上的表現總體上能超過之前最佳的無監督方法的 20%。我們的貢獻總結如下：

我們最早將協同訓練算法用在了知識圖譜實體鏈接的問題上。由于實體網絡中的實體屬性和實體關系是自然分開的，這使得協同訓練是一種完美且無成本的解決方案。
我們最早將屬性對齊問題建模為機器翻譯。我們使用「序列到序列」方法作為基于屬性的模型的基礎，這幾乎無需提取特征就能實現很好的泛化。
我們進行了大量實驗，比較了我們提出的方法和之前最佳的無監督方法，列舉了不同的設置和模型，結果表明了我們提出的解決方案的有效性。

CoLink

問題定義

知識圖譜上的實體鏈接問題定義為：其輸入包括一個源知識圖譜和一個目標知識圖譜。其輸出為一個實體鏈接對集合，表示從源圖譜中鏈接到目標圖譜中的實體對。

CoLink 框架

CoLink 框架基于如算法 1 所示的協同訓練算法。我們在該框架中定義兩個不同的模型：一個基于屬性的模型 fatt 和一個基于關系的模型 frel。這兩個模型都會進行二元分類預測，將一組給定實體對分類為正例（鏈接的）或負例（非鏈接的）。該協同訓練算法以迭代的方式不斷增強這兩個模型。在每一次協同訓練迭代過程中，兩個模型都會使用已鏈接配對集 S 進行再訓練。然后使用這兩個模型生成的高質量的已鏈接配對會被合并到 S 中以用于下一次迭代，直到 S 收斂。在最開始時，需要一個初始的已鏈接配對集（簡稱種子集）來啟動這個協同訓練過程，這個集合可以通過一組種子規則生成。根據模型所用的算法，基于屬性的模型和基于關系的模型的訓練可能會需要負例。算法 1 中沒有給出采樣負例的過程。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

算法 1：CoLink 中的協同訓練算法

這個協同訓練算法不會修改之前的迭代中生成的已鏈接配對。因此由之前的迭代引入的誤差不會在后面得到修復。這種算法的一種替代方案是在協同訓練收斂之后進行一次最終修改。即使用該協同學習過程所得到的最終模型來重構 S。

種子規則

該協同訓練算法的啟動需要一個已鏈接實體對構成的小型種子集。獲取種子集的一種簡單直接的方法是根據人工設計的規則來生成，我們稱之為種子規則。這些種子規則可以考慮來自目標知識圖譜的以下事實：

實體名稱唯一性
實體屬性值映射
實體關系傳播

種子規則的選取會直接影響 CoLink 的表現。

基于屬性的模型

基于屬性的模型通過考慮實體的屬性來預測鏈接的實體對。它可以使用任何分類算法。在這篇論文中，我們嘗試了兩種不同的機器學習算法：「序列到序列」和支持向量機（SVM）。

序列到序列

由于屬性有不同的變化形式，所以傳統的字符串相似度方法在處理屬性對齊方面表現很差。由于屬性對齊類似于機器翻譯問題，所以我們采用了「序列到序列」方法。縮略語、縮寫、同義詞甚至隱式鏈接都可被視為翻譯的特殊情況。

我們采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網絡結構。該網絡由兩部分構成：序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長短期記憶（LSTM）架構。編碼器深度 LSTM 會讀取輸入序列并求出每個詞位置的表示向量。然后這些向量會被送入一個注意層（attention layer），從而得到一個考慮了輸出詞位置的輸入序列的整體表示。然后解碼器深度 LSTM 的隱藏狀態會進一步被送入一個全連接層（其輸出包含詞匯庫大小的維度信息），進而預測輸出詞。

我們按照之前的工作，使用已鏈接屬性值配對訓練了「序列到序列」網絡。但是，我們不是使用網絡預測輸出序列，而是在 CoLink 中使用所學習到的「序列到序列」網絡來進行二元分類。首先，我們使用該網絡求出對于一對屬性匹配的概率。然后，我們選擇一個匹配概率閾值，超過該閾值的實體對被認為是有鏈接的。

支持向量機

SVM 等傳統的分類算法也可以用在基于屬性的模型中。不同于只需要正例訓練樣本（已鏈接配對）的「序列到序列」方法，SVM 還需要負例。因為用戶配對空間非常大，所以正例在整個空間中實際上非常稀疏。在每次聯合訓練迭代中，給定已鏈接配對，我們還會選擇同等數量的隨機實體對作為負例。

基于關系的模型

基于關系的模型僅使用實體關系來預測鏈接實體對。只根據關系來尋找兩個網絡中同等結點的問題通常被稱為網絡對齊問題。

基于關系的模型可以使用任何基于關系的網絡對齊模型。因為本文的重點是協同訓練算法和「序列到序列」的基于屬性的模型，所以我們在本論文中使用了一種簡單的啟發式模型，該模型基于一個假設：如果兩個來自不同網絡的實體都具有大量互相關聯的已鏈接實體，那么這兩個實體很可能也是鏈接的。

實驗

我們的實驗比較了 CoLink 與當前最佳的無監督方法。我們還研究了種子規則和鏈接概率閾值的選擇，以更好地理解它們對鏈接結果的可能影響方式。

數據集

我們選擇了一個真實數據集來評估 CoLink，它包含兩個社交網絡。其中一個社交網絡是領英，另一個網絡是一個企業內部用戶網絡。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

表 1：數據集總體情況

候選實體對的選擇

我們構建了一個候選實體對過濾器，它能移除大量不可能鏈接的實體對。該候選項過濾器考慮了以下屬性。

實體名
組織機構

在過濾之后，我們得到了 758046 個候選實體對，其涵蓋了測試集合中所有有鏈接的配對。

序列到序列

我們實驗中的「序列到序列」網絡由一個帶注意網絡的深度 LSTM 編碼器和一個深度 LSTM 解碼器構成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個層疊的 LSTM，因為我們發現對于實體鏈接任務而言，超過 2 層的編碼器或解碼器不能再帶來更多提升。每個 LSTM 的循環單元大小為 512。每個詞在被送入編碼器和解碼器之前都首先會被轉換成一個 512 維的嵌入向量。「序列到序列」模型的訓練時間取決于訓練數據的規模。平均而言，使用一個 Tesla K40 GPU，讓模型在 10 萬個屬性配對上完成訓練需要 30 分鐘。

種子規則

為了測試 CoLink 的穩健性，我們嘗試了下列 3 個種子規則集：

粗略調整的集合
精細調整的集合
有噪聲集合

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架

圖 1：種子集比較；協同訓練迭代開始后的 P/R/F1 趨勢

協同訓練

我們通過將關系特征和屬性特征分開而使用了協同訓練。基于屬性的模型和基于關系的模型都能在每次迭代中找到新配對然后增強彼此。圖 2 給出了每個模型所得到的已鏈接配對的統計情況。在這項任務中，基于屬性的模型生成的配對比基于關系的模型多，這是因為我們沒有完整的領英關系數據。我們爬取了公開的領英個人資料中的「人們還看了」列表，這只能為每位用戶提供不到 10 個關系。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監督學習框架