西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

本文作者：我在思考中

2021-10-19 16:06

導語：論文提出了高效且可解釋的異質圖卷積神經網絡ie-HGCN，其包含了投影，對象級聚合，類型級聚合三個關鍵步驟。

作者 | 楊亞明，管子玉，李建新

趙偉，崔江濤，王泉

單位 | 西安電子科技大學

論文地址：https://ieeexplore.ieee.org/document/9508875

代碼地址：https://github.com/kepsail/ie-HGCN

引言

目前面向異質圖的圖卷積神經網絡普遍存在兩個重要的不足：

（1）大部分已有工作依賴用戶人工輸入一系列任務相關的元路徑（Meta-path），這對于沒有專業知識的用戶來說是困難的。換句話說，已有方法無法有效地、靈活地從所有可能的元路徑中自動挖掘出針對某個任務的最優元路徑，這阻礙了模型的有效性和可解釋性；

（2）大部分已有方法在執行圖卷積之前都需要執行額外的、耗時的預處理操作，這顯著增加了模型的時間復雜度，限制了模型的伸縮性。為了解決上述兩個問題，該論文提出了高效且可解釋的異質圖卷積神經網絡ie-HGCN，其包含了投影，對象級聚合，類型級聚合三個關鍵步驟。該模型可以端到端地自動評估所有可能的元路徑的重要性，在粗粒度和細粒度兩個層面上發現對于當前任務最優的元路徑。而且，提出的兩層聚合架構也可以避免額外的預處理操作，從而降低了模型的時間復雜度。

論文從理論上證明了ie-HGCN自動發現元路徑的能力，分析了其與譜圖卷積的聯系，分析了其近似線性的時間復雜度。在四個真實網絡數據集上的實驗結果顯示，ie-HGCN不僅能夠取得優越的性能，而且可以有效地發現元路徑。

方法

下圖通過在DBLP上的一個模型實例展示了方法的基本流程。如左側子圖（a）所示，模型一共包含5層。在每一層，針對某個對象類型，都將其異質鄰居的特征聚合過來（實線），同時也將其自身的上一層的特征聚合過來（虛線）。右側子圖（b）展示了針對P（Paper）類型對象的計算過程：（1）自身/鄰居的特征投影；（2）利用歸一化鄰接矩陣聚合；（3）利用注意力聚合。

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

圖1 模型整體架構圖

投影

考慮到在異質圖里，不同類型的對象的特征通常有著不同的分布，因此在每一層，通過相關的投影矩陣把鄰居特征映射到一個共同的語義空間中。同時，也將上一層輸出的目標對象的自身特征也投影到這個空間：

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

對象級聚合

對于每種類型的鄰居，通過相應的行歸一化的鄰接矩陣將其投影后的特征聚合起來。這里，自身的投影特征不需要執行對象級聚合。至此，形成若干個臨時的特征，即：目標對象自身的投影特征，以及聚合的各種類型的鄰居的投影特征。每種特征都從不同的方面反映了目標對象的特性。

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

類型級聚合

利用注意力機制將這些臨時的特征聚合起來，從而全面地刻畫目標對象的特性。首先，通過不同的參數將目標對象的自身投影特征映射為注意力的查詢值和鍵值，也通過不同的參數將鄰居的聚合特征映射為相應的鍵值：

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

然后，通過一個小型的非線性神經網絡將查詢與鍵值映射為注意力系數：

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

通過softmax函數將注意力系數歸一化：

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

利用歸一化的注意力系數，將若干個臨時特征聚合起來，形成目標對象本層輸出的新的特征：

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

理論分析

論文從理論上證明、分析了該模型具有以下三個良好的性質：

在粗粒度和細粒度兩個層面上，可以自動發現針對當前任務最優的元路徑。
模型實際上是在譜域執行異質譜圖卷積。
具有近似線性的時間復雜度。

實驗

論文在4個公開的真實數據集上與若干個先進的基線方法進行了實驗比較。結果顯示該模型能夠取得優越的性能以及效率。最重要的是，模型可以有效地自動發現最有用的元路徑，從而促進了模型的可解釋性。我們考慮在DBLP數據集上對作者（A）類型的對象進行分類任務。下圖展示了模型發現的針對此任務最有用的若干元路徑。上方的子圖（a）展示了每一層中，每個目標對象類型與鄰居類型（包括自身）之間的歸一化注意力系數。下方的子圖（b）展示了最有用的幾條元路徑的重要性得分及其計算過程。其中，第二列中的符號“—”代表了自連接（如圖1中的虛線所示），這表明了有些路徑是可以“坍縮”的。如此，經過合并一系列等價的路徑，我們可以得到任意長度的元路徑（第一列）的重要性得分。

很明顯，我們可以看到，元路徑CPA的得分最高，而該路徑的語義是：作者（A）將其論文（P）發表到了會議（C）。令人鼓舞的是，這與數據集的真實情況高度吻合。實際上，這個數據集中，作者（A）類型對象的真實類別標簽（ground-truth label）就是根據作者的論文（P）所發表的會議（C）來被標記的。

其他幾個得分高的元路徑也可以得到合理的解釋。元路徑CPTPA表明除了作者自己所發表論文的會議以外，另外一些會議也很重要，這些會議里的論文和作者的論文有很多共同的關鍵詞（T）。元路徑CPAPA表明作者的共同合作者所發表論文的會議也很重要。元路徑CPCPA也比較有意思，因為一篇論文通常只會被發表到一個會議，從而左側的子路徑CPC等價于子路徑C，進而CPCPA也可以被解釋為CPA。

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

圖2 模型自動發現的最有用的若干元路徑

西電TKDE 2021 | 可自動發現元路徑的異質圖神經網絡

雷鋒網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

AAAI 2021北郵GAMMA Lab 圖神經網絡專場，兩位碩博學 ...

我在思考中

運營

發私信

當月熱門文章