知識圖譜前沿跟進，看這篇就夠了，Philip S. Yu 團隊發(fā)布權(quán)威綜述，六大開放問題函待解決！

本文作者： MrBear

編輯：幸麗娟

2020-03-16 16:06

導語：六大前景研究方向，走起！

雷鋒網(wǎng) AI 科技品論按：2019 年年底，圖靈獎獲得者 Bengio 指出，我們正處于從以感知智能為代表的深度學習系統(tǒng) 1，向以認知智能為代表的深度學習系統(tǒng) 2 過渡的時期。

在這個過程中，知識圖譜技術(shù)起到了關(guān)鍵性的作用。近年來，圖網(wǎng)絡(luò)的蓬勃發(fā)展也印證了這一趨勢。

本文是數(shù)據(jù)科學權(quán)威 Philip S. Yu 團隊對知識圖譜領(lǐng)域的最新綜述，從發(fā)展歷史、理論基礎(chǔ)、實際應用、未來的研究方向等方面為該領(lǐng)域勾畫出了一幅宏偉而全面的圖景。

引入人類的知識是人工智能的重要研究方向之一。知識表征和推理受到了人類解決問題方法的啟發(fā)，旨在為智能系統(tǒng)表征知識，從而獲得解決復雜問題的能力。最近，知識圖譜作為一種結(jié)構(gòu)化的人類知識，同時受到了學術(shù)界和工業(yè)界人士的極大關(guān)注。

知識圖譜是一種對于事實的結(jié)構(gòu)化表征，它由實體、關(guān)系和語義描述組成。實體可以是真實世界中存在的對象，也可以是抽象的概念；關(guān)系則表示實體之間的關(guān)聯(lián)；實體及其關(guān)系的語義描述包含定義良好的類型和屬性。如今，屬性圖已經(jīng)被廣泛使用，其中節(jié)點和關(guān)系都具有屬性。

術(shù)語「知識圖譜」和「知識庫」幾乎是同義詞，只有很微小的差別。當我們考慮知識圖譜的圖結(jié)構(gòu)時，可以將其視為一個圖。當涉及形式語義問題時，它又可以作為對事實進行解釋和推理的知識庫。知識庫和知識圖譜的具體形式如圖 1 所示。

知識可以通過資源描述框架（RDF）被表示為一種事實三元組的形式，如（頭實體，關(guān)系，尾實體）或（主語，謂語，賓語），例如（愛因斯坦，是...獲獎者，諾貝爾獎）。知識也可以被表征為一種有向圖，其節(jié)點代表實體，邊代表關(guān)系。

為了簡便起見，并順應研究社區(qū)的發(fā)展趨勢，本文中互換使用知識圖譜和知識庫這兩個術(shù)語。

圖 1：知識庫和知識圖譜示意圖

近年來，基于知識圖譜的研究主要關(guān)注的是，通過將實體和關(guān)系映射到低維向量中，獲取它們的語義信息，從而實現(xiàn)知識表征學習（KRL）或知識圖譜嵌入（KGE）。具體的知識獲取任務包括知識圖譜補全（KGC）、三元組分類、實體識別，以及關(guān)系抽取。

基于知識的模型得益于異構(gòu)信息、豐富的知識表征本體和語義，以及多種語言知識的集成。因此，在常識理解能力和推理能力取得進步的同時，諸如推薦系統(tǒng)和問答系統(tǒng)等許多真實世界中的應用也走向了繁榮。微軟的 Satori 和谷歌的知識圖譜等現(xiàn)實世界中的產(chǎn)品，已經(jīng)展現(xiàn)出了提供更多高效服務的強大能力。

一、知識庫簡史

在邏輯學和人工智能領(lǐng)域，知識表征經(jīng)歷了漫長的發(fā)展歷史。用圖進行知識表征的思想最早可以追溯到 Richens 在 1956 年提出的「語義網(wǎng)」（Semantic Net），而符號邏輯知識則可以追溯到 1959 年的通用問題求解器。

起初，知識庫被用于基于知識的推理的問題求解系統(tǒng)。MYCIN 是被用于醫(yī)學診斷的、最著名的基于規(guī)則的專家系統(tǒng)之一，它擁有一個包含約 600 條規(guī)則的知識庫。

在這之后，人類知識表征研究社區(qū)在基于框架的語言、基于規(guī)則的表征以及混合表征方面都取得了一定的研究進展。大約在這一時期的末期，旨在集成人類知識的 Cyc 計劃，開始了。

資源描述框架（RDF）和網(wǎng)絡(luò)本體語言（OWL）相繼發(fā)布，成為了語義網(wǎng)的重要標準。接著，人們也發(fā)布了諸如 WordNet、DBpedia、YAGO 和 Freebase 這樣的開放的知識庫或本體。

Stokman 和 Vries 于 1988 年提出了現(xiàn)代意義上的以圖的形式組織知識的思想。然而，知識圖譜的概念開始盛行還要等到 2012 年谷歌首次在其搜索引擎中引入知識圖譜，此時它們提出了被稱為「Knowledge Vault」的知識融合框架，從而構(gòu)建大規(guī)模知識圖譜。知識庫的發(fā)展歷史簡圖請參閱本文附錄 A。

二、相關(guān)定義和符號

研究人員做了大量工作，通過描述通用語義表征或本質(zhì)特征來為知識圖譜給出定義。然而，知識圖譜至今仍沒有被廣為接受的正式定義。Paulheim 定義了 4 種知識圖譜的標準。 Ehrlinger 和 Wo ?? 分析了一些現(xiàn)有的定義，并提出了如下所示的定義 1，它強調(diào)了知識圖譜的推理引擎。Wang 等人在定義 2 中提出了一個多關(guān)系圖的定義。

受到之前這些工作的啟發(fā)，我們將一個知識圖譜定義為 G = {E,R,F}，其中 E、R、F分別是實體、關(guān)系和事實的集合。事實可以被表示為一個三元組 (h,r,t) ∈ F。

定義 1（Ehrlinger 和 Wo ??）：知識圖譜會獲取信息并將其集成到一個本體中，使用一個推理器產(chǎn)生新的知識。

定義 2（Wang 等人）：知識圖譜是由實體和關(guān)系構(gòu)成的多關(guān)系圖，實體被視為節(jié)點而關(guān)系被視為各種不同類型的邊。

表 1：知識圖譜相關(guān)符號和定義

三、知識圖譜研究分類

1、知識表征學習（KRL）

知識表征學習是知識圖譜領(lǐng)域的關(guān)鍵研究問題，它為許多知識獲取任務和下游應用打下了基礎(chǔ)。我們將 KRL 分為 4 個層面：表征空間、打分函數(shù)、編碼模型和輔助信息。本文還給出了明確的研發(fā) KRL 模型的工作流程。詳細內(nèi)容如下：

1）表征空間

圖 3：不同空間中的知識表征示意圖

學習實體和關(guān)系的低維分布嵌入是表征學習的關(guān)鍵問題?，F(xiàn)有的工作主要使用的是向量、矩陣、張量空間等實值點空間（如圖 3a 所示），同時也會使用復雜向量空間（如圖 3b 所示）、高斯空間（如圖 3c 所示）以及流形（如圖 3d 所示）等其它類型的空間。

2)打分函數(shù)

圖 4：基于距離和基于相似度匹配的打分函數(shù)示意圖，分別以 TransE 和 DistMult 為例。

打分函數(shù)被用來衡量事實的合理性，它在基于能量的學習框架中也被稱為能量函數(shù)。基于能量的學習旨在學習輸入為 x、參數(shù)為 θ 的能量函數(shù) E_θ(x)，它將確保正樣本比負樣本有更高的得分。在本文中，統(tǒng)一將其稱為「打分函數(shù)」。

典型的用于衡量事實合理性的打分函數(shù)分為兩類：即基于距離的打分函數(shù)（如圖 4a 所示）和基于相似度的打分函數(shù)（如圖 4b）?；诰嚯x的打分函數(shù)通過計算實體之間的距離衡量事實的合理性，通過實體間關(guān)系實現(xiàn) h + r ≈ t 這種加法變換的思想被廣泛使用?；谡Z義相似度的打分函數(shù)通過語義匹配衡量事實的合理性，它通常采用這樣的乘法公式在表征空間中將頭實體變換得與尾實體相近。

3）編碼模型

編碼模型通過特定的模型架構(gòu)（如線性/雙線性模型、因子分解模型、神經(jīng)網(wǎng)絡(luò)）編碼實體和關(guān)系之間的相互作用。

線性模型通過將頭實體投影到接近尾實體的表征空間中，將關(guān)系表示為一個線性/雙線性映射。因子分解旨在將關(guān)系型數(shù)據(jù)分解到低秩矩陣中，從而進行表征學習。神經(jīng)網(wǎng)絡(luò)則通過非線性神經(jīng)激活映射和更加復雜的網(wǎng)絡(luò)結(jié)構(gòu)對關(guān)系型數(shù)據(jù)進行編碼。一些常見的神經(jīng)網(wǎng)絡(luò)模型如圖 5 所示。

圖 5：神經(jīng)編碼模型示意圖。（a）多層感知機，和（b）卷積神經(jīng)網(wǎng)絡(luò)將三元組輸入到全連接層中，并且進行卷積操作，從而學習到語義表征。（c）圖卷積網(wǎng)絡(luò)作為知識圖譜編碼器，生成實體和關(guān)系的嵌入。（d）RSN 有差別地對「實體-關(guān)系序列」和跳躍關(guān)系進行編碼。

4）輔助信息

為了促進更有效的知識表征，多模態(tài)嵌入將諸如文本描述、類型約束、關(guān)系路徑以及視覺信息等外部信息與知識圖譜本身融合在了一起。

在知識圖譜研究社區(qū)中，知識表征學習是非常重要的?？偟膩碚f，想要研發(fā)一個新的知識表征學習模型需要回答以下 4 個問題：（1）選擇怎樣的表征空間；（2）如何度量特定空間中的三元組合理性；（3）用怎樣的編碼模型編碼關(guān)系的相互作用；（4）是否要利用輔助信息。

最常用的表征空間是歐氏點空間，它將實體嵌入到向量空間中，并且通過向量、矩陣或張量對相互作用進行建模。人們也研究了其它的表征空間（包括復雜向量空間、高斯分布、流形空間、群）。

相對于歐氏點空間，流形空間的優(yōu)勢在于它能夠松弛基于點的嵌入；高斯嵌入可以表達出實體和關(guān)系之間的不確定性，以及多重關(guān)系語義；復雜向量空間中的嵌入可以有效地建模不同的關(guān)系連接模型，特別是對稱/反對稱模式。

在編碼實體的語義信息和獲取關(guān)系屬性時，表征空間起著非常重要的作用。當我們研發(fā)一個表征學習模型時，應該選擇合適的表征空間，該表征空間被精心設(shè)計以匹配編碼方式的特性，并且能夠在表達能力和計算復雜度之間達到平衡。

采用基于距離的度量的打分函數(shù)會用到相應的轉(zhuǎn)化原則，而基于語義匹配的打分函數(shù)則會采用成分級別的操作。編碼模型（尤其是神經(jīng)網(wǎng)絡(luò)）在對于實體和關(guān)系的相互作用建模的過程中起到了關(guān)鍵作用。雙線性模型也受到了很多研究人員的關(guān)注，一些張量分解技術(shù)與此相關(guān)。其它方法則引入了文本描述、關(guān)系/實體類型，以及實體圖像等輔助信息。

表 2：對近期知識表征學習工作的總結(jié)。詳情請參閱附錄 C

2、知識獲取

知識獲取旨在根據(jù)非結(jié)構(gòu)化的文本構(gòu)建知識圖譜、補全一個現(xiàn)有的知識圖譜，發(fā)現(xiàn)并識別出實體和關(guān)系。構(gòu)建好的大型知識圖譜對于很多下游應用是很有用的，可以賦予基于知識的模型常識推理的能力，因此為實現(xiàn)人工智能打下基礎(chǔ)。

知識獲取的主要任務包括關(guān)系抽取、知識圖譜補全、以及其它面向?qū)嶓w的獲取任務，如實體識別和實體對齊。大多數(shù)方法單獨地形式化定義知識圖譜補全和關(guān)系抽取。然而，這兩種任務也可以被整合到一個統(tǒng)一的框架中。

Han 等人基于互注意力機制提出了一種聯(lián)合學習框架，這種互注意力機制被用于知識圖譜和文本之間的數(shù)據(jù)融合，該框架同時解決了根據(jù)文本進行知識圖譜補全和關(guān)系抽取的問題。此外，還有一些任務也與知識補全有關(guān)（例如，三元組分類和關(guān)系分類）。在本節(jié)中，我們將完整地回顧知識補全、實體發(fā)現(xiàn)和關(guān)系抽取三步知識獲取技術(shù)。

1）知識圖譜補全（KGC）

由于大多知識圖譜具有不完整性，人們研發(fā)知識補全技術(shù)將新的三元組添加到一個新的知識圖譜中。典型的子任務包括鏈接預測、實體預測和關(guān)系預測。下面我們給出面向任務的定義 3.

定義 3： 給定一個不完整的知識圖譜 G=（E，R，F(xiàn)），知識圖譜補全旨在推理出缺失的三元組 T={（h，r，t）|（h，r，t）? F}

初期的知識圖譜補全研究重點關(guān)注為三元組預測學習低維嵌入。在本文中，我們將其稱為「基于嵌入的方法」。

然而，大多數(shù)這些方法都不能獲取多級關(guān)系。因此，最近的工作轉(zhuǎn)而探索多級關(guān)系路徑并引入了邏輯關(guān)系，我們分別將其稱為「關(guān)系路徑推理」和「基于規(guī)則的推理」。三元組分類是知識圖譜補全的一個輔助任務，它被用來評價事實三元組的正確性。

2）實體發(fā)現(xiàn)

實體發(fā)現(xiàn)可以從文本中獲取面向?qū)嶓w的知識，并且在各個知識圖譜之間進行知識融合。根據(jù)具體情況，可以將實體發(fā)現(xiàn)任務分為幾種不同的類別。

我們以一種序列到序列（Seq2Seq）的方式探究實體識別任務；而實體分類任務則重點討論的是有噪聲的類型標簽和零樣本分類；實體消歧和對齊任務會學習統(tǒng)一的嵌入，它們提出迭代式的對齊模型解決對齊種子實體數(shù)量有限的問題。但是如果新對齊的實體性能很差，它將會面臨誤差累積的問題。

近年來，針對特定語言的知識越來越多，因此必然激發(fā)了對于跨語言知識對齊的研究。

圖 8：一些實體發(fā)現(xiàn)任務的示意圖

3）關(guān)系抽取

關(guān)系抽取是自動構(gòu)建大型知識圖譜的關(guān)鍵任務，該任務將從樸素文本中抽取出未知的關(guān)系事實，并將他們添加到知識圖譜中。

由于缺乏帶有標簽的關(guān)系型數(shù)據(jù)，遠程監(jiān)督（Distant Supervision）技術(shù)（又稱弱監(jiān)督或自監(jiān)督）使用啟發(fā)式匹配，假設(shè)在關(guān)系型數(shù)據(jù)庫的監(jiān)督下，包含相同實體的句子可能表達相同的關(guān)系，從而創(chuàng)建訓練數(shù)據(jù)。

Mintz 等人將遠程監(jiān)督用于關(guān)系分類任務，他們用到的文本特征包括詞法和句法特征、命名實體標簽，以及連接詞特征。傳統(tǒng)的方法高度依賴于特征工程，而最近的一種方法則探索了特征之間的內(nèi)在聯(lián)系。深度神經(jīng)網(wǎng)絡(luò)也正在改變知識圖譜和文本的表征學習。最近在神經(jīng)關(guān)系抽?。∟RE）方法上的研究進展如圖 9 所示。

圖 9：神經(jīng)關(guān)系抽取概覽

關(guān)系抽取任務在遠程監(jiān)督的假設(shè)下會遇到帶有噪聲的模式，特別是在不同領(lǐng)域之間進行遠程監(jiān)督時。因此，對于弱監(jiān)督關(guān)系抽取來說，減小帶噪聲標簽的影響是非常重要的（例如，通過多示例學習將多個句子組成的包作為輸入，使用注意力機制在示例上進行「軟」選擇從而減少帶噪聲的模式，基于強化學習的方法將示例選擇表示為硬性決策。另一個原則是，盡可能學習到更加豐富的表征。由于深度神經(jīng)網(wǎng)絡(luò)可以解決傳統(tǒng)特征抽取方法中的誤差傳播問題，該領(lǐng)域一直被基于深度神經(jīng)網(wǎng)絡(luò)的模型所主導。

表 4：神經(jīng)關(guān)系抽取近期研究進展一覽

3、時序知識圖譜

現(xiàn)有的知識圖譜研究大多數(shù)都關(guān)注的是靜態(tài)知識圖譜，其中事實不會隨著時間而變化，然而目前對知識圖譜的時序動態(tài)變化的研究則較少。然而，由于結(jié)構(gòu)化的知識僅僅在特定的時間段內(nèi)成立，所以時序信息是非常重要的，而事實的演化也會遵循一個時間序列。

近期的研究開始將時序信息引入知識表征學習和知識圖譜補全任務。為了與之前的靜態(tài)知識圖譜產(chǎn)生對比，我們將其稱為「時序知識圖譜」。為了同時學習時序嵌入和關(guān)系嵌入，人們進行了大量的研究工作。

1）時序信息嵌入

在與時序有關(guān)的嵌入中，我們通過將三元組拓展成時序四元組 (h,r,t,τ) 來考慮時序信息。其中 τ 提供了關(guān)于事實何時成立的額外的時序信息。Leblay 和 Chekol 利用帶有時間標注的三元組研究了時序范圍預測問題，并簡單地拓展了現(xiàn)有的嵌入方法。例如，將 TransE 拓展為基于向量的 TTransE 定義如下：

2）實體動態(tài)

現(xiàn)實世界中的事件會改變實體的狀態(tài)，并因此影響相應的關(guān)系。為了提升時間范圍預測的性能，上下文時序剖面模型將時序范圍預測形式化定義為了狀態(tài)變化檢測問題，利用上下文學習狀態(tài)和狀態(tài)變化向量。

「Know-evolve」是一種深度演化知識網(wǎng)絡(luò)，它研究了實體和它們演化后的關(guān)系的知識演化現(xiàn)象。人們使用了一種多變量時序點過程對事實的發(fā)生進行建模，研發(fā)出了一種新型的循環(huán)網(wǎng)絡(luò)學習非線性時序演化的表征。

為了獲取節(jié)點之間的相互作用，RE-NET 通過基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器和鄰居聚合器對事件序列進行建模。具體而言，他們使用循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取時序?qū)嶓w相互作用的信息，并且通過鄰居聚合器將同時發(fā)生的相互作用進行聚合。

3）時序關(guān)系依賴

在關(guān)系鏈中，沿著時間線存在時序依賴關(guān)系。例如，「在...出生 →從...畢業(yè) → 在...工作 → 在...去世」。Jiang 等人提出了基于時間的嵌入，這是一種帶有時序正則化的聯(lián)合學習框架，從而引入時間順序和一致性信息。作者將時序打分函數(shù)定義如下：

其中，是一個非對稱矩陣，它為時序順序關(guān)系對?r_k,r_l?編碼了關(guān)系的時序順序。此后，人們又進一步通過整數(shù)線性規(guī)劃公式，應用了不相交性（disjointness）、有序性（ordering）和跨度（spans）三種時間一致性約束。

4）時序邏輯推理

研究人員還研究了時序推理的邏輯規(guī)則。Chekol 等人探究了在非確定性時序知識圖譜上進行推理的馬爾科夫邏輯網(wǎng)絡(luò)和概率軟邏輯。RLvLR-Stream 則考慮閉合時間路徑規(guī)則，并從知識圖譜流中學習規(guī)則的結(jié)構(gòu)進行推理。

4、基于知識的應用

對于人工智能應用來說，豐富的結(jié)構(gòu)化知識是很有用的。但是如何將這些符號化的知識融合到現(xiàn)實世界應用的計算框架中仍然是一大挑戰(zhàn)。本節(jié)將介紹一些近期的基于深度神經(jīng)網(wǎng)絡(luò)的知識驅(qū)動方法在自然語言理解（NLU）任務上的應用。

1）自然語言理解

基于知識的自然語言理解通過被注入統(tǒng)一語義空間的結(jié)構(gòu)化知識提升了語言表征的性能。最近，該領(lǐng)域由知識驅(qū)動的研究進展利用了顯式的事實知識和隱式的語言表征，并探索了許多自然語言理解任務。

Chen 等人提出了在兩個知識圖譜（即一個基于槽（slot-based）的語義知識圖譜和基于單詞的詞法知識圖譜）上的雙圖隨機游走技術(shù)，從而考慮口語理解中的槽間關(guān)系。Wang 等人通過加權(quán)的「單詞-概念」嵌入實現(xiàn)的基于知識的概念模型增強了短文本表征學習。Peng 等人融合了外部知識庫，從而為短社交文本的事件分類任務構(gòu)建了異構(gòu)信息圖譜。

2）問答系統(tǒng)

基于知識的問答（KG-QA）系統(tǒng)使用來源于知識圖譜的事實回答自然語言問題?；谏窠?jīng)網(wǎng)絡(luò)的方法在分布式語義空間中表征問題和答案，也有一些方法進行了符號知識注入，從而實現(xiàn)常識推理。

通過將知識圖譜作為外部智能來源，簡單的事實型問答系統(tǒng)或單一事實問答系統(tǒng)就可以回答設(shè)計單個知識圖譜事實的簡單問題。Bordes 等人通過將知識庫作為外部記憶，將記憶網(wǎng)絡(luò)用于簡單的問答.

這些基于神經(jīng)網(wǎng)絡(luò)的方法將神經(jīng)「編碼器-解碼器」模型結(jié)合起來，獲得了性能的提升。但是想要處理復雜的多級關(guān)系還需要能夠處理多級常識推理的、更加專用的網(wǎng)絡(luò)設(shè)計。結(jié)構(gòu)化的知識提供了富含信息的常識觀察，并作為一種關(guān)系型歸納偏置存在，它促進了最近關(guān)于多級推理的符號和語義空間之間的常識知識融合的研究。

3）推薦系統(tǒng)

研究人員通過協(xié)同過濾對推薦系統(tǒng)進行了廣泛的研究，該方法使用了用戶的歷史信息。然而，這種方法往往不能解決稀疏性問題和冷啟動問題。將知識圖譜作為外部信息引入可以為推薦系統(tǒng)賦予常識推理的能力。

通過注入基于知識圖譜的輔助信息（例如，實體、關(guān)系和屬性），研究人員在用于提升推薦性能的嵌入正則化方面做了大量工作。還有一些工作考慮到了關(guān)系路徑和知識圖譜的結(jié)構(gòu)，KPRN 將用戶和商品之間的交互看做知識圖譜中的「實體-關(guān)系」路徑，并且使用 LSTM 獲取序列的依賴性，從而在路徑上進行用戶喜好預測。

四、未來的研究方向

研究人員做了大量工作解決知識表征及其相關(guān)應用面臨的挑戰(zhàn)，但是仍然有一些艱難的開放問題有待解決，未來也有一些前景光明的的研究方向。

1、復雜的推理

用于知識表征和推理的數(shù)值化計算需要連續(xù)的向量空間，從而獲取實體和關(guān)系的語義信息。然而，基于嵌入的方法在復雜邏輯推理任務中有一定的局限性，但關(guān)系路徑和符號邏輯這兩個研究方向值得進一步探索。在知識圖譜上的循環(huán)關(guān)系路徑編碼、基于圖神經(jīng)網(wǎng)絡(luò)的信息傳遞等具有研究前景的方法，以及基于強化學習的路徑發(fā)現(xiàn)和推理對于解決復雜推理問題是很有研究前景的。

在結(jié)合邏輯規(guī)則和嵌入的方面，近期的工作將馬爾科夫邏輯網(wǎng)絡(luò)和 KGE 結(jié)合了起來，旨在利用邏輯規(guī)則并處理其不確定性。利用高效的嵌入實現(xiàn)能夠獲取不確定性和領(lǐng)域知識的概率推理，是未來一個值得注意的研究方向。

2、統(tǒng)一的框架

已有多個知識圖譜表征學習模型被證明是等價的。例如，Hayshi 和 Shimbo 證明了 HoIE 和 ComplEx 對于帶有特定約束的鏈接預測任務在數(shù)學上是等價的。ANALOGY 為幾種具有代表性的模型（包括 DistMult、ComplEx，以及 HoIE）給出了一個統(tǒng)一的視角。Wang 等人探索了一些雙線性模型之間的聯(lián)系。Chandrahas 等人探究了對于加法和乘法知識表征學習模型的幾何理解。

大多數(shù)工作分別使用不同的模型形式化定義了知識獲取的知識圖譜補全任務和關(guān)系抽取任務。Han 等人將知識圖譜和文本放在一起考慮，并且提出了一種聯(lián)合學習框架，該框架使用了在知識圖譜和文本之間共享信息的互注意力機制。不過這些工作對于知識表征和推理的統(tǒng)一理解的研究則較少。

然而，像圖網(wǎng)絡(luò)的統(tǒng)一框架那樣對該問題進行統(tǒng)一的研究，是十分有意義的，將填補該領(lǐng)域研究的空白。

3、可解釋性

知識表征和注入的可解釋性對于知識獲取和真實世界中的應用來說是一個關(guān)鍵問題。在可解釋性方面，研究人員已經(jīng)做了一些初步的工作。ITransF 將稀疏向量用于知識遷移，并通過注意力的可視化技術(shù)實現(xiàn)可解釋性。CrossE 通過使用基于嵌入的路徑搜索來生成對于鏈接預測的解釋，從而探索了對知識圖譜的解釋方法。

然而，盡管最近的一些神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了令人印象深刻的性能，但是它們在透明度和可解釋性方面仍存在局限性。一些方法嘗試將黑盒的神經(jīng)網(wǎng)絡(luò)模型和符號推理結(jié)合了起來，通過引入邏輯規(guī)則增加可解釋性。

畢竟只有實現(xiàn)可解釋性才可以說服人們相信預測結(jié)果，因此研究人員需要在可解釋性和提升預測知識的可信度的方面做出更多的工作。

4、可擴展性

可擴展性是大型知識圖譜的關(guān)鍵問題。我們需要在計算效率和模型的表達能力之間作出權(quán)衡，而只有很少的工作被應用到了多于 100 萬個實體的場景下。一些嵌入方法使用了簡化技術(shù)降低了計算開銷（例如，通過循環(huán)相關(guān)運算簡化張量的乘積）。然而，這些方法仍然難以擴展到數(shù)以百萬計的實體和關(guān)系上。

類似于使用馬爾科夫邏輯網(wǎng)絡(luò)這樣的概率邏輯推理是計算密集型的任務，這使得該任務難以被擴展到大規(guī)模知識圖譜上。最近提出的神經(jīng)網(wǎng)絡(luò)模型中的規(guī)則是由簡單的暴力搜索（BF）生成的，這使得它在大規(guī)模知識圖譜上不可行。例如 ExpressGNN 試圖使用 NeuralLP 進行高效的規(guī)則演繹，但是要處理復雜的深度架構(gòu)和不斷增長的知識圖譜還有很多研究工作有待探索。

5、知識聚合

全局知識的聚合是基于知識的應用的核心。例如，推薦系統(tǒng)使用知識圖譜來建?！赣脩?商品」的交互，而文本分類則一同將文本和知識圖譜編碼到語義空間中。不過，大多數(shù)現(xiàn)有的知識聚合方法都是基于注意力機制和圖神經(jīng)網(wǎng)絡(luò)（GNN）設(shè)計的。

得益于 Transformers 及其變體（例如 BERT 模型），自然語言處理研究社區(qū)由于大規(guī)模預訓練取得了很大的進步。而最近的研究發(fā)現(xiàn)，使用非結(jié)構(gòu)化文本構(gòu)建的預訓練語言模型確實可以獲取到事實知識。大規(guī)模預訓練是一種直接的知識注入方式。然而，以一種高效且可解釋的方式重新思考只是聚合的方式也是很有意義的。

6、自動構(gòu)建和動態(tài)變化

現(xiàn)有的知識圖譜高度依賴于手動的構(gòu)建方式，這是一種開銷高昂的勞動密集型任務。知識圖譜在不同的認知智能領(lǐng)域的廣泛應用，對從大規(guī)模非結(jié)構(gòu)化的內(nèi)容中自動構(gòu)建知識圖譜提出了要求。

近期的研究主要關(guān)注的是，在現(xiàn)有的知識圖譜的監(jiān)督信號下，半自動地構(gòu)建知識圖譜。面對多模態(tài)、異構(gòu)的大規(guī)模應用，自動化的知識圖譜構(gòu)建仍然面臨著很大的挑戰(zhàn)。

目前，主流的研究重點關(guān)注靜態(tài)的知識圖譜。鮮有工作探究時序范圍的有效性，并學習時序信息以及實體的動態(tài)變化。然而，許多事實僅僅在特定的時間段內(nèi)成立。

考慮到時序特性的動態(tài)知識圖譜，將可以解決傳統(tǒng)知識表征和推理的局限性。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。