實戰(zhàn)：利用知識圖譜分析企業(yè)信息資產威脅（要點＋視頻）

本文作者：李勤

2018-02-10 09:17

導語：如何利用知識圖譜，對企業(yè)信息資產面臨的安全威脅，進行構建、繪制、挖掘以及分析的實踐經驗。

知識圖譜能夠把復雜的知識領域通過語義匹配，數據挖掘、信息處理、知識計量和圖形繪制顯示出來，揭示知識領域的動態(tài)發(fā)展規(guī)律，為研究和決策提供切實的、有價值的參考。

因此，當知識圖譜應用于信息資產安全威脅的發(fā)現(xiàn)與分析時，能夠顯著提升發(fā)現(xiàn)資產安全威脅的效率和準確率，為企業(yè)安全人員的威脅分析提供決策依據。

本次雷鋒網硬創(chuàng)公開課，北京數字觀星科技有限公司創(chuàng)始人郭亮分享了如何利用知識圖譜，對企業(yè)信息資產面臨的安全威脅，進行構建、繪制、挖掘以及分析的實踐經驗。

嘉賓介紹

郭亮，北京數字觀星科技有限公司創(chuàng)始人，超過20年大型業(yè)務信息系統(tǒng)安全運營管理經驗，曾擔任過國家發(fā)改委多個重大技術專項課題的技術負責人。

演講提要

以下為雷鋒網該演講提要，要想獲取完整內容，請移步視頻回放區(qū)：http://www.mooc.ai/course/443/learn#lesson/2420。

一、知識圖譜的相關概念和構建

1.知識圖譜

Google于2012年首先提出了知識圖譜（Knowledge Graph）概念，目的在于描述真實世界中存在的各種實體、概念，以及它們之間的關聯(lián)關系，大幅改善搜索體驗。

本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖，節(jié)點表示實體或概念，邊則由屬性或關系構成。

知識是一個內涵非常豐富的概念；知識廣泛存在于社會各個領域。科學知識圖譜廣義上包括：生物的基因圖譜、教育教學中的認知地圖、探索太空的天體圖、描繪地形的GIS、模擬人腦的神經網絡圖、各種金屬圖譜等。

知識圖譜是以科學知識為對象，顯示學科的發(fā)展進程與結構關系的一種圖形，具有“圖”和“譜”的雙重性質與特征。

2.知識圖譜的3種節(jié)點：

實體: 指的是具有可區(qū)別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成，此指實體。如圖1的“中國”、“美國”、“日本”等。，實體是知識圖譜中的最基本元素，不同的實體間存在不同的關系。

語義類（概念）：具有同種特性的實體構成的集合，如國家、民族、書籍、電腦等。概念主要指集合、類別、對象類型、事物的種類，例如人物、地理等。

內容: 通常作為實體和語義類的名字、描述、解釋等，可以由文本、圖像、音視頻等來表達。

基于上述定義。基于三元組是知識圖譜的一種通用表示方式，即,其中，是知識庫中的實體集合，共包含|E|種不同實體；是知識庫中的關系集合，共包含|R|種不同關系；代表知識庫中的三元組集合。三元組的基本形式主要包括(實體1-關系-實體2)和(實體-屬性-屬性值)等。

每個實體(概念的外延)可用一個全局唯一確定的ID來標識，每個屬性-屬性值對(attribute-value pair，AVP)可用來刻畫實體的內在特性，而關系可用來連接兩個實體，刻畫它們之間的關聯(lián)。如下圖1的知識圖譜例子所示，中國是一個實體，北京是一個實體，中國-首都-北京是一個（實體-關系-實體）的三元組樣例北京是一個實體，人口是一種屬性2069.3萬是屬性值。北京-人口-2069.3萬構成一個（實體-屬性-屬性值）的三元組樣例。

3.知識圖譜的構建

包括3個步驟：

信息抽取，即從各種類型的數據源中提取出實體（概念）、屬性以及實體撿的相互關系，在此基礎上形成本體化的知識表達

知識融合，在獲得新知識后，需要對其進行整合，以消除矛盾和歧義，比如某些實體可能有多種表達，某個特定稱謂也許對應于多個不同的實體等

知識加工，對于經過融合的新知識，需要經過質量評估之后（部分需要人工參與甄別），才能將合格的部分加入到知識庫中，以確保知識庫的質量，新增數據之后，可以進行知識推理、拓展現(xiàn)有知識、得到新知識。

實戰(zhàn)：利用知識圖譜分析企業(yè)信息資產威脅（要點＋視頻）

4.知識樣本數據的獲取

傳統(tǒng)靜態(tài)知識

主要數據來源：Web of Science

科學文獻數據：(SCI) (SSCI)

專利文獻數據：德溫特創(chuàng)新索引DII

國際會議文獻數據：(CPCI)

國內數據庫：CNKI、CSSCI、CSCD、萬方等

網絡數據源：Google Scholar、arXiv、CiteSeerX

動態(tài)知識

主要數據來源：事件數據

另外還有Scopus，Science Direct

設備可讀取以及可輸出的異常數據

4.樣本數據的梳理

基于數據進行知識可視化的質量、合理性和可靠性很大程度上依賴于所用數據的精確性和全面性，不準確或不全面的數據往往造成不精確甚至錯誤的結果。即使目前最權威、公認質量最高的WoS，也存在數據著錄格式（如人名和地名的不統(tǒng)一）和遺漏的問題。

5.數據標準化

為便于可視化，對簡單地頻次計算的單元數據，標準化常常通過數據間的相似度測量。主要有兩大類：一是集合論方法（Set-theoretic measures），包括Cosine、Pearson、Spearman、Inclusion 指數和Jaccard指數；二是概率論方法（Probabilistic measure），主要有合力指數（Association Strength）和概率親和力指數（Probabilistic Af?nity）

6.數據分析-簡化分析

因子分析以較少幾個因子描述許多指標或因素間關系，即把較密切的變量歸在同一類，每類變量成為一個因子，以少量的因子反映原資料中大部分信息。

7.在知識圖譜的解讀過程中，常常需要對圖譜進行相應操作，包括瀏覽、放大、縮小、過濾、查尋、關聯(lián)和按需移動等。主要從以下幾方面著手：網絡分析、歷時分析、空間分析、突變檢測