【洞見】美創CTO周杰：如何保護流動的數據

本文作者：李勤

2019-11-26 14:30

導語：為什么會有這種變化？保護數據的思路應該是什么樣？

不知道你們有沒有這種感覺，一堆騷擾、推銷電話時常扎堆打過來，清凈一段時間后，又開始如被鞭尸般撈起來繼續被“騷擾”。

讓人有種恍如隔世的感覺：我的信息到底是在哪個環節泄露的？

住過萬豪酒店的朋友們應該能體會雷鋒網編輯的這種想法，2018 年 3.83 億預訂喜達屋酒店客戶的詳細個人信息遭到泄露。今年 7 月，這家公司被英國罰款 1.24 億美元。

畢竟 1.24 億美元的罰款也不會被平分給這些被泄露信息的受害者，說來也沒什么可高興的。它只發出了一個嚴重警告的信號：出來混，泄露信息，是要挨罰的。

聽起來有點嚴重，前陣子，中國一些涉及非法爬蟲業務的所謂“大數據風控”企業日子不好過，被抓的傳聞四起，這兩天的一個消息是，江蘇淮安警方依法打擊了 7 家涉嫌侵犯公民個人信息犯罪的公司，涉嫌非法緩存公民個人信息 1 億多條，其中，拉卡拉支付旗下的考拉征信涉嫌非法提供身份證返照查詢 9800 多萬次，獲利 3800 萬元。

因此，考拉征信服務有限公司及北京黑格公司的法定代表人、董事長、銷售、技術等 20 余名涉案人員被警方一起帶走了。

看上去，這些“主動”把個人信息拿來賺錢的企業果然沒有好下場。但對“被動挨打”也要認，被人盯上數據的企業就只能渾渾噩噩過日子了嗎？

并不是。按照一個樸素的道理，如果一個人抱著金銀珠寶上街，起碼也要配備一兩個保鏢，如果是拍賣公司運貨，可能配上的是一個安保公司全方位的服務。

當然，還有一些本來就有錢有勢的“大富豪”，可能直接出手成立一家專為自己服務的安保公司。

這種樸素的理念映射到現代企業保護自己的各類數據或者數據庫，也很好理解：有錢有人的大公司自己有安全部門、安全人員，甚至自己研發了保護工具，一般企業還是購買專業方案，也就是購買“安保公司的服務”。

由于對數據的保護實在迫在眉睫，一家專業數據“安保公司”美創甚至將之前主打的“數據庫安全”增長到“數據安全”，他們做出這個決定是在兩年前。

為什么會有這種變化？保護數據的思路應該是什么樣？雷鋒網與美創公司的 CTO 周杰聊了聊。

【洞見】美創CTO周杰：如何保護流動的數據

口述：周杰 | 整理：李勤

關于打法：數據安全廠商的不同

我所指的數據安全是指要防止數據被惡意泄漏，或者是被惡意拖庫、撞庫、弄壞、被加密等。數據庫防火墻、數據庫審計、防水壩、加解密、防勒索、業務安全審計、脫敏等肯定是我們的主流產品，當然，災備也不可能丟掉，任何系統都需要做災備，災備嚴格來講也屬于安全產品。現在線下遷移到線上，上云的態勢很猛，異構的數據庫遷移產品很重要。

不過，有些公司對數據安全的理解就等同于只有數據庫災備，我理解的是，就算你只用災備產品，也不應局限在數據庫災備上，它應該是全業務的災備。

比如，一個企業可能除了主系統，還有很多微服務，應用系統宕機后，切換是很困難的，如果有100個微服務，備份順序如何？是否能實時備份？這是很復雜的情況。

國內很多數據安全廠商是從傳統安全廠商轉型而來，他們的防護理念是從外到內的，他們從黑客的角度出發想問題，并沒有明確的保護對象，是在梳理攻擊者的攻擊路徑，保護程度可能比較淺，從 IP 到端口就完了。沒有實時阻斷，可能只有旁路阻斷，實際上旁路阻斷是偽命題，它不可能實現100%阻斷，流量一大，肯定無法阻斷危險操作。

我們的思路是從內而外出發，有明確的保護對象，也就是數據。

我們首先會定義“有什么東西”，梳理核心資產，從保護對象出發，可以精確了解攻擊方式，從而縮小攻擊面。比如，對一個數據庫的破壞有哪些形式？用勒索病毒加密、物理拷貝、通過 SQL 語句刪除數據或竊取數據等。

除了縮小攻擊面，還要盡量隱藏攻擊面。

比如，MySQL 的默認連接端口是3306，如果把 MySQL 的 3306 端口變成了 3308，就可以在黑客撒網式批量掃描過程中增加一些免疫的效果，雖然只是一點點，但它是有作用的。如果我們的敏感資產不會被發現，自然受攻擊的可能性大大減小。

我們還可以在 3306 的端口上放個陷阱，模擬 MySQL，把攻擊流量引入陷阱，用于來分析或定位黑客。

很多廠商的思路是，“漏報”比“誤報”好，如果當下對一個“威脅”不能確定，會先放過，等問題上報、分析、檢測這一套漫長的運營流程下來后，事情就可能已經發生了，傷害已經造成，要有什么效果也只能等到下一次。

面對核心資產，不能放過任何一個危險操作。美創的理念還是實時阻斷，采取動態的策略，知白守黑。好人是可被窮盡的，壞人是不可被窮盡的。

比如，做 PDF 防篡改，能夠編輯 PDF 的軟件有多少？95% 的企業用的都是同一種，我們只要做出一個畫像，確定了關鍵指標，別人想偽造這個軟件也很難，只有具有合法身份的訪問才被允許。

關于用戶：上安全是否影響業務

安全要上馬，對用戶來說，也不是一件容易的事情。

我們在和用戶交流中，常常發現他們有這樣的疑慮：上了安全系統是否會影響業務系統？業務系統可能在 99% 的時間保持工作狀態，安全系統可能是在 1% 的時間里抵御攻擊，所有的安全系統都是為了保障業務的正常進行，不能上了一套系統把業務搞癱了。

所以，我們研究數據安全防護必須盡量取得平衡。

首先，安全策略要盡可能動態化，減少對用戶正常工作的打擾。引入自學習，讓策略更加聰明。

其次，當安全系統真出現異常的時候，讓安全系統從串行變成旁路，保證業務系統正常運行，讓業務系統先好好干活，稍微閑余時再抓包分析。

關于數據：流動中的全鏈路防護

我們始終認為，安全應該是一個防護鏈，而不是某個點。

在數字化轉型的大背景下，數據一直在流動，也就導致了數據所處的位置是不同的。根據數據所處位置的不同，可以把數據分為三類：在數據中心、在流動路上、在終端上。

對不同位置上的數據，保護策略不一樣。

對于在數據中心的數據，因為對“云廠商”天然的不信任，對數據進行加密災備是必須的。數據中心的數據本來就是供人訪問的，要進行數據交換，因此在校驗身份上沒那么簡單，進行多因子身份認證是必須的，對這一點，各家都有自己的方案。

我們的思路是，除了驗證最基本的賬號和密碼，還要驗證訪問者的操作系統，用何種應用程序連接，如果說我們只是解析協議，得到的信息是有限的，因此我們可能需要在訪問者的終端上安裝一個代理，報告進程的哈希值或者簽名，從源頭上控制訪問端，排除惡意軟件的連接。

確認身份后，還需要分析上下文的語境，弄清楚為什么這個訪問者需要訪問，為什么是這個時間段，在這個地址發起訪問。對于工作時間以及常用地址之外的訪問，我們會先判斷有風險。

總之，還是盡可能地描述訪問者的畫像，并在數據中心進行相應的防護。從不信任，永遠驗證。

審計也是很重要的一環，把所有的操作都審計下來，有助于事后的分析，回溯。

因為數據是流動的，我們要對敏感數據進行脫敏，對脫敏之后數據進行全鏈路加密。

所謂脫敏，就是去掉敏感信息，保留原來數據一定特征，即保持數據原有的可用性。也是說對數據進行脫敏過程中，得到的結果一定是這個數據還是可以用的，能保持原有的特征，能讓數據共享方獲得的數據仍然可以用、可以處理、可以提取相應的特征價值，從而獲得原有對數據的要求。

脫敏分為靜態脫敏和動態脫敏。

靜態脫敏往往是線下的、旁路的；動態脫敏往往是線上的、活的數據。

靜態脫敏一般用在非生產環境，把數據批量離線做脫敏，把生產環境里結構化數據、非結構化數據進行脫敏之后，加載到非生產環境使用。用于開發測試等。動態脫敏是實時脫敏，一般應用環境是生產環境，訪問敏感信息時再脫敏。根據場景、權限、角色不一樣，對同一個敏感信息時有可能進行統一的屏蔽，也可能不同的屏蔽，根據場景操作。

此外，大家都在提數據水印，就是防止在數據的流轉中泄密而找不到流失源頭。

我們一直想實現的是一種透明水印，使用者看不到，但一旦泄密，可以通過水印逮到泄露者，這種靈感來源于“藏頭詩”：如果我發給你10000 行記錄，在第一行某個地方寫一個字，在其他行寫一個字，用戶對此是無感知的。

數據安全技術還會有這些趨勢：

第一，隱私計算，我們經常有一些數據需要流動和外發，不可能把所有的數據進行脫敏，有些數據的脫敏程度不高的話，復原也不是難事。

數據隱私的保護手段，主要分為可信硬件和密碼學兩個流派。硬件方面主要是可信執行環境（Trusted Execution Environment,TEE），而密碼學方面有同態加密（Homomorphic Encryption），安全多方計算（Multi-party Computation）和零知識證明（Zero-knowledge Proof, ZKP）。

TEE 可能會是個方向，但是 TEE 這條路大家也是剛開始走。基于硬件的方案也有問題，比如升級困難。當MPC，同態加密等有重大突破的時候，TEE 會退休。

第二，就是云化和大數據化，我們在這里也要做很多東西，未來的數據安全在云端。

第三，自適應安全架構。以一些安全策略為例，如果安全策略定得太寬松，沒什么用，定得太細致則會干擾正常業務，所以我們要讓策略根據情況調整。

第四，數據庫加解密也是方向之一，數據庫加解密一直是個業界難點。國內很多企事業單位用的加密算法是國外算法，在過保上可能會遇到一些問題，現在有國密算法，在安全可控的大背景下，數據庫加解密支持國密算法大有可為，但國產替代會是一個比較長期的過程。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

李勤

編輯、作者

跟蹤互聯網安全、黑客、極客。微信：qinqin0511。

掃描關注作者微信

發私信

當月熱門文章