0
不知道你們有沒有這種感覺,一堆騷擾、推銷電話時常扎堆打過來,清凈一段時間后,又開始如被鞭尸般撈起來繼續被“騷擾”。
讓人有種恍如隔世的感覺:我的信息到底是在哪個環節泄露的?
住過萬豪酒店的朋友們應該能體會雷鋒網編輯的這種想法,2018 年 3.83 億預訂喜達屋酒店客戶的詳細個人信息遭到泄露。今年 7 月,這家公司被英國罰款 1.24 億美元。
畢竟 1.24 億美元的罰款也不會被平分給這些被泄露信息的受害者,說來也沒什么可高興的。它只發出了一個嚴重警告的信號:出來混,泄露信息,是要挨罰的。
聽起來有點嚴重,前陣子,中國一些涉及非法爬蟲業務的所謂“大數據風控”企業日子不好過,被抓的傳聞四起,這兩天的一個消息是,江蘇淮安警方依法打擊了 7 家涉嫌侵犯公民個人信息犯罪的公司,涉嫌非法緩存公民個人信息 1 億多條,其中,拉卡拉支付旗下的考拉征信涉嫌非法提供身份證返照查詢 9800 多萬次,獲利 3800 萬元。
因此,考拉征信服務有限公司及北京黑格公司的法定代表人、董事長、銷售、技術等 20 余名涉案人員被警方一起帶走了。
看上去,這些“主動”把個人信息拿來賺錢的企業果然沒有好下場。但對“被動挨打”也要認,被人盯上數據的企業就只能渾渾噩噩過日子了嗎?
并不是。按照一個樸素的道理,如果一個人抱著金銀珠寶上街,起碼也要配備一兩個保鏢,如果是拍賣公司運貨,可能配上的是一個安保公司全方位的服務。
當然,還有一些本來就有錢有勢的“大富豪”,可能直接出手成立一家專為自己服務的安保公司。
這種樸素的理念映射到現代企業保護自己的各類數據或者數據庫,也很好理解:有錢有人的大公司自己有安全部門、安全人員,甚至自己研發了保護工具,一般企業還是購買專業方案,也就是購買“安保公司的服務”。
由于對數據的保護實在迫在眉睫,一家專業數據“安保公司”美創甚至將之前主打的“數據庫安全”增長到“數據安全”,他們做出這個決定是在兩年前。
為什么會有這種變化?保護數據的思路應該是什么樣?雷鋒網與美創公司的 CTO 周杰聊了聊。

口述:周杰 | 整理:李勤
我所指的數據安全是指要防止數據被惡意泄漏,或者是被惡意拖庫、撞庫、弄壞、被加密等。數據庫防火墻、數據庫審計、防水壩、加解密、防勒索、業務安全審計、脫敏等肯定是我們的主流產品,當然,災備也不可能丟掉,任何系統都需要做災備,災備嚴格來講也屬于安全產品。現在線下遷移到線上,上云的態勢很猛,異構的數據庫遷移產品很重要。
不過,有些公司對數據安全的理解就等同于只有數據庫災備,我理解的是,就算你只用災備產品,也不應局限在數據庫災備上,它應該是全業務的災備。
比如,一個企業可能除了主系統,還有很多微服務,應用系統宕機后,切換是很困難的,如果有100個微服務,備份順序如何?是否能實時備份?這是很復雜的情況。
國內很多數據安全廠商是從傳統安全廠商轉型而來,他們的防護理念是從外到內的,他們從黑客的角度出發想問題,并沒有明確的保護對象,是在梳理攻擊者的攻擊路徑,保護程度可能比較淺,從 IP 到端口就完了。沒有實時阻斷,可能只有旁路阻斷,實際上旁路阻斷是偽命題,它不可能實現100%阻斷,流量一大,肯定無法阻斷危險操作。
我們的思路是從內而外出發,有明確的保護對象,也就是數據。
我們首先會定義“有什么東西”,梳理核心資產,從保護對象出發,可以精確了解攻擊方式,從而縮小攻擊面。比如,對一個數據庫的破壞有哪些形式?用勒索病毒加密、物理拷貝、 通過 SQL 語句刪除數據或竊取數據等。
除了縮小攻擊面,還要盡量隱藏攻擊面。
比如,MySQL 的默認連接端口是3306,如果把 MySQL 的 3306 端口變成了 3308,就可以在黑客撒網式批量掃描過程中增加一些免疫的效果,雖然只是一點點,但它是有作用的。如果我們的敏感資產不會被發現,自然受攻擊的可能性大大減小。
我們還可以在 3306 的端口上放個陷阱,模擬 MySQL,把攻擊流量引入陷阱,用于來分析或定位黑客。
很多廠商的思路是,“漏報”比“誤報”好,如果當下對一個“威脅”不能確定,會先放過,等問題上報、分析、檢測這一套漫長的運營流程下來后,事情就可能已經發生了,傷害已經造成,要有什么效果也只能等到下一次。
面對核心資產,不能放過任何一個危險操作。美創的理念還是實時阻斷,采取動態的策略,知白守黑。好人是可被窮盡的,壞人是不可被窮盡的。
比如,做 PDF 防篡改,能夠編輯 PDF 的軟件有多少?95% 的企業用的都是同一種,我們只要做出一個畫像,確定了關鍵指標,別人想偽造這個軟件也很難,只有具有合法身份的訪問才被允許。
安全要上馬,對用戶來說,也不是一件容易的事情。
我們在和用戶交流中,常常發現他們有這樣的疑慮:上了安全系統是否會影響業務系統?業務系統可能在 99% 的時間保持工作狀態,安全系統可能是在 1% 的時間里抵御攻擊,所有的安全系統都是為了保障業務的正常進行,不能上了一套系統把業務搞癱了。
所以,我們研究數據安全防護必須盡量取得平衡。
首先,安全策略要盡可能動態化,減少對用戶正常工作的打擾。引入自學習,讓策略更加聰明。
其次,當安全系統真出現異常的時候,讓安全系統從串行變成旁路,保證業務系統正常運行,讓業務系統先好好干活,稍微閑余時再抓包分析。
我們始終認為,安全應該是一個防護鏈,而不是某個點。
在數字化轉型的大背景下,數據一直在流動,也就導致了數據所處的位置是不同的。根據數據所處位置的不同,可以把數據分為三類:在數據中心、在流動路上、在終端上。
對不同位置上的數據,保護策略不一樣。
對于在數據中心的數據,因為對“云廠商”天然的不信任,對數據進行加密災備是必須的。數據中心的數據本來就是供人訪問的,要進行數據交換,因此在校驗身份上沒那么簡單,進行多因子身份認證是必須的,對這一點,各家都有自己的方案。
我們的思路是,除了驗證最基本的賬號和密碼,還要驗證訪問者的操作系統,用何種應用程序連接,如果說我們只是解析協議,得到的信息是有限的,因此我們可能需要在訪問者的終端上安裝一個代理,報告進程的哈希值或者簽名,從源頭上控制訪問端,排除惡意軟件的連接。
確認身份后,還需要分析上下文的語境,弄清楚為什么這個訪問者需要訪問,為什么是這個時間段,在這個地址發起訪問。對于工作時間以及常用地址之外的訪問,我們會先判斷有風險。
總之,還是盡可能地描述訪問者的畫像,并在數據中心進行相應的防護。從不信任,永遠驗證。
審計也是很重要的一環,把所有的操作都審計下來,有助于事后的分析,回溯。
因為數據是流動的,我們要對敏感數據進行脫敏,對脫敏之后數據進行全鏈路加密。
所謂脫敏,就是去掉敏感信息,保留原來數據一定特征,即保持數據原有的可用性。也是說對數據進行脫敏過程中,得到的結果一定是這個數據還是可以用的,能保持原有的特征,能讓數據共享方獲得的數據仍然可以用、可以處理、可以提取相應的特征價值,從而獲得原有對數據的要求。
脫敏分為靜態脫敏和動態脫敏。
靜態脫敏往往是線下的、旁路的;動態脫敏往往是線上的、活的數據。
靜態脫敏一般用在非生產環境,把數據批量離線做脫敏,把生產環境里結構化數據、非結構化數據進行脫敏之后,加載到非生產環境使用。用于開發測試等。動態脫敏是實時脫敏,一般應用環境是生產環境,訪問敏感信息時再脫敏。根據場景、權限、角色不一樣,對同一個敏感信息時有可能進行統一的屏蔽,也可能不同的屏蔽,根據場景操作。
此外,大家都在提數據水印,就是防止在數據的流轉中泄密而找不到流失源頭。
我們一直想實現的是一種透明水印,使用者看不到,但一旦泄密,可以通過水印逮到泄露者,這種靈感來源于“藏頭詩”:如果我發給你10000 行記錄,在第一行某個地方寫一個字,在其他行寫一個字,用戶對此是無感知的。
數據安全技術還會有這些趨勢:
第一,隱私計算,我們經常有一些數據需要流動和外發,不可能把所有的數據進行脫敏,有些數據的脫敏程度不高的話,復原也不是難事。
數據隱私的保護手段,主要分為可信硬件和密碼學兩個流派。硬件方面主要是可信執行環境(Trusted Execution Environment,TEE),而密碼學方面有同態加密(Homomorphic Encryption),安全多方計算(Multi-party Computation)和零知識證明(Zero-knowledge Proof, ZKP)。
TEE 可能會是個方向,但是 TEE 這條路大家也是剛開始走。基于硬件的方案也有問題,比如升級困難。當MPC,同態加密等有重大突破的時候,TEE 會退休。
第二,就是云化和大數據化,我們在這里也要做很多東西,未來的數據安全在云端。
第三,自適應安全架構。以一些安全策略為例,如果安全策略定得太寬松,沒什么用,定得太細致則會干擾正常業務,所以我們要讓策略根據情況調整。
第四,數據庫加解密也是方向之一,數據庫加解密一直是個業界難點。國內很多企事業單位用的加密算法是國外算法,在過保上可能會遇到一些問題,現在有國密算法,在安全可控的大背景下,數據庫加解密支持國密算法大有可為,但國產替代會是一個比較長期的過程。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。