解讀歐盟 GDPR，這將是企業級數據科學不容忽視的合規風險

本文作者：這只萌萌

編輯：楊曉凡

2018-06-27 15:24

導語：隨著嚴格的 GDPR 問世，在數據科學領域引起了廣泛的討論，這一數據條例，將對數據科學項目，尤其是機器學習領域產生巨大的影響

雷鋒網 AI 科技評論按：歐盟于 2018 年 5 于 25 日出臺數據保護條例 GDPR，隨之在數據科學領域引起了廣泛的討論，這是因為嚴格的數據條例，將對數據科學項目，尤其是機器學習領域產生巨大的影響。

目前，隨著技術的進步，機器學習也在飛速發展，全球對這一領域的投資也日益增加，機器學習正在迅速成為企業數據科學的趨勢。而隨著嚴格的 GDPR 問世，對機器學習究竟會產生哪些影響？如何在 GDPR 的限制下繼續數據科學及其研發項目？

剛剛頒布的 GDPR 還沒有全面生效，大家對于如何執行這一法規的認識還是模糊的，仍在不斷摸索中，但GDPR 帶來的關鍵問題和挑戰已逐漸顯現。數據管理平臺 Immutable 的首席隱私官與法律工程師 Andrew Burt 撰寫了一篇文章，一一解釋了自己公司受到的關于對機器學習影響的三大問題。雷鋒網 AI 科技評論把相關內容編譯如下。

問題1：GDPR 是否會禁止機器學習？

當然不是。即使是 GDPR 生效后，在歐盟，機器學習也不會被禁止。但是，不可避免地，此后機器學習的應用都會涉及沉重的合規問題。

根據法規的要求，GDPR 將全面禁止沒有人為干預、并會對數據主體產生重大影響的自動化決策。值得注意的是，GDPR 適用于所有使用了歐盟數據的情況，這些數據可能都能夠辨識出一個數據主體，而對于使用了大量數據的數據科學計劃，這意味著 GDPR 將適用于其所有的活動。

GDPR 對于「自動化決策」的定義是指，在沒有人為直接參與的情況下自動作出決策的模型。這包括了對數據主體的自動「用戶畫像分析」，例如將用戶分類為「潛在客戶」或「40-50 歲男性」，以確定貸款申請人是否有資格獲得貸款。

因此，鑒別機器學習模型是否是屬于「自動化決策」，首先是看模型是否是在沒有人為干預的情況下自動部署的，如果是，那么這樣的模型默認為是被禁止的。而事實上，大量的機器學習模型都是這種情況。盡管許多律師和數據科學家反對過這一點，但參與起草和解釋 GDPR 的歐盟官方——第 29 工作組對于這一條解釋就是如此。

GDPR 禁止機器學習了嗎？，「禁止」這一詞很具誤導性。禁止自動化決策是可以存在特例的，使用「禁止」這一詞太過強硬了。一旦 GDPR 生效，數據科學家應該期望的是，機器學習的大部分應用仍還可以實現，只是增加了他們不能忽視的合規負擔。

下面會詳述「禁止」以外的特例。

GDPR 法規明確了使用自主決策合法的三個領域：

在簽訂了合同的情況下，數據處理是必要的；
其他法律另行授權的情況；
數據主體明確同意的情況。

事實上，最后一條是較為符合實際的，解決這一禁令的常用方法，就是數據主體明確允許他們的數據可以被模型使用。但是，讓數據主體同意并不容易。數據主體可以同意許多不同類型的數據處理，并且他們也可以在任何時候撤銷同意，這意味著在數據的使用上，需要精細化地管理數據主體對于數據使用的同意，允許數據主體選擇不同類型的同意，動態（允許數據主體撤銷同意）以及要提供足夠的用戶友好性，即讓數據主體有能力理解他們的數據如何被使用的，并且給予用戶控制數據使用的權力。

GDPR 并沒有完全禁止使用機器學習模型，但它會使得很多機器學習的模型及其輸入數據的部署和管理變得越來越困難。

問題2：機器學習是否需要「可解釋性」？

關于 GDPR 對機器學習的影響，我最常聽到的問題之一，就是機器學習是否需要「可解釋性」。去年作者特意寫了一篇文章討論這個問題。

這個問題源于 GDPR 本身的條例有些模糊不清。

「可解釋性」這一點帶來的風險是非常高的，可能會對企業數據科學產生巨大的影響。機器學習模型的復雜結構賦予了其神奇的預測能力，想要把其內在構成解釋清楚是很困難的。

我們從 GDPR 條例的文本開始說。

在條例的第 13-15 條中，GDPR 一再聲明數據主體有權了解關于數據使用的「有意義的信息」和自動化決策帶來的「重要和可預見的后果」。然后，第 22 條中，GDPR 規定，只有在具備了上述影響類型的情況下，用戶才可以對決策提出反對。最后，第 71 條序言是該條例中包含的不具約束力一部分，它指出數據主體可以要求自動化決策給出合理的解釋，并且數據主體能夠質疑這些決策。總而言之，這三項規定給數據的使用帶來了更復雜的場景。

由于文本的模糊不清，歐盟監管機構可能以最嚴格的方式去解釋這些規定，例如要求機器學習的模型對內部結構做出完整解釋，但這樣的做法似乎是不合理的。

這些文本更恰當的解釋可能是，當機器學習用于沒有人為干預下做決策時，以及當這些決策對數據主體產生重大影響時，數據主體有權對正在發生的事情有基本的了解。 GDPR 中的“有意義的信息”和“可預見的后果”或許可以這樣解讀。歐盟監管機構可能會將重點放在數據主體有權就數據使用情況作出決策上，而對于數據使用的透明度，則可能會依據于模型及對應的情況而定。

問題3：數據主體是否有權要求刪除他們的信息后重新訓練模型？

這也許是 GDPR 條例下最難回答的問題之一。換句話說，如果一個數據科學家使用某個數據主體的數據來訓練模型，然后在這個模型中融入了新數據，那么此前的數據主體對于之前用他們的數據訓練出來的模型是否還有一定的權力？

據我所知，答案將是否定的，至少在實踐中是這樣的，只有非常少的特例。為了解釋更清楚，我先從這些特例說起。

在 GDPR 下，所有數據的使用都需要在法律的允許下進行，GDPR 第 6 條規定了六項對應的法律依據。其中有兩個最重要的「合法權益」的依據，并且數據主體明確同意使用該數據。這種情況下，當處理數據是依據于數據主體的同意時，數據主體將仍保留對該數據的重要控制權，這意味著他們可以隨時撤回同意，處理該數據的合法性將不再存在。

因此，如果組織從數據主體收集數據，數據主體同意將他們的數據用于訓練特定的模型，但隨后又撤回同意，何時數據主體可以強制模型重新訓練新數據？

答案是只有當該模型繼續使用該數據主體的數據時才可以。

正如 29 工作組所指出的那樣，即使數據主體撤銷了同意，撤銷前所發生的所有的處理仍然是合法的。因此，如果數據被合法地用于創建模型或預測，那么無論這些數據的產出是什么，都是可以被保留的。事實上，一旦用一組訓練數據創建了模型，那么訓練數據的刪除和修改都不會影響到之前的模型。

但是，一些研究表明，模型可能會保留關于訓練數據的信息，即使在訓練數據被刪除之后，仍然可以通過模型找到原始數據，正如研究人員 Nicolas Papernot 等人寫的一樣（模型的隱私性問題，參見這篇文章）。這意味著在某些情況下，保留訓練模型而刪除原有數據，不能保證在以后原有數據不會被重現，或者說在某些情況下，原有數據還是仍可能在使用的。

但是從模型中復原原有的訓練數據有多大可能呢？幾乎是不可能的。

目前所知，這種研究只在學術環境中進行，企業的數據科學與學術環境相差甚遠。正是由于這個原因，作者不認為模型會因為受到數據主體的要求而重新訓練。雖然這在理論上是可能的，但已經是非常邊緣的特例了，只有在特定情況下特例發生之后，監管機構和數據科學家才需要去處理。

盡管如此，所有這些問題都存在大量的細微差別，未來這些細微差別一定會出現。GDPR 有 99 條正文和173 條引言，注定是非常長且復雜的法規，并且隨著時間的推移變得更加復雜。

但是，至少有一點是明確的：要感謝 GDPR，在未來的大規模數據科學計劃中，律師和專門負責處理隱私的工程師將會成為數據科學計劃的核心成員。

via www.oreilly.com，雷鋒網 AI 科技評論編譯

意想不到的盟友：改善隱私問題可以帶來表現更好的機器學習模型

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。