0
導讀:農夫養了一只小羊,想給它吃各種不同營養成分的草料,需要去各地收集草料再運送回來喂它。但是有一天,草料場擔心“熟客”農夫暴露他們的商業機密,不再允許將草料向外運輸了。農夫非常著急:怎么辦好呢?
苦苦思考后,農夫想了個法子:帶小羊到各個草場吃草。羊在各地移動,而草料不出本地。草料場既不用擔心商業機密暴露,小羊也能健康成長。
如果把草料換成“數據”,商業機密換成“用戶隱私”,小羊換成“AI模型”,草料場換成“數據擁有方”,農夫換成“工程師”,那么,上述便是一個聯邦學習的故事。
通過數據不動模型動的方式,聯邦學習技術能使數據可用不可見,有效保護數據安全與用戶隱私。
拋開技術細節不談,本文將從另一個方面講述“聯邦學習”的故事。
作者 | 蔣寶尚、陳彩嫻
2018年年底,國內學術界與產業界在隱私計算領域開始了一場基于聯邦學習技術的生態建設持久戰。
那年12月,IEEE標準委員會(SASB)批準了由微眾銀行發起的關于《聯邦學習架構和應用規范》的標準立項。不久,來自國內外的多位知名學者和技術專家紛紛加入標準工作組,參與到聯邦學習IEEE標準的建設中。
標準,顧名思義,是對某一事物或概念進行的統一規定。不僅要切合實際,還要讓大家“心服口服”,共同遵守與維護。
這并不是一件易事。工作開始前,標準工作組主席楊強預計:“此類技術標準屬于國內首次,沒有任何經驗可以借鑒。我們預計用五年的時間拿下IEEE聯邦學習國際標準!”
但事實上,全球數據隱私保護大環境正在發生變化,標準制定也按下了快進鍵:
2018年12月,IEEE標準協會通過標準立項;
2019年2月,確定了聯邦學習標準的基本框架;
2019年6月,增添工作組成員,梳理各自領域內的聯邦學習典型案例;
2019年8月,討論聯邦學習的評估指標如何量化;
2019年11月,對聯邦學習的安全測評與評級進行規劃;
2020年3月,標準草案獲IEEE通過,進入評估階段;
2020年9月,標準通過IEEE終版確認;
2021年3月,聯邦學習標準正式發布。距離立項不到三年,工作組便完成聯邦學習國際標準制定(以下稱為“標準”),并在今年3月30日通過IEEE確認,形成正式標準文件(IEEE P3652.1)。
聯邦學習生態的建立,離不開國際標準。作為世界上首個聯邦學習國際標準,其參與度之廣,印證了合規使用大數據的時代特征;其權威性之高,體現了社會對聯邦學習技術的強烈需求。
1、背景:數據隱私之殤
2019年1月22日,法國監管機構國家信息與自由委員會(CNIL)對谷歌處以5000萬歐元巨額罰款,理由是“違反了GDPR”。
這一刻,所有需要數據作為“石油”的公司猛然驚醒:來真的了!
2018年,歐洲聯盟加速出臺了《通用數據保護條例》(GDPR),為全球互聯網企業在享受全球化紅利的同時,加上了一條重重的鎖鏈:數據安全和用戶隱私。
作為個人信息保護立法的標志性法規,GDPR的出臺是“一點寒芒先到”,隨后則是“槍出如龍”。
讓有志之士沒料到的是,數據安全和用戶隱私的狂風會襲來的這么快:姓名、生日、信用卡、地址、病史、活動軌跡……只有“合規”,才能觸摸到背后的藍海市場。
針對數據安全與用戶隱私,學術界此前也取得了許多成就,但在應用中的效果并不佳。
第四范式副總裁、主任科學家涂威威說:“同態加密、差分隱私、自動多方機器學習技術、聯邦學習等等技術,在社會重視隱私保護意識之前,每年都會有論文產出,每年都會迭代從而適應越來越復雜的數據環境。”
然而,在學術界大放光彩的技術,在業界可能遭遇水土不服。差分隱私技術采用加噪聲的方法給數據“打碼”用來保護隱私,在業界已經早有嘗試。但不同于理論上的完美證明,實際產業應用總是“棋差一招”。
在與國際人工智能界“遷移學習”技術的開創者楊強交流時,他也談到:“我們在2012年就用華為的數據進行了一個實驗,發現效果非常差,基本上屬于傷敵一千,自損八百,所以差分隱私在工業界并沒有大規模廣泛應用。但(差分隱私)在學術界很火,因為這個課題寫出的文章很漂亮。”

解決水土不服問題,有什么比想要“活下去”的大數據科技企業更加迫切呢?
2016年,“科技巨頭”谷歌利用聯邦學習解決安卓手機終端用戶在本地更新模型的問題,能夠基于本地“小數據”進行不斷機器學習訓練。
而這時,國內的研究團隊也發現了這種“數據不出本地”的聯合建模技術的強大之處,能確保數據安全、隱私保護和合規。
于是,國內學者和企業紛紛開始投入到聯邦學習技術研究和“本土化”技術落地中。
在早期,國內將「Federated Learning」大多翻譯為「聯合學習」,現在則多稱為「聯邦學習」。其中的區別是,如果用戶是個人,確實是把他們的模型「聯合」起來學習;而如果用戶是企業、銀行、醫院等大數據擁有者,這種技術則更像是將諸多「城邦」結合起來,「聯邦」一詞會更為準確。
這一名字的變化,也反映著聯邦學習的研究主體從理論轉向實際應用的變化趨勢。
但要真正解決數據安全、隱私保護和合規問題,還需要一系列的配套措施。
只有將政策法規、標準規范等融入到代碼、模型中,才能讓需求各異的各方信服。
2、萬事開頭難
事情在一開始時并沒有那么順利:應該設定一個什么樣的標準?在楊強的預想中,聯邦學習技術框架發展迅速,標準需要有技術上的前瞻性和穩定性, 構建客觀的測評體系,并對實際應用系統起指導作用。 但到底要怎么做,具體提供什么樣的指導功能?這是工作組首先要回答的問題。

圖注:標準制定流程,摘自IEEE中國官網
一開始就加入標準制定的涂威威也談到:“困難確實存在,首先要面對‘兩個嶄新’。標準新:標準工作組雖然有很多資深技術專家,但是對于標準模式大家都有點束手無策;其次,技術新:聯邦學習成為主流技術并沒有多長時間,也要考慮如何吸引大家積極參與。”
當然,這難不倒身經百戰的楊強。
在產生制定標準的想法之后,他和陳天健在深圳微眾銀行的大樓達成了共識:一定要接觸足夠多的機構,盡量面談取經;不求快,求穩,做好打持久戰的準備,至少五年。
事實上,在2018年,標準還未立項,對于標準是什么、有什么用等問題還不清楚時,楊強就得到了CCF和IEEE官方的幫助。
2018年年初,CCF最先提供了Technology Frontier平臺。在楊強提出增設有關隱私的討論題目之后,CCF只用了幾個星期就準備好相關事宜。
楊強借助CCF TF這個平臺對聯邦學習標準制定的一些前置性問題進行了分享,并得到其他相關人員的反饋。
隨后,楊強又與國家工信部相關人士、IEEE標準協會中國戰略合作負責人王亮迪博士等人進行交流。
楊強回憶:“當時IEEE標準制定相關的領導還專門過來給我們答疑解惑。當時他帶來兩個美國人,其中一個是標準委員。他們提了很多建設性的意見,包括說如果真的要建設標準,就不能摻雜自己的偏見。”
一番交流后,楊強明白了:一項標準的成文涉及細節非常多,其中定義、概念、分類、算法框架規范、使用模式和使用規范等,都需要反復斟酌。
了解了大致流程:建立標準工作組,明確選舉過程,制定大綱等等,并做好了打持久戰的準備后,楊強便著手開始進行各種調查,研究以前標準制定的相關文檔,尋找“老朋友”進行支持。
于是就有了最初的標準工作組成員:涂威威、陳雨強、馮霽、胡水海、叢明舒、張鈞波......與此同時,也有一些單位在工作組中以觀察員身份,持續關注標準制定的進展。
2019年尤其關鍵,因為標準制定的大部分正式討論會議都在這一年里召開。
1月份,元旦剛過,南京大學的周志華教授作為AAAI的主席,便邀請了楊強去夏威夷作特邀報告。這也是人工智能頂級會議上第一次出現聯邦學習的“題目”。
夏威夷雖處于冬季,吹的卻是暖風。特邀報告的反響很好,工作組一合計,便提出不如召開一次正式的討論會議。這時,距離立項通過不過兩個月。

圖注:2019年2月,標準工作組在深圳召開第一次會議
經過約兩個月的討論,2019 年2月份,工作組在深圳召開了第一次會議。參會人數達到30余位。也正是這30多位業界、學界人士,畫出了聯邦學習標準的基本框架。
正式會議結束后,當天與會者聚集在深圳萬豪酒店的陽臺上繼續交流。楊強直到現在還對當時探討的具體內容印象深刻,當時聊到很晚,參與的人都講了自己擅長的領域,大家也更加堅定了打造聯邦學習技術生態的信心。
3、會議討論內外
雖然第一次會議比較成功,但作為標準組副主席的馮霽也有自己的擔心:
一是雖然整體框架已經搭建,但具體細節如何補充才能達到IEEE的要求?另外,接下來要如何說服更多人參與進來,讓大家看到這個標準的重要性?
“大家背景都不一樣,有學者也有業界人士,還有只是感興趣的參與者,而這份標準的具體內容既不能像論文,也不能像白皮書,更不能只是算法、應用案例的羅列。”在問到標準制定遇到何種困難的時候,馮霽這樣回答。
這些問題要求標準能夠“頂天立地”:一是能夠吸收到最新的技術,二能有非常強的實操性,全面考慮所有應用場景。
作為一家投資公司,創新工場在解決問題時有自己的方法論。
在思想碰撞最為激烈的第四次會議中,馮霽建議在標準中將聯邦學習的應用范圍限定在To B(企業)、To C(消費者)、To G(政府)三方,大家在討論時候,先將自己的應用案例進行歸類,然后具體問題具體分析,理清楚標準范式的脈絡。
這樣一來,各方參與者在討論如何在不同的案例場景下應用標準的時候,就更有條理。
另一個沖突點是如何對技術內演進行定義,例如安全多方計算這些和聯邦學習平行的技術如何融合到大一統的標準框架中。
梳理這些技術點的脈絡關系,確定外延和內涵,標準組采取的方式是:通過拿科研的文章進行歷史性的梳理,參照不同技術之間的綜述,追根溯源,找出參與方都滿意的答案。

圖注:2019年6月,標準工作組召開第二次會議,探討了聯邦學習的定義、框架和案例
共識可以通過討論達成,但在標準制定的全程中,需要考慮的首要問題還是:如何吸引更多的人參與。
在回答這個問題時,馮霽的語氣中透露出如釋重負:“好在大家積極性比較高,也有宣傳推廣的意識。除了正式的會議之外,一些參與者,尤其是楊強教授一馬當先,親自利用各種機會進行宣講,特別是致力于讓這個標準有更多的國際參與,例如世界人工智能大會、AAAI、IJCAI等都有聯邦學習的panel設定,并在美國、澳門召開工作組會議。創新工場也是一樣,包括開復本人,也專門對這個技術在各個場合進行布道。”
由微眾牽頭,最早的參與單位有:微眾銀行、創新工場、星云Clustar、第四范式。
隨后,工作組成員增加至30多家:松鼠AI、京東城市、騰訊云、邏輯匯、華為、中國電信、小米、華大基因、中電科大數據研究院、Senses Global、依圖、趣鏈科技、百度、海信、螞蟻金服、Eduworks、AI Singapore……
領軍人物的“游說”與魅力,以及參與者的長遠眼光,勾畫出了聯邦學習技術在未來的廣闊發展空間。
在一次和瑞典科技部長的對話中,楊強曾問到:“GDPR對個人數據的強監管措施,對于歐洲AI公司而言,是否是創新的障礙?”
部長回答,這看上去是絆腳石,實際上是動力。因為大家會研制下一代的AI,而美國因為沒有同等嚴苛的標準,技術會因此落后一代。
因此,善于洞察趨勢的有志之士看到了:“聯邦學習將成為解決人工智能數據瓶頸的必由之路。”
4、眾人拾柴火焰高
2019年中期,一位關鍵人物加入團隊——曾在諾基亞負責MPEG標準制定的范力欣。他在知識產權的標準方面經驗非常豐富。
范力欣加入之后,直接從另一個方面概括了遇到的困難:在涉及隱私保護這樣的課題上,如何以有效的技術方案達成目的, 沒有先例可循。但他看到工作組已經集成了聯邦學習眾多“好手”,心想:大家齊心協力,辦法總比困難多,沒有過不去的坎。
把大家的專業和特長有機整合起來,這是范力欣和工作組同仁達成的共識。

圖注:2019年8月,標準工作組在澳門召開第三次會議,聚焦聯邦學習各項指標的評估如何量化、標準如何體現聯邦學習技術的合規性、聯邦學習應用案例的分類歸納等
作為To G領域的代表,中電科大數據研究院有限公司程序提到:“大數據院一直以政府治理大數據應用技術為研究重點,在推進政府數據開放共享等方面有很多經驗和做法,我們來提供To G領域的應用案例。”
邏輯匯的創始人叢明舒作為楊強的學生,自然對恩師發起的項目全力支持:“作為投資研究平臺研發商,經濟激勵我在行,我可以從博弈論視角分析聯邦學習商業化過程的經濟激勵機制。”
涂威威總是邏輯清晰,對拋出的問題一針見血:“在我還是學者的時候,就研究過遷移學習下的隱私保護,關于聯邦學習的系統定義部分,我來!”
星云Clustar胡水海也積極參與:“我們一直研究聯邦學習里的底層技術架構,聯邦學習標準中的這部分,我可以負責。”
在國際上,聯邦學習也獲得了2018年圖靈獎獲得者Yoshua Bengio的大力支持。
2019年12月13日,Bengio在NeurIPS 2019期間出席微眾銀行舉辦的“微眾銀行人工智能之夜”,在晚會上明確表達了自己對聯邦學習的認可,并簽署了微眾與蒙特利爾學習算法研究所(Mila)的戰略合作協議。

圖注:工作組部分成員在加拿大溫哥華參與NeurIPS 2019
標準通過后,來自瑞士洛桑聯邦理工學院(EPFL)的Boi Faltings教授發來激動的祝賀,提到聯邦學習標準對世界數據隱私保護的意義:
“Up to now, federated learning is only used by large companies. Now that there is a standard, everyone around the world can work together to maximize our benefit from AI.”(直至今日,聯邦學習技術只在大企業中得到應用,而形成標準后,世界上每個人都可以一起努力,將AI技術“物盡其用”)
在和眾多標準組工作人員交流的過程中,盡管他們沒有提到,但AI科技評論卻能夠感受到:在全球的技術標準制定中,在隱私保護的技術發展大潮中,中國人始終處于弄潮兒的地位。
5、兩種技術,一個目標
當前,業界解決隱私泄露和數據濫用的數據共享技術路線主要有兩條:一條是基于硬件可信執行環境技術的可信計算,另一條就是基于密碼學的同態加密和多方安全計算。
這兩種方法一種是集中式,一種是分布式。集中式借助硬件,分布式借助密碼學算法。集中式以螞蟻金服為代表。他們提出共享學習的概念,底層使用Intel的SGX技術,試圖打造出以阿里云為中心的商業模式。
而分布式的保護方式,基于密碼學的同態加密和多方安全計算(MPC:Multi-party Computation),之前一直是學術界比較火的話題,但在工業界的存在感較弱,直到“聯邦學習” 概念的出現,才使得MPC技術一夜之間在工業界火了起來。
針對數據維度不同,聯邦學習分為縱向聯邦學習、橫向聯邦學習、聯邦遷移學習,可以充分應對用戶重疊、用戶特征重疊的各種情況。這種能夠讓參與方在數據不出本地的基礎上聯合建模的方法,顯然更能考慮數據擁有者的顧慮。

圖注:2019年11月,標準工作組在北京召開第四次會議,聚焦聯邦學習場景需求分類與安全測評,著重對聯邦學習的安全測評與評級進行規劃
在訓練性能方面,胡水海提到:“聯邦學習在保護隱私的同時,需要以龐大的計算資源為代價,而異構計算恰好能提供強大的算力支持。星云Clustar以高性能算力起家,很早就開始布局聯邦學習異構計算的賽道。”
在使用效果方面,涂威威深有感觸:“確實有效果,第四范式也在醫療領域進行了嘗試,在預測糖尿病患病率方面,比臨床金標準要提升兩倍到三倍。”
創新工場有著資本的敏銳“嗅覺”,早已看出了人工智能系統的安全性和隱私保護方向的重要性,已經開始著手研究聯邦學習企業的創業機會。
與創新工場“英雄所見略同”的還有邏輯匯。作為一家金融科技公司,叢明舒也意識到,在面向金融機構提供在線金融分析自動化平臺的過程中引入聯邦學習技術,對看重數據隱私的金融機構亦至關重要。
京東城市自主研發的聯邦數字網關產品面向政府和企業客戶數據共享難等問題,也在致力于為客戶提供安全數據共享、數據流轉的產品級解決方案。
騰訊內部則成立了三個團隊攻關聯邦學習,而華為也有兩個不同的工作組進行To C、ToB的布局。
騰訊云副總裁王龍談到:“這一國際標準的發布,將聯邦學習從算法層面提升到生態建設層面,是其產業化的重要一步。我相信這一標準在未來產業互聯網的建設中,必將發揮關鍵作用。”
6、生態與格局
求同存異、和而不同的傳統文化深深地刻在了中國人的骨子里,尤其體現在:標準組在發起投票的時候,對每一條反對意見都要反復修訂草案,直到最終修訂稿被IEEE標準委員會投票通過。
作為秘書長單位,星云Clustar在標準制定過程中擔負起協調重任。呂亞靜回憶:“我們內部有很多群,除了大會之外,還開了眾多小會,大家提出問題之后,都會盡量快速討論協商解決。那時候,我就像催收作業一樣,催大家‘交作業’。”
參與撰寫標準的單位主要有:微眾銀行、創新工場、星云Clustar、第四范式、松鼠AI、京東城市、騰訊云、邏輯匯、華為、中國電信、小米、華大基因、中電科大數據研究院、Senses Global、依圖、百度等等。
這些不同行業的參與者,帶來更多的業務場景和實際需求問題,提升了標準的全面性和完整性,讓百尺的竿頭更進了一步。
因為耗時太長,需要考慮的方面太多,工作組有時難免懷疑自己是不是真的能完成這件事:“完全沒有任何金錢方面的激勵,純粹是靠大家的激情與無私奉獻。”
后來,馮霽安慰大家說:“當你確信在做一件正確的事情時,有挑戰是好事,經受住了質疑和挑戰的東西才彌足寶貴。”
在半個多小時的交流中,馮霽提到最多的是“生態”:“只要這件事情值得做,對中國和世界的技術生態有幫助,有長遠影響,哪怕我們倒貼錢,也要進行下去。”
靠著組織者的身體力行,他們最終讓標準成長為心中的理想模樣。

圖注:2021年3月,聯邦學習標準終版正式發布
三年來,海內外多家企業和研究機構合作參與制定的聯邦學習IEEE標準。但與其他諸多國際標準不同的是,在這次標準制定中,國內企業占據了主導地位。
回想這三年所做的事情,涂威威給出的關鍵字是“格局”,表現在兩個方面:
一,先難后易。大家最開始選擇了最難的標準進行攻關,這是比較明智的,因為如果國際標準如果證明可行,那么往國內引進、推廣就比較容易。
二,行業影響長遠。技術標準是推廣行業應用的通用溝通語言。一項產品,你說它品質優秀,質量過硬,沒有專業的評價體系,是無法讓消費者、政府監管機構信服的。如果企業拿出IEEE標準用作檢測,效果自然不同。
7、接下來如何推廣?
如今,聯邦學習國際標準(IEEE P3652.1)已經通過并發布。
接下來會如何圍繞這一“國際上首個針對人工智能協同技術框架訂立的標準”做努力?
楊強認為:“標準相當于‘數據市場的操作系統’,有了操作系統還要有應用,希望更多的行業參與者能夠在操作系統的基礎上制定更為細化的標準和應用。”
言外之意,形成標準并不是一勞永逸,會繼續吸納更多參與方,動態調整細節。只有將聯邦學習技術促成產業生態,使其保持可持續發展,才能經得起時間的考驗。
如今,越來越多企業參與進來,包括字節跳動、百度、中國電信、VMware中國等等,共同推動聯邦學習成為一種產業生態。
此前,字節跳動技術團隊開源了自研的聯邦學習平臺Fedlearner框架。字節跳動高級技術總監兼人工智能科學家劉小兵表示,“聯邦學習是機器學習新范式,而這一國際標準的建立,對于推動人工智能在安全合規的要求下順利發展,提供了有力的保障。”
百度研究院副院長李平教授也提到,“聯邦學習的標準建立意味著聯邦學習技術和應用發展到了一個新的階段。在這一標準指引下,聯邦學習的生態將迅速形成,人工智能的隱私,安全的分布式聯合建模也將成為一個新的范式。”雷鋒網
華為在聯邦學習上同樣不甘落后。除了搭建NAIE聯邦學習的基本框架,在去年9月25日,華為云發布了ModelArts 3.0,提供聯邦學習特性,實現數據不出戶的聯合建模。
而中國電信這家擁有億級用戶的巨無霸,經過在標準推進過程中的不斷深入研究,聯邦學習技術已經在中國電信落地,正在進行產品的迭代研發。
據介紹,中國電信將積極會進一步關注聯邦學習的分布式終端訓練、聯邦學習對網絡架構要求和聯邦學習的安全機制等方面,推動跨運營商、跨行業的應用合作,持續細化完善行業間的應用標準規范,以構筑良好的應用生態。Intel一直關注聯邦學習技術。雷鋒網
按照Intel大數據技術全球CTO戴金權的看法,聯邦學習能獲得數據可用不可見的效果,聯邦學習IEEE國際標準的發布是這一技術發展的一個里程碑。
VMware中國研發技術總監張海寧也表態:“在數據治理、隱私保護和安全合規的大潮下,我們看到越來越多的客戶使用聯邦學習的新技術來打破部門墻和連接數據孤島。”因此,VMware也在積極投入到聯邦學習技術的發展工作中,包括參與開源FATE等項目。雷鋒網
數據隱私保護涉及到每個人的信息安全。聯邦學習生態的建立,離不開國際標準。
形成標準只是第一步,聯邦學習的發展未來仍需要更多人的關注與參與。
只有參與,才能受益。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。