0

作者 | 青 暮
編輯 | 叢 末
近期一篇關于圖像超分辨率的論文引起了不小的爭論,一切都起源于以下這張圖片:

針對這張圖,Yann LeCun在推特上發表了這么一句話:“當數據有偏見時,機器學習系統就變得有偏見。這個人臉上采樣系統讓每個人看起來都像白人,因為網絡是在FlickFaceHQ數據集上預訓練的,而這個數據集主要包含白人圖像。”

這為LeCun招來了不少的批評,很多網友認為LeCun在提出狹隘甚至錯誤的觀點誤導人們,并紛紛提出了自己的質疑。LeCun對這些質疑一一回應,但仍得不到理解。最后LeCun不得不一條一條地解釋自己的觀點,才緩和了這場爭論的氣氛。
爭論的焦點在于:AI產生偏見的原因是否只是數據集導致?算法本身的缺陷能不能成為原因?
網友們的論點主要包括以下幾點:
1、只要是在有偏見數據上進行基準測試,那么這樣的偏見也會反映在機器學習系統的歸納偏置上。
用有偏見的基準推進機器學習并要求工程師簡單地“使用無偏見的數據重新訓練模型”是沒有用的。
2、我們不都知道機器學習算法帶有數據偏見以外的歸納偏置嗎?
3、當數據帶有偏見時,機器學習系統就是有偏見的。但某些機器學習系統的偏見不是由于數據,并且構建100%無偏見的數據集在實際上是不可能的。并且我們發現很多時候,假如數據帶有少量的偏見,系統會將其放大,并變得更加有偏見。
4、在完整的美國人數據集上訓練:當你使用L2損失,大多數人都像白人;當你使用L1損失,大多數人都像黑人。別再覺得偏見和算法無關了。
5、承認這個結論要求極大地縮小算法的定義范圍。你忽略了表征的選擇、損失函數的選擇、訓練方法的選擇以及超參數等等。
6、確實,這是個需要證明的大膽斷言。AI學習過程應該是架構、數據、訓練算法、損失函數等等的相互作用。
對于這些評論,LeCun澄清道,他只是認為,在大多數現代機器學習系統中,數據是主要的偏見來源。
LeCun 表示:
在7年前,大多數機器學習系統使用手工特征,這是偏見的主要來源。但是現在,人們開始使用深度學習架構,很大程度上減少了源于特征選擇和架構設計的偏見。所以我才認為現在數據是主要的偏見來源。我不是在討論機器學習理論性質上的歸納偏置(這是獨立于數據的)。我所討論的是現在在機器學習系統中經常見到的偏見,這些偏見可能源于特征或數據。但如果特征是用深度學習學到的,那么偏見不應該主要存在于數據嗎?”
另外,相比損失函數的選擇,通過在訓練過程中均衡樣本的類別頻率來修正這種偏見會遠遠更加高效。
但是也有學者認為算法和數據之間并沒有清晰的分界線,均衡樣本的類別頻率也是一種算法的選擇。偏見并非單純來源于數據,也可能取決于研究人員本身。
對于也可能取決于“研究人員”本身這一觀點,LeCun回應道:
當然。但是在logistic 回歸、全連接網絡或卷積網絡之間進行選擇,并不會導致系統固有地偏向某些類型的人。當手動設計特征時,就會引入偏見。而且,數據顯然是可以有偏見的。

到了這一步,爭論各方似乎都不太清楚對方在表達什么了。于是最后,LeCun在一系列的推文中清楚地表達了自己的觀點:
我沒有說“僅當數據有偏見時機器學習系統才有偏見”。
我只是表達了對PULSE這篇論文的看法。
機器學習系統中導致社會偏見的原因很多(這里不談論更一般的歸納偏置):
1.如何收集數據和格式化
2.特征設計
3.模型的架構
4.目標函數
5.部署方式
當使用沒有手工特征的原始輸入時(如現代深度學習系統中常見的那樣),特征設計引起的偏差的重要性要小得多。
如果使用別人的預訓練模型作為特征提取器,特征將包含該系統的偏見。
也就是說,LeCun并非不同意質疑他的專家們的觀點,只是他當時發表的觀點建立在特定的條件下,而沒有表述清楚。
最開始那張引起爭議的圖片來源于提出PULSE這一模型的論文。具體而言是有人用作者在論文中開源的代碼進行了模型推理:用奧巴馬的打碼圖像進行了試驗,結果發現奧巴馬被還原成了白人。

論文地址:https://arxiv.org/pdf/2003.03808.pdf
還原成白人這個結果實際上并不奇怪,因為PULSE就是建立在StyleGAN的基礎上實現的,而StyleGAN所用的數據集是FFHQ,這個數據集里包含了90%以上的白人人臉。
PULSE的特點在于,可以將多個不同但相似的人臉圖像聚合為同一個低分辨率圖像。
論文作者之一、北卡羅來納州達勒姆市杜克大學計算機科學教授Cynthia Rudin說:“我們已經證明人們無法從模糊的圖像中進行人臉識別,因為可能性非常多。因此,縮放和增強不可能超過某個閾值水平。”
Rudin說:“過去,許多算法都試圖從低分辨率恢復高分辨率圖像。” 這可能是錯誤的方法,原始圖像實際上是信息稀疏的。因此,奧巴馬的打碼圖像還原后也不一定是奧巴馬,我們會堅持認為那張圖像的原型必然是奧巴馬,也是由于記憶先驗導致的偏見。
當然這也不能否認該模型確實存在偏見,當把模型在其他非白人面孔上進行實驗時,也會出現相似的結果:
也就是說,PULSE提供的不是錯誤的答案,也不是故意的,但提供了有偏見的答案。
來自斯坦福大學的一名研究生深度關注了這次事件,并在Gradient上寫下了他對此次事件的感悟。他思考的不僅僅是關于“AI偏見來源”的學術性問題,還有關于社區研究者該如何發表言論以及爭論的問題。他表達的思考和觀點有以下六點:
第一,除了簡單的源代碼之外,交互式演示很有用,因為這可以使人們輕松地與模型進行交互并指出模型存在的問題。
簡單直觀的演示可以引發高效的傳播效應,就像成為這次事件的那張圖片,基本一看就知道發生了什么事。
第二,發現了用于解決應用AI研究中的潛在偏見的最佳實踐,“model card”的想法很有意義。
作為對質疑的回應,PULSE這篇論文的作者就在原文的第6節加入了對模型偏見的討論,并在附錄中加入了一張“model card”,其中寫道,相比于 CelebA HQ(基于公眾人物(名人)的人臉數據集),FairFace或許是評估模型時的更好選擇。

第三,數據可能是機器學習系統中偏見的來源,但不是唯一的來源,此類系統可能造成的危害可能不僅僅源于有缺陷的數據集。
這是眾多專家在質疑LeCun論點時提出的,同時也是LeCun在最后澄清的觀點,LeCun大概也想不到自己表述不嚴謹的幾句話會引起這么大的反響。
第四,重要的是,能夠對復雜的主題進行理性的討論。在這樣的討論中,回應專家對有關話題的批評時,注意不要情緒化。
第五,人工智能研究人員的行動有助于為學術界以外的人們設定AI使用的規范。因此,他們應該注意應該使用哪些數據集來測試其模型。并且當使用有缺陷的數據集時,他們仍可以在研究中采取具體措施以最大程度地減少這樣做造成的危害。
第六,解決一個復雜的主題時,請謹記自己的措辭和信息,尤其是該領域的領導者,其聲明會被很多人閱讀。模棱兩可的陳述可能導致人們錯誤地得出結論,而不是加深了解。
LeCun作為深度學習的領軍者,發表的言論有很大的影響力,必須嚴謹自己的措辭。
參考文章:雷鋒網雷鋒網雷鋒網
https://thegradient.pub/pulse-lessons/
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。