Yann LeCun 大戰“鍵盤俠”，除了數據，“AI偏見”到底來自哪里？

本文作者：青暮

編輯：劉曉坤

2020-06-28 17:08

導語：爭論的焦點在于：AI產生偏見的原因是否只是數據集導致？算法本身的缺陷能不能成為原因？

作者 | 青暮

編輯 | 叢末

近期一篇關于圖像超分辨率的論文引起了不小的爭論，一切都起源于以下這張圖片：

Yann LeCun 大戰“鍵盤俠”，除了數據，“AI偏見”到底來自哪里？

針對這張圖，Yann LeCun在推特上發表了這么一句話：“當數據有偏見時，機器學習系統就變得有偏見。這個人臉上采樣系統讓每個人看起來都像白人，因為網絡是在FlickFaceHQ數據集上預訓練的，而這個數據集主要包含白人圖像。”

Yann LeCun 大戰“鍵盤俠”，除了數據，“AI偏見”到底來自哪里？

這為LeCun招來了不少的批評，很多網友認為LeCun在提出狹隘甚至錯誤的觀點誤導人們，并紛紛提出了自己的質疑。LeCun對這些質疑一一回應，但仍得不到理解。最后LeCun不得不一條一條地解釋自己的觀點，才緩和了這場爭論的氣氛。

爭論的焦點在于：AI產生偏見的原因是否只是數據集導致？算法本身的缺陷能不能成為原因？

網友們的論點主要包括以下幾點：

1、只要是在有偏見數據上進行基準測試，那么這樣的偏見也會反映在機器學習系統的歸納偏置上。

用有偏見的基準推進機器學習并要求工程師簡單地“使用無偏見的數據重新訓練模型”是沒有用的。

2、我們不都知道機器學習算法帶有數據偏見以外的歸納偏置嗎？

3、當數據帶有偏見時，機器學習系統就是有偏見的。但某些機器學習系統的偏見不是由于數據，并且構建100%無偏見的數據集在實際上是不可能的。并且我們發現很多時候，假如數據帶有少量的偏見，系統會將其放大，并變得更加有偏見。

4、在完整的美國人數據集上訓練：當你使用L2損失，大多數人都像白人；當你使用L1損失，大多數人都像黑人。別再覺得偏見和算法無關了。

5、承認這個結論要求極大地縮小算法的定義范圍。你忽略了表征的選擇、損失函數的選擇、訓練方法的選擇以及超參數等等。

6、確實，這是個需要證明的大膽斷言。AI學習過程應該是架構、數據、訓練算法、損失函數等等的相互作用。

對于這些評論，LeCun澄清道，他只是認為，在大多數現代機器學習系統中，數據是主要的偏見來源。

Yann LeCun 大戰“鍵盤俠”，除了數據，“AI偏見”到底來自哪里？

LeCun 表示：

在7年前，大多數機器學習系統使用手工特征，這是偏見的主要來源。但是現在，人們開始使用深度學習架構，很大程度上減少了源于特征選擇和架構設計的偏見。所以我才認為現在數據是主要的偏見來源。我不是在討論機器學習理論性質上的歸納偏置（這是獨立于數據的）。我所討論的是現在在機器學習系統中經常見到的偏見，這些偏見可能源于特征或數據。但如果特征是用深度學習學到的，那么偏見不應該主要存在于數據嗎？”

另外，相比損失函數的選擇，通過在訓練過程中均衡樣本的類別頻率來修正這種偏見會遠遠更加高效。

但是也有學者認為算法和數據之間并沒有清晰的分界線，均衡樣本的類別頻率也是一種算法的選擇。偏見并非單純來源于數據，也可能取決于研究人員本身。

對于也可能取決于“研究人員”本身這一觀點，LeCun回應道：

當然。但是在logistic 回歸、全連接網絡或卷積網絡之間進行選擇，并不會導致系統固有地偏向某些類型的人。當手動設計特征時，就會引入偏見。而且，數據顯然是可以有偏見的。

Yann LeCun 大戰“鍵盤俠”，除了數據，“AI偏見”到底來自哪里？

到了這一步，爭論各方似乎都不太清楚對方在表達什么了。于是最后，LeCun在一系列的推文中清楚地表達了自己的觀點：

我沒有說“僅當數據有偏見時機器學習系統才有偏見”。

我只是表達了對PULSE這篇論文的看法。

機器學習系統中導致社會偏見的原因很多（這里不談論更一般的歸納偏置）：

1.如何收集數據和格式化
2.特征設計
3.模型的架構
4.目標函數
5.部署方式

當使用沒有手工特征的原始輸入時（如現代深度學習系統中常見的那樣），特征設計引起的偏差的重要性要小得多。

如果使用別人的預訓練模型作為特征提取器，特征將包含該系統的偏見。

也就是說，LeCun并非不同意質疑他的專家們的觀點，只是他當時發表的觀點建立在特定的條件下，而沒有表述清楚。