google AI 最新博文：模型的不確定性是否可信？

本文作者： skura

2020-01-17 20:18

導語：在數據集轉移的情況下，不確定性的質量會下降，但是一些有希望的研究方法可以緩解這種情況

在實際應用中，機器學習模型遇到的數據并不總是具有相同的分布。在這種情況下，模型的精度會如何變化？近日，Google AI 發布了一篇博文，討論了這個問題，他們認為，在數據集轉移的情況下，不確定性的質量會下降，但是一些有希望的研究方法可以緩解這種情況。原文大意如下：

在理想情況下，機器學習方法（如深度學習）被用來對與訓練數據分布相同的數據進行預測。但實際情況可能大不相同：相機鏡頭變得模糊，傳感器退化等問題，都可能導致訓練模型與應用模型數據分布之間的差異，從而導致所謂的協變量偏移。例如，最近有人觀察到，接受過胸部 x 光檢查肺炎訓練的深度學習模型，在根據以前沒遇到過的醫院數據進行評估時，其精確度水平將大不相同，部分原因是圖像采集和處理方面的細微差異。

在 NeurIPS 2019 上，我們的論文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift」對最先進的深度學習模型的不確定性進行了基準測試，因為它們暴露于不斷變化的數據分布和分布外的數據。在這項工作中，我們考慮各種輸入模式，包括圖像、文本和在線廣告數據，將這些深度學習模型用于不斷變化的測試數據中，同時仔細分析其預測概率的行為。我們還比較了各種不同的方法來提高模型的不確定性，看看哪些策略表現最好。

什么是分布外數據？

深度學習模型為每個預測提供一個概率，這個概率表示模型的可信度或不確定性。因此，當數據不在原始訓練數據集的范圍內時，它們可以表達它們不知道的內容，避免預測。在協變量移位的情況下，不確定性理想情況下會隨著精度的任何降低而成比例增加。一個更極端的情況是，數據不在分布范圍內（OOD）。例如，你可以設想一下，當一個貓狗圖像分類器遇到飛機圖像時會發生什么。這個模型是自信地預測錯誤，還是根據概率進行分類？在此前的文章中，我們最近討論了我們開發的識別此類 OOD 示例的方法。在這項工作中，我們分析了分布外模型的預測不確定性，并轉移了實例，以查看模型預測概率是否反映了它們對此類數據的預測能力。

量化不確定度的質量

一個模型比另一個模型更能反映其不確定性意味著什么？雖然這可能是一個細致入微的問題，通常是由下游任務定義的，但有一些方法可以定量評估概率預測的總體質量。例如，氣象界仔細考慮了這一問題，并制定了一套適當的評分規則，天氣預報的概率比較函數應滿足這些規則，以便能夠很好地進行校準，同時也有利于提高準確度。我們應用了一些適當的評分規則，如 Brier 評分和負對數似然（NLL），以及更直觀的啟發式方法，如預期校準誤差（ECE），來了解不同的 ML 模型如何處理數據集移位情況下的不確定性。

實驗

我們分析了數據集移位對各種數據模式（包括圖像、文本、在線廣告數據和基因組學數據等）不確定性的影響。舉個例子，我們演示了數據集移位對 ImageNet 數據集的影響。ImageNet 將 100 多萬張圖像分為 1000 個不同的類別。一些人現在認為這一挑戰已經基本解決，并且已經開發出更難的變體，例如損壞的 Imagenet（或 Imagenet-C），其中數據有 16 種不同的損壞，每種損壞的強度分為 5 種。