數據集中存在錯誤標注怎么辦？置信學習幫你解決

本文作者： skura

編輯：張路

2019-12-29 18:15

導語：本文討論了一個新興的、原則性的框架，用于識別標簽錯誤、描述標簽噪聲，并使用被稱為置信學習（CL）的噪聲標簽進行學習。

雷鋒網AI開發者按，如果你曾經使用過諸如 CIFAR、MNIST、ImageNet 或 IMDB 之類的數據集，那么你可能會假設類標簽是正確的。令人吃驚的是，ImageNet 中可能至少有 10 萬個標簽有問題。為什么我們不早點找到它們？在海量數據集中描述和發現標簽錯誤的原則性方法非常具有挑戰性，解決方案也很有限。

在這篇文章中，作者討論了一個新興的、原則性的框架，用于識別標簽錯誤、描述標簽噪聲，并使用被稱為置信學習（CL）的噪聲標簽進行學習，該框架是開源的 cleanlab Python 包。

cleanlab 是一個帶有標簽錯誤的機器學習和深度學習框架，和 PyTorch 類似。在 cleanlab 文檔中了解更多信息。

cleanlab 加上 confidentlearning-reproduce repo 就可以重現 CL 論文中的結果。

數據集中存在錯誤標注怎么辦？置信學習幫你解決

2012 年 ILSVRC ImageNet 訓練集中通過置信學習確定的前 32 個標簽問題。標簽錯誤用紅色框表示，綠色表示本體論問題，藍色表示多標簽圖像

上圖顯示了使用置信學習發現的 2012 ILSVRC ImageNet 訓練集中的標簽錯誤的例子。為了便于解釋，我們將使用 CL 在 ImageNet 中發現的標簽問題分為三類：

多標簽圖像（藍色）：在圖像中有多個標簽
本體論問題（綠色）：包括“是”或 “有”兩種關系，在這些情況下，數據集應該包含其中一類
標簽錯誤（紅色）：數據集別的類的標簽比給定的類標簽更適合于某個示例

使用置信學習，我們可以使用任何合適的模型在任何數據集中找到標簽錯誤。下面是常見數據集中的其他三個實際示例。

數據集中存在錯誤標注怎么辦？置信學習幫你解決

在 Amazon 評論中存在的標簽錯誤的例子，使用置信學習來識別不同的數據模式和模型

什么是置信學習？

置信學習（CL）已成為監督學習和弱監督的一個子領域，可以被用于：

描述標簽噪聲
查找標簽錯誤
學習噪聲標簽
發現本體論問題

CL 基于噪聲數據剪枝的原理，通過計數對噪聲進行評估，并對實例進行排序以進行置信訓練。在這里，我們在 Angluin 和 Laird 分類噪聲的假設基礎上，將 CL 泛化到直接估計給定噪聲標簽和無噪聲標簽之間的聯合分布。

數據集中存在錯誤標注怎么辦？置信學習幫你解決

帶噪標簽與不帶噪標簽置信聯合與估計聯合分布的置信學習過程及實例，其中，y~ 表示觀察到的噪聲標簽，y* 表示潛在的未損壞標簽

從上圖可以看出，CL 需要兩個輸入：

樣本外預測概率（矩陣大小：類的樣本數）
噪聲標簽（矢量長度：示例數）

出于弱監督的目的，CL 包括三個步驟：

估計給定噪聲標簽和潛在（未知）未損壞標簽的聯合分布，以充分描述類條件標簽噪聲
查找并刪除帶有標簽問題的噪音示例
去除訓練誤差，通過估計潛在先驗重新加權實例

置信學習的優點

與大多數機器學習方法不同，置信學習不需要超參數。我們使用交叉驗證從樣本中獲得預測概率。置信學習還有許多其他優點：

直接估計噪聲和真標簽的聯合分布
適用于多類數據集
查找標簽錯誤（錯誤按最有可能到最不可能的順序排列）
是非迭代的（在 ImageNet 中查找訓練標簽錯誤需要 3 分鐘）
在理論上是合理的（現實條件下準確地找到標簽誤差和聯合分布的一致估計）
不假設標簽噪聲是隨機均勻的（在實踐中通常行不通）
只需要預測概率和噪聲標簽（可以使用任何模型）
不需要任何真實（保證不損壞）的標簽
自然擴展到多標簽數據集
作為 cleanlab Python 包，它是免費、開源的，用于描述、查找和學習標簽錯誤

置信學習的原則

CL 是在處理噪音標簽的文獻中制定的原則之上建立起來的：

剪枝以搜索標簽錯誤。例如，通過損失重加權使用軟剪枝，以避免迭代重標記的收斂陷阱。
對干凈數據進行統計訓練，避免在不完全預測概率的情況下重新加權損失（Natarajan et al.，2017），從而避免學習模型權重中的錯誤傳播。
對訓練期間使用的示例進行排序，以允許使用不規范概率或 SVM 決策邊界距離進行學習。

置信學習的理論發現

有關 CL 算法、理論和證明的全部內容，請閱讀這篇論文。這里，我總結一下論文的主要觀點。

理論上，論文給出了 CL（定理 2：一般的逐例穩健性）準確地發現標簽錯誤并一致地估計噪聲和真實標簽的聯合分布的現實條件。我們的條件允許每個例子和每個類的預測概率中有錯誤出現。

置信學習是如何工作的？

為了了解 CL 是如何工作的，讓我們假設我們有一個包含狗、狐貍和牛的圖像的數據集。CL 通過估計噪聲標簽和真標簽的聯合分布（下圖右側的 Q 矩陣）來工作。

數據集中存在錯誤標注怎么辦？置信學習幫你解決

左：置信計數示例，這是一個不正常的聯合估計；右：有三類數據的數據集的噪聲標簽和真標簽的聯合分布示例

繼續我們的示例，CL 統計 100 個標記為 dog 的圖像，這些圖像很可能屬于 dog 類，如上圖左側的 C 矩陣所示。CL 還統計了 56 幅高概率標記為 fox 的圖像和 32 幅高概率標記為 cow 的圖像。

你可能對它的數學過程比較好奇，好吧，這個計數過程采用的是下面的公式：

數據集中存在錯誤標注怎么辦？置信學習幫你解決

置信聯合方程

我們鼓勵閱讀論文原文來理解公式中的符號，這里的中心思想是，當一個例子的預測概率大于每個類的閾值時，我們自信地認為這個例子實際上屬于該閾值的類。每個類的閾值是該類中示例的平均預測概率。這種閾值形式將 PU 學習中眾所周知的魯棒性結果（Elkan&Noto，2008）推廣到多類弱監督。

使用標簽噪聲的聯合分布查找標簽問題

從上圖右側的矩陣中，估計標簽問題：

將聯合分布矩陣乘以示例數。讓我們假設我們的數據集中有 100 個示例。所以，在上圖中（右邊的 Q 矩陣），有 10 個標記為 dog 的圖像實際上是狐貍的圖像。
將 10 張標記為 dog 的圖片標記為標簽問題，其中屬于 fox 類的可能性最大。
對矩陣中的所有非對角項重復此操作。

注意：雖然這簡化了本文中使用的方法，但抓住了本質。

置信學習的實際應用

在高噪音和高稀疏的情況下，平均來說，CL 提高了 10% 以上高噪聲學習水平和 30% 以上的高稀疏學習水平。

數據集中存在錯誤標注怎么辦？置信學習幫你解決

上表顯示了 CIFAR-10 上帶噪聲標簽的多類學習的 CL 與最新方法的比較。在高稀疏性（見下一段）和 40%、70% 的標簽噪聲的情況下，CL 的表現優于 Google 表現最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up，性能超過它們 30%。在使用置信學習之前，對這一基準的改進要小得多（大約只有幾個百分點）。

稀疏性（Q 中零的分數）概括了這樣一個概念，即現實世界中的數據集，如 ImageNet，有一些類不太可能被錯誤地標記為其他類，例如 p(tiger,oscilloscope) ~ 0 in Q。如上表中突出顯示的單元格所示，與 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新方法相比，CL 顯著增強了對稀疏性的魯棒性。這種魯棒性來自于直接建模 Q，即噪聲和真實標簽的聯合分布。

CL 清洗 ImageNet 提高 ResNet 測試精度

數據集中存在錯誤標注怎么辦？置信學習幫你解決

在上圖中，每種方法的直線上的每個點，從左到右，描述了訓練的準確性，去除了 20%、40%…、100% 的估計標簽錯誤。黑色虛線用所有例子描述了訓練時的準確性。當移除少于 100k 個訓練示例時，使用 CL 在清洗過的 ImageNet 訓練集上訓練（不添加合成噪聲），觀察 ResNet 驗證精度的提高。當超過 100k 個訓練實例被移除時，觀察使用 CL 相對于隨機移除的改善，如紅色虛線所示。

在添加標簽噪聲的 CIFAR 中標簽噪聲的良好表征

數據集中存在錯誤標注怎么辦？置信學習幫你解決

上圖顯示了 CIFAR 中標簽噪聲聯合分布的 CL 估計，標簽噪聲增加了 40%。觀察（b）中的 CL 估計與（a）中的真實分布有多接近，以及（c）中矩陣中每個項的絕對差的低誤差。概率被放大 100 倍。

ImageNet 本體論問題中類命名問題的自動發現

數據集中存在錯誤標注怎么辦？置信學習幫你解決

CL 通過直接估計標簽噪聲的聯合分布，自動發現數據集中類的本體論問題。在上表中，我們顯示了在我們估計單類數據集 ImageNet 的標簽噪聲聯合分布時最大的偏離對角線。每行都列出了噪聲標簽、真標簽、圖像 id、計數和聯合概率。因為這些是非對角的，所以噪聲類和真類必須是不同的，但是在第 7 行中，我們看到 ImageNet 實際上有兩個不同的類，它們都被稱為 maillot。

最后的想法

論文的理論和實驗結果強調了置信學習的實用性，例如識別 ImageNet 和 CIFAR 中的許多標簽問題，并通過在清洗過的數據集上進行訓練來提高標準 ResNet 的性能。置信學習促使人們需要進一步了解數據集標簽中的不確定性估計、清洗訓練集和測試集的方法以及識別數據集中本體論問題和標簽問題的方法。

via：https://l7.curtisnorthcutt.com/confident-learning

雷鋒網雷鋒網雷鋒網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

skura

編輯

發私信

當月熱門文章

數據集中存在錯誤標注怎么辦？ 置信學習幫你解決

數據集中存在錯誤標注怎么辦？置信學習幫你解決