ICCV 2021 | 半監督二維人體姿態估計中的模型坍塌問題研究（代碼已開源）

本文作者：我在思考中

2021-09-22 10:18

導語：該論文由北京大學王亦洲課題組與微軟亞洲研究院合作完成，研究了一致性學習算法在二維人體姿態估計中的模型坍塌問題，并提出了構建預測難度存在差異的樣本對來解決該問題。

AI科技評論報道

本文是計算機視覺領域頂級會議ICCV2021入選論文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation（半監督二維人體姿態估計中的模型坍塌問題研究）》的解讀。該論文由北京大學王亦洲課題組與微軟亞洲研究院合作完成，研究了一致性學習算法在二維人體姿態估計中的模型坍塌問題，并提出了構建預測難度存在差異的樣本對來解決該問題。本文提出的算法可以有效地利用無標記數據中的信息，顯著提高了姿態估計模型的泛化能力。

ICCV 2021 | 半監督二維人體姿態估計中的模型坍塌問題研究（代碼已開源）

論文地址：https://arxiv.org/abs/2011.12498

代碼鏈接：https://github.com/xierc/Semi_Human_Pose

研究背景

二維人體姿態估計在公開數據集上的精度不斷獲得提升，但因為部署場景和訓練數據的差異，絕大多數模型在實際使用時都會面臨泛化性能降低這一挑戰。半監督學習為解決這一問題提供了可能，它利用少量標注數據和大量無標注數據（比如來自實際部署場景）進行共同訓練，期望提升模型在目標場景下的泛化能力。

目前半監督學習的方法中，結果最好的方法大多基于一致性訓練（Consistency-based）[1][2]。也就是要求模型在一張圖像的不同擾動（Perturbation）上產生一致的輸出，從而去探索無標簽圖像中存在的特征。一致性損失如公式所示， $f()$ 代表模型輸出， $\eta$ 表示擾動參數。但是，目前絕大多數工作都只在分類任務上進行了算法有效性的驗證。

ICCV 2021 | 半監督二維人體姿態估計中的模型坍塌問題研究（代碼已開源）

但當我們把這些方法應用到二維人體姿態估計時，我們發現大部分的一致性訓練方法都遇到了模型坍塌的問題（Model Collapsing）—— 模型在有標注的圖像上能夠預測出正確的heatmap，但在無標注的圖像上對每個像素的預測都是0。注意在這種情況下，雖然一致性損失是最小的，但模型在無標簽數據上卻沒有學到任何有意義的信息。

圖1. 經典的一致性訓練方法在二維人體姿態估計任務上的表現。(a) 預測 Heatmap 響應的變化。(b) 平均精確率的變化。

具體情況如圖1 (a) 所示，隨著訓練次數的增加，模型在無標注數據上產生退化的輸出（整張圖像被預測成背景）。有意思的是模型在標注數據上依然能夠產生正確的輸出，這個觀察意味著網絡能夠區分訓練圖像來自于無標注/有標注數據集。在圖1 (b) 中，模型在驗證數據集上的精度逐漸接近于0，可確認此時發生了退化。

問題分析

????????????在文章里，我們通過實驗對這個現象進行了深入分析，發現可能是類別不均衡問題導致的。在人體姿態估計任務中，一張圖像中絕大部分像素屬于背景，只有一小部分屬于前景（對應關節點附近的高斯區域）。因此該任務中存在非常嚴重的類別不均衡問題。

當模型針對兩個對應的像素（來自于兩個 Perturbations）產生不一致的預測時，比如一個預測為1（前景），一個預測為0（背景）。經典的一致性訓練方法中，試圖同時更新兩個預測值，從而移動決策邊界，使得兩者位于邊界的同一側。而因為類別不均衡問題的存在，決策邊界傾向于移動到全局來看樣本數目更稀疏的少數類別區域（也就是前景）。因此，隨著訓練的進行，我們發現越來越多的像素被預測成背景。圖示分析可見圖2。

圖2. (A) 進行無監督訓練前的決策邊界。(B) 經典的一致性訓練方法試圖讓同一圖像在不同擾動下的預測保持一致，因此該損失函數傾向于驅動決策平面移動到樣本數量較少的前景區域，從而導致越來越多的像素被預測成背景。(C) 本文提出的方法，具體介紹見下文。

本文方法

上面的分析促使我們在計算一致性損失的時候，應該考慮兩個輸出的準確性，從而用相對準確的預測去監督另外一個預測。我們在統計中發現，對圖像進行簡單的圖像增強后得到的結果要比進行困難的圖像增強更準確。基于此，我們提出了一個非常簡單的訓練方式。

圖3. 本文提出的 Easy-Hard 數據增強方法

如上圖所示，針對一張無標簽圖像，我們分別進行一次“Easy”和“Hard”的圖像增強，并將其分別輸入姿態估計模型預測 Heatmap。當網絡接收來自于簡單增強的圖像時，得到的預測值被當作 Teacher，用于監督對應的接收困難增強的圖像的預測。

值得注意的是，這里的梯度傳播是單向的，也就是說困難增強的圖像的結果并不會去指導對應的簡單增強的圖像，從而盡可能降低因為錯誤的監督而導致模型退化的可能性。這種方法可以成功避免退化的問題，其訓練過程和結果可參考圖4。

圖4. 本文方法成功解決了模型退化的問題

雙重網絡

在 Easy-Hard 增強方法解決了模型退化問題的基礎上，本文中進一步提出了雙重網絡的訓練方式。雙重網絡通過增加 Teacher 和 Student 預測間的差異，來避免一致性訓練過早收斂，從而提高了半監督學習的效果。

如圖5所示，該方法同時訓練兩個參數獨立且初始化不同的網絡，并且在它們之間通過無標記樣本來交換信息。該方法同樣使用了 Easy-Hard 增強方法來避免模型退化。具體來說，模型一在簡單樣本下得到的預測，將用于監督模型二在困難樣本下的預測。反之亦然，模型二的預測值也同樣用于指導模型一的訓練，兩者互為教師和學生模型。

圖5. 本文提出的雙重網絡模型

實驗結果

我們在多個數據集和多個基線方法上進行了大量的實驗，驗證了本文提出的訓練方式可以取得非常好的效果。

表1. COCO 數據集中半監督學習設置下的結果

表2. COCO 數據集中使用全量標記樣本，在驗證集的結果

表3. COCO 數據集中使用全量標記樣本，在測試集的結果

在 COCO 數據集上，當只使用少量標簽數據時（表1），本文的方法大約能提升8%-13%的平均精確率。如表2、表3所示，在使用訓練集的全量數據時，本文方法仍然能夠增加2%-3%的平均精確率。這些結果都驗證了本文方法的有效性和實用性。此外，論文中還匯報了本文方法在領域自適應，模型預訓練等任務中的應用結果，也取得了較顯著的改善。

參考文獻

[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.

[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5049–5059, 2019.

ICCV 2021 | 半監督二維人體姿態估計中的模型坍塌問題研究（代碼已開源）

雷鋒網雷鋒網雷鋒網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章