Double DIP ——一種無監督層圖像分割 AI 技術

本文作者：楊鯉萍

編輯：楊曉凡

2019-06-03 16:35

導語：基于耦合的深度圖像先驗網絡對單個圖像進行無監督層分割

雷鋒網 AI 科技評論按：每月《Computer Vision News》都會選擇一篇關于計算機視覺領域研究成果的論文進行回顧。今年三月份，他們選擇了由 Yossi Gandelsman，Assaf Shocher 和 Michal Irani 三位學者（下文中所提到的作者，均指以上三位學者）共同完成的關于 Double-DIP 模型的論文，其中詳細介紹了基于耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。

Double DIP ——一種無監督層圖像分割 AI 技術

概況

許多看似無關的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。舉兩個突出的例子：圖像分割——分割成背景層和前景層的區域；圖像去霧——分割為清晰圖層和有霧圖層。在該論文中，作者提出了一種基于耦合的「深度圖像先驗」（DIP）網絡對單個圖像進行無監督層分割的統一框架。

被 CVPR 2018 會議接收的深度圖像先驗（DIP）網絡，是一種可以用來對單個圖像的低級統計數據進行生成的結構，而且只需要在單張圖像上進行訓練。而在論文中，作者向我們展示了如何通過耦合多個 DIP 網絡得到一個強大的工具，來將圖像分割為其基本組成，從而使其適用于各類任務。正因為所得數據來自于混合層的內部，相比其各個組成部分的數據更復雜且更具代表性，這使其多功能適用性具有實現的可能。作者們認為，模型能勝任多種任務的原因是，相比于在不同的層上各自進行，多種不同的層的內部統計特性更為魯棒，也有更好的表征能力。

作者向我們展示了該方法在各類計算機視覺任務上的運用，比如：水印去除，前景/背景分割，圖像去霧以及視頻中的透明度分離等。在沒有提供任何額外數據的情況下，只需要在單張圖像上進行訓練，就可以完成以上所有的任務。

關于「圖像分割的統一框架」

由三個不同任務重新定義的原圖分割，可以視為簡單基本層的混合，如下圖所示，圖像分割、圖像去霧、透明度分離這三種任務都可以看作是，先把原始圖像拆分成一些基本層，然后再把這些層重新混合。

這種方法將圖像分割成若干基本層，并提供一個統一的框架來對大量明顯不同且無關的計算機視覺任務進行處理。所有這些圖像分割的共同點是每個單獨層內小塊的分布比「混合」圖像（即原始圖像）更「簡單」（均勻），從而導致每個單獨層的內部相似性很強。已有研究證明小圖像塊（例如 5×5，7×7）的統計特征（分布）在自然圖像中極具重復性，所以這種強內部重復性，可以很好的用于處理各種計算機視覺任務。

Double DIP ——一種無監督層圖像分割 AI 技術

圖1 圖像分割的統一框架

作者的方法結合內部補丁重現，即小塊圖像的重復出現的特性（無需監督即可解決任務的能力）和深度學習的強大力量，提出了一種基于 DIP 網絡的無監督框架。當 DIP 網絡的輸入是隨機噪聲時，它也能學會重建單個圖像（該圖像作為訓練的唯一輸入）時，單個 DIP 網絡被證明可以很好的捕獲單個自然圖像的低級統計數據。這個網絡還被證實在無監督情況下，完全能夠解決如：去噪，超分辨率和修復等問題。

圖像分割基本原理

Double DIP ——一種無監督層圖像分割 AI 技術

圖2 圖像分割基本原理

圖 2 向我們說明了該方法的基本原理。它展示了如何利用 X 和 Y 兩個圖案，來混合產生新的更復雜的圖像 Z。每個「純」圖案（X 和 Y）的小圖像塊的分布相比混合圖像 Z 小圖像塊的分布更簡單。眾所周知，如果 X 和 y 是兩個獨立的隨機變量，那么它們的和 Z = X + Y 的熵大于它們各自的熵。

圖 2 的損失函數圖還向我們詳細展示了單個 DIP 網絡作為時間函數（訓練迭代）時的 MSE 重建損失。對于圖中的 3 條線：（i）橙色是訓練重建紋理圖像 X 的 MSE 損失；（ii）藍色是訓練重建紋理 Y 的 MSE 損失；（iii）綠色是訓練重建紋理圖像 X+Y 的 MSE 損失。可以發現，MSE 損失值越大時，收斂時間越長。而且，混合圖像的 MSE 損失值不僅大于兩個單獨圖像的 MSE 損失值，實際上，還大于兩個單獨圖像 MSE 損失值的總和。

為了證明這個現象不是偶然，作者從 BSD100 數據集（為了防止自然圖像與規則圖案間有差異）中隨機選擇了 100 對自然圖像來重復該實驗。而結果證明，混合圖像與合成圖像組之間 MSE 損失值的差值甚至更高。

圖像分割工作模型

Double DIP ——一種無監督層圖像分割 AI 技術

圖3 圖像分割工作模型

圖 3 詳細說明了 Double-DIP 對圖像進行分割時的工作模型。兩個深度圖像先驗（DIP）網絡（DIP1 DIP2）將輸入圖像分割成對應的圖像層（y1＆y2），然后根據二進制掩模 m（x）進行重組，以形成盡可能接近于輸入圖像本身的重建圖像 I。

什么樣的分割是好的圖像分割？有很多方法可以將其分割為基本圖層，但作者提出有意義的分割應該滿足這樣幾個標準：

重新組合時，恢復的圖層能夠重建輸入圖像
每層應該盡可能「簡單」，即它應該具有很強的圖像元素內部自相似性
恢復的圖層之間彼此獨立

這三個標準也是 Double-DIP 網絡需要具體實現的參考。第一個標準通過最小化重建損失（衡量構造圖像和輸入圖像之間的誤差的參數）來實現；第二個標準通過采用多個 DIP（每層一個）實現；第三個標準由不同 DIP 的輸出間的「不相容損失」強制執行（最小化它們的相關性）。

每個 DIP 網絡重建輸入圖像 I 的不同圖層 y_i；每個 DIP_i 的輸入是隨機采樣的均勻噪聲 z_i；使用權重掩模 m（x）混合 DIP 輸出 y_i = DIP_i（z_i），從而生成重建圖像：

Double DIP ——一種無監督層圖像分割 AI 技術

其應盡可能接近輸入圖像 I。

對于某些任務中，權重掩模 m 非常簡單，而在其他情況下則需要進行學習（使用附加 DIP 網絡）。學習的掩模 m 可以是均勻的或空間變化的，連續的或二進制的。對 m 的約束條件與任務相關聯，并且使用指定任務的「正則化損失」來強制執行。因此優化損失是：

Double DIP ——一種無監督層圖像分割 AI 技術

關于 Double-DIP 網絡的訓練和優化類似于基本 DIP。而在輸入噪聲中，增加額外的非恒定噪聲擾動可以增加重建的穩定性。通過使用 8 個變換（4 個旋轉 90°和 2 個鏡像反射 - 垂直和水平）轉換輸入圖像 I 和所有 DIP 的相應隨機噪聲輸入，可以進一步豐富訓練集。

優化過程使用到了 ADAM 優化器，而每張圖片在 Tesla V100 GPU 上僅需要幾分鐘來完成。

研究成果

論文內提到的多個成果中，我們在下文中著重討論：

1）前景/背景分割

2）水印去除

前景/背景分割

我們可以設想將圖像分割成前景和背景區域，前景層為 y1，背景層為 y2，對于每個像素根據二進制掩模 m（x）進行組合，得到：

Double DIP ——一種無監督層圖像分割 AI 技術

這個公式非常適合文中所提到的框架，它將「好的圖像片段」定義為易于通過自身合成，但很難使用圖像其他部分進行合成這個概念。為了使分割掩碼 m（x）變為二進制，我們使用以下正則化損失：

Double DIP ——一種無監督層圖像分割 AI 技術

Double-DIP 能夠基于無監督的層分割獲得高質量的分割，如圖 4 所示，更多圖像分割結果可以在該項目的網站上進行觀看。盡管有許多其他分割方法（其中包括語義分割）的表現甚至比 DIP 要好，然而它們都有一個的缺點——需要用大量的數據訓練。

Double DIP ——一種無監督層圖像分割 AI 技術

圖 4 圖像分割實例

水印去除

水印廣泛用于保護受版權保護的圖像和視頻。Double-DIP 能夠將水印作為圖像反射的特殊情況來進行去除，其中圖層 y1 和圖層 y2 是分別是清理后的圖像和水印。

和圖像分割不同，在這種情況下，掩模沒有被明確設置，而是使用兩種實際解決方案之一來處理固有的透明層模糊性。如果僅涉及單個水印，則用戶通過帶有邊界框來標記水印區域；而當有少量圖像具有相同的水印時（通常 2-3 張圖像），在訓練過程中將由模糊性原則自行處理。圖 5 為一些水印去除的實例：

Double DIP ——一種無監督層圖像分割 AI 技術

圖 5 水印去除實例

結論

「Double-DIP」為無監督層分割的提供了統一的框架，這個框架可以適用于各種各樣的任務。除了輸入圖像/視頻之外，它不需要任何其它訓練數據。盡管這是一種通用的方法，但在某些任務中（如去霧），它所得到的結果可以與該領域的最先進的專業技術效果相當或甚至更好。該論文的作者認為，用語義/感知線索增強 Double-DIP 可能會使得語義分割和其他高級計算機視覺任務方面的進步，在接下來的工作中，他們也打算對這個方面做進一步的研究。

雷鋒網 AI 科技評論將相關鏈接整理如下：

原論文地址
https://arxiv.org/abs/1812.00467

雜志原文地址
https://www.rsipvision.com/ComputerVisionNews-2019May/4/

雷鋒網AI 科技評論

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

楊鯉萍

編輯

發私信

當月熱門文章