ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

本文作者：我在思考中

2021-08-30 10:07

導語：利用算法自動鑒別圖片關鍵信息，并巧妙刪除，就像給圖片“打碼”一樣，AI視覺系統就會無法識別該圖片。

AI科技評論報道

人有很強的抽象能力和聯想力，例如一個由幾塊積木拼成的樂高玩具，小朋友也能輕易認出其中描述的場景。甚至幾個像素，玩家也可以輕易認出這是哪個人物。

但AI可不一定會輕易識別出來。

不久前，某知名品牌汽車被曝其自動駕駛系統無法識別白色貨車箱體這樣類似于“一堵墻”的障礙物。在自動駕駛中，行人、車輛被漏檢或者未能及時被檢測到，都可能導致交通事故的產生。此外，安防漏檢危險人物與物品也可能導致安全隱患。這些風險都提示，AI視覺的安全性值得重視。

在研究AI視覺穩定性的過程中，阿里安全圖靈實驗室的研究人員札奇發現，AI視覺還有一個盲區：利用算法自動鑒別圖片關鍵信息，并巧妙刪除，就像給圖片“打碼”一樣，AI視覺系統就會無法識別該圖片。最近，這項研究成果被AI頂會ICCV 2021收錄。

論文地址：https://arxiv.org/pdf/2108.09034.pdf

札奇的研究源于逛商場看到樂高玩具迸發的靈感。當時，她有一個疑問：“人眼如何識別‘馬賽克’式樣的玩具？還有早期的超級馬里奧，雖然只是由幾個簡單像素組成，人卻可以正確識別這種抽象的表達。AI模型面對‘馬賽克’式的圖片，能正確識別嗎？”

盡管我們期望AI模型能具有和人相當的能力，但是”抽象能力”對于現在的AI模型來說顯然還是相當有挑戰性的。但相反的，如果我們從對抗樣本的角度來考慮：存不存在一種可能，如果我們去掉圖片中一些對AI模型來說關鍵而微小的特征，AI模型就無法再正確識別這些圖片。

那么什么是對抗樣本呢？

對抗樣本

對抗樣本一開始由Szegedy等人在2013年定義: 給定一張原始圖片x及其標簽y，以及模型。對抗樣本是指在原圖x上加一些刻意制造的微小的擾動，從而讓結果圖像無法被正確識別（如下圖所示）。通常來說，對抗擾動被限制在一定閾值內，從而保證結果圖對人來說與原圖幾乎不可區分。后續有很多相關工作在當前設定下進一步探索了更多生成對抗樣本的攻擊方式，以及其他性質，例如遷移性等。

圖1. 對抗攻擊

“對抗樣本可能是特征”

在對抗樣本提出后，有各種各樣的防御工作提出，其中對抗訓練是最為有效的防御方式之一，但是對抗訓練有非常明顯的問題是：在穩健性（robustness）和準確率（accuracy）之間始終有一個平衡，即對抗訓練提升模型穩健性的同時也導致的模型的準確率下降。為了解釋這一現象，Ilyas等人給對抗樣本的存在提出了一個假設：對抗樣本不是bug，而是一組對人來說不可感知的特征。以人類感知為中心，人類所能察覺的特征就是robust feature，其他的特征則是non-robust。例如圖2的狗狗，人類只會注意到其中的耳朵鼻子等顯著特征(robust feature)。

圖2. 魯棒特征與非魯棒特征

Ilyas等人通過一組巧妙的實驗說明對抗樣本其實是模型從數據中學習到一部分特征，盡管對人來說不可感知，但是對于模型來說是具有預測意義的。受Ilyas 等人工作啟發，札奇研究團隊試圖從一個相反的角度來討論一個潛在的攻擊機制：可否去掉一些對人來說微小而不可感知但是對于模型決策又重要的特征，從而形成對抗樣本呢？

AdvDrop, 通過丟信息來制造對抗樣本

他們對此猜想進行了驗證，實驗過程如下：

ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

圖3. 左側AdvDrop，信息丟失越來越多，右側PGD,對抗噪聲越來越大

他們在這個工作中提出一個新的機制來生成對抗樣本：相反于增加對抗擾動，我們通過扔掉一些不可察覺的圖像細節來生成對抗樣本。關于兩種相反機制的說明如圖3，當AdvDrop放寬丟掉的信息量的閾值epsilon，產生的對抗樣本越來越趨近于一張灰色圖片，伴隨著圖像存儲量的降低。而相反的，PGD生成的對抗樣本，隨著干擾幅度的增大，越來越接近于無序噪音。

一張更細節的對比圖4所示，從局部區域來看，PGD在圖片的局部生成了更多的細節，表現為更豐富的色彩。而相反的，AdvDrop生成的對抗樣本與原圖相比失去了一些局部細節，表現在色彩精度的降低。

圖4. PGD與AdvDrop局部色彩豐富度

他們是如何確定丟掉哪些區域的呢？

為了確定丟掉哪些區域的圖片信息，并且保證扔掉的細節人們無法感知，他們提出一種通過優化量化表的方式來選擇丟掉信息的區域以及丟掉的信息量的方法。此外，為了保證丟掉的細節對于人來說依然不可感知，要先將圖像通過離散傅里葉變換從RGB轉換到頻域，再用量化表去量化一些頻域的信息。頻域操作相比于RGB的優點是，能更好的分離圖像的細節信息（高頻信息）和結構信息（低頻信息），因此可以保證扔掉的細節對人來說不可感知。

圖5. AdvDrop 算法流程

整個流程如圖5所示，從優化上，可以被定義為：

ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

其中D 和分別表示的是離散余弦變環及反變換，表示的是一個可微分的量化過程。

通常的量化，可以定義為：

ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

但是因為量化函數不可微分，極大影響優化過程。因此，札奇研究團隊參考了Gong等人的工作，通過引入可控tanh函數來漸進的逼近階梯式的量化函數，所以：

ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

其斜度可以由 α調整，如下圖所示，經過量化函數可微處理，可以更準確的反向傳播梯度從而更準確的估計出應該丟失信息的位置及量化的大小。

圖6. 不同alpha 下tanh函數對量化函數的逼近程度

結果評估

用lpips比較AdvDrop及PGD在相同信息量變化下的視覺得分：從對抗樣本的不可感知角度來說，在同樣的感知得分下，丟信息操作允許操作的信息量要比加干擾允許的更大。從人類視覺上來說，相比于加噪，人眼對于局部平滑其實更為不敏感，從圖7可見，隨著量化表閾值的增大，AdvDrop生成的對抗樣本的局部細節越少，例如蜥蜴鱗片的紋理：

圖7. 不同預知下的攻擊結果展示

從成功率上來說，無論是在目標攻擊還是無目標攻擊的設定下， AdvDrop有相當高的成功率來生成一個對抗樣本。在目標攻擊下，最高可以達到一個99.95%成功率。但相比于傳統加噪的對抗攻擊生成方式 (例如PGD，BIM) 可以輕易達到100%的成功率來說，依然是強度較弱的。

“我們覺得AdvDrop強度方面的局限可能來自于兩方面：一方面是由于量化這樣的方式，另一方面，“減信息”可以操作的空間相比于“加信息”的空間來說要小很多。”

他們也評估了AdvDrop在不同防御下的表現。目前主流防御方式主要分為兩種，一種是對抗訓練 ，另一種是基于去噪的防御方式。研究發現AdvDrop生成的對抗樣本對于現階段防御方式來說仍是一個挑戰，尤其是基于去噪的防御方式。

ICCV 2021 | 阿里安全發現“打碼圖片”可攻擊AI視覺系統

具體來說，在一定擾動閾值下，基于制造對抗擾動的對抗樣本生成方式經過去噪后，圖片有很大概率恢復成原始圖片。但是對于用AdvDrop生成的對抗樣本來說，其本身就是由于部分特征丟失而導致的錯誤識別，而去噪操作甚至會加劇這種由于丟失而無法識別的問題。

圖8. AdvDrop和PGD在Denoise操作下的細節展示

除了防御的角度，考慮到很多數據都是從網上收集而來，而網絡傳輸中往往存在數據壓縮過程，所以通過AdvDrop生成的對抗樣本可能“更耐傳輸”。當然，另一個角度來想，也有可能對于正常圖像數據來說，一些正常的數據壓縮（例如jpeg）也許不經意間就引入了對抗樣本。

總結

因此，傳統對圖片“加工”以騙過AI的方法是給圖片加上“噪音”，相當于在當前圖片上針對模型"亂涂亂畫"，讓AI無法識別，但原圖片本身的關鍵信息沒有丟失，只要用“橡皮擦”擦一擦，AI依然能識別。如果反向操作，刪除圖片的關鍵信息，就像打“馬賽克”，圖片的關鍵信息已經丟失，那么AI無論如何也難以識別。這意味著，針對“打碼攻擊”，難以有防御措施。

該工作也展示了AI模型另一個角度的局限性：對重要細節丟失的穩健性。

在這個工作中，僅僅探索了在頻域上丟信息的操作，通過其他丟信息方式來生成對抗樣本都是可以值得嘗試的未來工作。

專注對AI的對抗樣本和模型安全性進行研究的阿里安全高級算法專家越豐提醒，除了AI視覺場景，真實場景中也可能存在這種對抗攻擊，例如針對某知名PS軟件，只要提供具備對抗攻擊性質的JPEG量化表，就能產出有“攻擊性”的圖片。

此外，在實際場景中，圖片信息丟失是常見現象，例如用戶將圖片以JPEG形式上傳到網絡，就有一定的信息丟失，可能不經意間就會制造一個“對抗樣本”。越豐認為，這對當前內容安全場景的AI識別而言，都是不小的挑戰。

“比如有人將涉黃賭毒圖片以損失部分信息的形式上傳到網絡，人眼依然能領會含義，但AI卻沒能正確識別，這對構建清朗、健康網絡環境而言，就是一種對抗。”越豐舉例道，AI安全行業應該警惕這種類型的對抗。

當然，“致盲AI”不是研究人員的目標，研究人員最終還是想發現AI模型的脆弱性，進一步提升AI安全。“在AI安全前沿技術上進行探索，一是為了讓AI更安全，二是為了讓AI助力安全，三是為解決具體社會問題尋找提效的新途徑。”阿里安全圖靈實驗室負責人薛暉提醒，相比“事后彌補”，安全應前置，從源頭守衛安全，對前沿技術進行研究布局，以科技創新造就最好的網絡安全。

贈書福利

AI科技評論本次聯合Springer為大家帶來5本周志華教授親筆簽名的《Machine Learning》正版新書。

在AI科技評論8月28日頭條文章（注意不是本文，僅限AI科技評論微信公眾號端）留言區留言，歡迎大家暢所欲言，談一談你對本書的看法和期待。在綜合留言質量（留言是敷衍還是走心）和留言點贊最高（注：點贊最高的前5不意味著一定會中獎）的讀者中選出5位讀者獲得贈書。獲得贈書的讀者請聯系 AI 科技評論客服（aitechreview）。

留言內容會有篩選，例如“選我上去”、“這書寫的很棒（僅僅幾個字）”等內容將不會被篩選，亦不會中獎。
留言送書活動時間為2021年8月28日 - 2021年9月01日（23:00），活動推送時間內僅允許贈書福利中獎一次。
雷鋒網雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章