打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

本文作者：我在思考中

2021-12-23 09:37

導語：GLIDE：邁向真實圖像生成和編輯文本引導的擴散模型。

作者 | 莓酊、杏花

編輯 | 青暮

以前，當我們想擁有一副圖像時，首先會做的就是找專業畫師，將我們對圖畫的要求逐一描述，畫師再根據需求醉墨淋漓一番。但這種方式需要耗費一定的時間和人力成本，且成果不一定盡如人意。

如今，基于自然語言生成逼真圖像的工具使我們能夠以一種全新的方式輕松創建大量的高質量圖像。使用自然語言編輯圖像的能力進一步允許迭代細化和細粒度控制，這兩者對于現實世界的應用程序都至關重要。

目前，GANs（對抗生成網絡）在大多數圖像生成任務上擁有最先進的技術，這些技術是通過樣本質量來衡量的，例如FID，Inception Score 和 Precision等指標。

然而，其中一些指標不能完全捕獲生成圖像的多樣性，且與最先進的基于似然度的模型相比，GANs捕獲的多樣性較少。此外，如果沒有精心選擇的超參數和正則化器，GANs在訓練中經常翻車。

針對這些問題，OpenAI的兩位研究人員Prafulla Dhariwal和Alex Nichol便著眼于其他體系架構。2021年5月，這兩名學者發表了名為《Diffusion Models Beat GANs on Image Synthesis》的論文，證明了擴散模型在圖像合成上優于目前最先進的生成模型的圖像質量。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

論文地址：https://openreview.net/pdf?id=AAWuCvzaVt

半年多的時間，Alex Nichol 和Prafulla Dhariwal再度攜手，帶領團隊于2021年12月20日發布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

論文地址：https://arxiv.org/pdf/2112.10741v1.pdf

以文本“薩爾瓦多·達勒（salvador dal??）的超現實主義夢幻油畫，畫的是一只貓在跳棋”為例，GLIDE模型生成如下具有陰影和反射的逼真圖像，并以正確的方式組合多個概念，產生新穎概念的藝術效果圖。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

文章一出即在推特上引起廣泛關注，收獲了無數業內人士的鮮花和掌聲。

名為Kyle的網友表示，他覺得這項研究跨越了“漸進式增長GAN”到“StyleGAN”的界限。從滿是笨拙的機器學習人工偽造物，到現在突然變得與它模仿的真實物體幾乎無法分辨。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

連GLIDE的失敗案例都透著滿滿的優秀感：它不會畫有 8 條腿的貓......

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

有網友提問：如果對它提出指令“沒人見過的東西”會生成什么？

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

Em......結果是沒見過，但也不是完全沒見過。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

生成能力超越DALL-E

實驗證明，擴散模型（Diffusion Models）可以生成高質量的合成圖像，尤其在與引導技術結合使用時，能夠在保真度上權衡多樣性。

作者們為文本條件下的圖像合成問題的擴散模型，對比了兩種不同的指導策略：CLIP guidance 和classifier-free guidance。而后發現，在寫實度和主題相似度方面，后者更受人類評估參與者的青睞，并且經常獲得逼真的樣本。

使用classifier-free guidance的35億參數文本條件擴散模型的樣本收到的評價更高，令來自DALL-E的樣本完全“黯然失色”。GLIDE模型微調后還可以修復圖像，出色完成文本驅動的圖像編輯任務。

已有的最新文本條件圖像模型已經可以做到根據格式多樣的文本中合成圖像，甚至可以“理解”語義，按照合理的邏輯組合毫不相關的客體。但在捕捉相應文本并生成逼真圖像方面，還略遜一籌。

毋庸置疑，擴散模型是前景大為可觀的生成模型系列，在諸多圖像生成任務上達到了最先進的樣本質量基準。

為了在類條件設置中實現真實感，作者們利用分類器指導增強擴散模型，擴散模型以分類器的標簽作為條件。分類器首先在有噪聲的圖像上進行訓練，在擴散采樣過程中，使用分類器提供的梯度引導樣本朝向標簽。Salimans等人曾通過使用無分類器的指導，未單獨訓練的分類器中獲得了類似結果，這給研究者們帶來了靈感，在有標簽擴散模型和無標簽擴散模型的預測之間進行插值。

受引導擴散模型生成逼真樣本的能力以及文本到圖像模型處理自由形式提示的能力的啟發，研究人員將引導擴散應用于文本條件圖像合成問題。首先，作者們訓練了一個 35 億參數擴散模型，該模型使用文本編碼器以自然語言描述為條件。接下來，他們比較了兩種將擴散模型引導至文本提示的技術：CLIP 引導和無分類器引導。使用人工和自動評估，發現無分類器的指導產生更高質量的圖像。

研究人員發現GLIDE模型中，無分類器指導生成的樣本栩栩如生，圖像還蘊涵著廣泛的世界知識。由人類參與者評估后，普遍給出評價：GLIDE“創造”的效果優于 DALL-E。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

擴散模型的潛力

在論文《Diffusion Models Beat GANs on Image Synthesis》中，研究人員通過一系列的消融實驗，以找到更好的擴散模型架構，實現無條件的圖像合成。對于條件圖像合成，則使用分類器指導（利用分類器的梯度以來權衡樣本質量-多樣性）進一步提高了樣本質量。

論文的作者們分別在ImageNet 128×128上達到2.97的FID，在ImageNet 256×256上達到4.59的FID，在ImageNet512×512上達到7.72的FID，并且即使每個樣本只有25次正向傳遞，其生成圖像質量依然可以匹配BigGAN-deep，同時保持了更好的分布覆蓋率（多樣性）。

最后，作者團隊發現分類器指導與上采樣擴散模型可以很好地結合在一起，從而將ImageNet512×512上的FID進一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 論文中提出了BigGAN，當時一經發表就引起了大量關注，很多學者都不敢相信AI竟能生成如此高質量的圖像，這些生成圖像的目標和背景都相當逼真，邊界也很自然。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

由BigGAN模型生成的512x512分辨率圖像

如今，Alex Nichol和Prafulla Dhariwal兩位學者提出的擴散模型，終于可在圖像合成上匹敵BigGAN。

從最佳ImageNet512×512模型（FID3.85）中選擇的樣本

擴散模型是一類基于似然度的模型，最近被證明可用于生成高質量圖像，同時保留理想的屬性，如更高的分布覆蓋率、穩定的訓練目標和更好的可擴展性。這些模型通過逐步去除信號中的噪聲來生成樣本，其訓練目標可以表示為一個重新加權的變分下界。

Nichol和Dhariwal發現，隨著計算量的增加，這些模型不斷改進，即使在高難度ImageNet256×256數據集上也能生成高質量的樣本。

再來看看GLIDE的生成效果。下圖是GLIDE基于不同的文本提示生成的16個圖像集，例如“使用計算器的刺猬”、“戴著紅色領帶和紫色帽子的柯基”等等，如圖所示，生成的圖像基本符合文本描述。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

美中不足的是，這項研究發布的較小模型的準確性不如全尺寸模型那么完美。下圖是由“刺猬”文本提示生成的16個樣本。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

除了圖文轉換，該論文還包括一個交互式系統的原型，用于逐步細化圖像的選定部分。這些圖像中的一切都是自動生成的，從整個房間開始，對綠色區域進行迭代細化。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

在下圖中，研究人員將他們的模型與之前最先進的基于MS-COCO字幕的文本條件圖像生成模型進行了比較，發現其模型在無需CLIP 重新排序或挑選的情況下生成了更逼真的圖像。對于XMC-GAN，從用于文本到圖像生成的跨模態對比學習采集了樣本。對于DALL-E，在溫度0.85下生成樣本，并使用CLIP重新排序從256個樣本中選擇最好的。對于GLIDE，使用2.0刻度的CLIP引導和3.0刻度的無分類器引導。作者沒有為GLIDE執行任何CLIP重新排序或挑選。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

研究人員使用人類評估協議將GLIDE與DALL-E進行比較（如下表所示）。請注意，GLIDE使用的訓練計算與DALL-E大致相同，但模型要小得多（35億對120億參數）。此外，它只需要更少的采樣延遲，并且沒有CLIP 重新排序。

打破GANs“壟斷”｜OpenAI新研究：Diffusion Models 圖文轉換效果超越DALL-E

研究人員在DALL-E和GLIDE之間執行三組比較。首先，當不使用CLIP重新排序時，比較兩種模型。其次，只對DALL-E使用CLIP重新排序。最后，對DALL-E使用CLIP重新排序，并通過DALL-E使用的離散VAE投影GLIDE樣本。后者允許研究者評估DALLE模糊樣本如何影響人類的判斷。他們使用DALL-E模型的兩個溫度來進行所有的評估，其模型在所有設置中都受到人類評估人員的青睞，即使在非常支持DALL-E的配置中，也允許它使用大量的測試時間計算（通過CLIP重新排序）同時降低GLIDE樣本質量（通過VAE模糊）。