生成模型和判定模型的內部指南

本文作者： AI研習社-譯站

2020-10-21 18:03

導語：模型并不是越大越好、參數越多越好。

生成模型和判定模型的內部指南

字幕組雙語原文：生成模型和判定模型的內部指南

英語原文：The Insiders’ Guide to Generative and Discriminative Machine Learning Models

翻譯：AI研習社（季一帆）

生成模型和判定模型的內部指南

圖源：Photos Hobby，Unsplash

在本文中，我們將討論生成模型和判別模型之間的差異、形成原因及相關內容。

判別式機器學習在可能的輸出選擇中確定輸出。該過程根據給定的數據進行訓練，從而學習模型參數，以最大化聯合概率P(X,Y)。

分類有時被稱為判別模型，這有一定道理，畢竟分類模型就是要到輸入實例的類別進行判斷。

無監督模型一般會對輸入變量的分布進行學習，并能夠根據輸入分布創建或生成新的實例，類似這樣的模型稱為生成式模型。

對于變量分布已知的情況，如高斯分布。

由于生成模型能夠總結數據分布，因此可以根據輸入變量分布生成新變量。

在這種情況下，生成模型可能非常適合，而使用判別模型的化則會使問題復雜化，反之亦然。

例如對于條件預測任務，判別模型表現顯著優于生成模型，同時具有更好的正則性。

生成模型和判定模型的內部指南

圖源：Tran Mau Tri Tam，Unsplash

看這樣一個例子：有Tony和Mark兩個小朋友，他們要在寵物商店中分辨出小貓和小狗。對于寵物，我們假定它們包含顏色、大小、眼睛顏色、毛發長短和叫聲等特征。

給Mark兩張照片，一張是貓，一張是狗，Mark要做出判斷。他想到可以根以下條件進行判斷：如果叫聲是“喵喵”、眼睛是藍色或綠色、具有褐色或黑色的條紋，則大概率會是貓。根據這樣的簡單規則，Mark可以容易的識別出貓或狗。

Tony的任務可沒這么簡單。不是要他判斷圖片中是貓還是狗，而是要在兩張白紙上畫出貓和狗的樣子。Tony能夠畫出貓和狗的樣子，那么給他展示圖片，他也很容易的區分出圖中是貓還是狗?？梢钥吹?，相比Mark的方法，Tony的方法更加耗時。

假設只有貓狗兩種寵物。如果一張圖片上是藍眼睛、棕色條紋的狗，那么Mark可能會將其標記為貓，但Tony可以判斷出圖片中一定是狗。

如果Tony對貓和狗的特征了解的更多，他能夠繪制出更詳細準確的圖畫。但是，如果提供足夠多的貓狗數據集，那么Mark會表現得更好。

Mark的判斷方法就是認真的觀察，總結能夠區分的特征，但過多的復雜特征會導致過擬合，但Tony不會遇到這種情況。

如果在訪問寵物商店之前，他們沒有任何信息呢？也就是說只提供未標注的數據。這種情況下，Mark完全不知道該怎么做，Tony也判別不出什么（因為他不知道“貓”“狗”這兩個類別），但至少Tony可以根據看到的貓和狗去畫圖，這難道不是巨大的優勢嗎？半監督就是如此。

在上述例子中，Mark就是判別式方法，而Tony代表生成式方法。

生成模型和判定模型的內部指南

圖源：Morning Brew，Unsplash

再看另一個例子，將語音分類為語言模型。

判別式方法重點在區別語言模型間的差異。無需學習語言就可實現語音分類。而生成式方法需要學習每種語言，根據學習到的知識進行分類。

生成模型和判定模型的內部指南

圖源：Antoine Dautry，Unsplash

數學上的區別

判別式機器學習訓練模型在可能的輸出選項中選擇正確輸出，通過訓練學習使條件概率P（Y | X）最大化的模型參數。

生成式機器學習則是通過訓練學習使聯合概率P（X，Y）最大化的模型參數。通常可以由P（Y）和P（X | Y）得到聯合概率，當前前提是P（Y）和P（X | Y）條件獨立。

生成模型和判定模型的內部指南

圖源：Markus Spiske，Unsplash

判別式模型

邏輯回歸
隨機森林
支持向量機
經典神經網絡
最近鄰

生成式模型

隱馬爾科夫模型
樸素貝葉斯
貝葉斯網絡
混合高斯模型

生成模型和判定模型的內部指南

圖源：Jon Tyson，Unsplash

為更好的理解，試著以下幾個問題：（1 判別式；2 生成式）

哪種模型需要較少的訓練數據？1
哪種模型能夠生成數據？2
什么時候使用某類模型？
哪種模型對異常值更敏感？2
哪種模型容易過擬合？1
哪種模型訓練時間短？1
哪種模型直接學習條件概率？1
在不確定情況下，哪種模型更好？2
當特征存在關聯時，哪種模型更好？2
哪種模型具有更好的可解釋性？2
分類問題中，哪種模型準確率高？1
對于未標注數據使用哪種模型？2
如果是標注數據哪種模型更好？1
哪種模型簡單，訓練速度更快？1

生成模型和判定模型的內部指南

圖源：Photos Hobby，Unsplash

GAN
生成對抗網絡（GAN）同時訓練生成器和判別器，具體而言，生成器生成一批樣本，這些樣本與真實數據集一起提供給判別器進行分類。

生成模型和判定模型的內部指南

判別式分類器的缺陷

它缺乏先驗性，結構性和不確定性
黑盒子，變量之間的關系無法觀測

生成模型和判定模型的內部指南

圖源：Austin Distel，Unsplash

結論

機器學習模型一般分為生成式和判別式兩類，其中，生成式模型主要涉及建模操作，判別式模型一般用于分類問題。一般而言，生成式模型更具有解釋力。

模型并不是越大越好、參數越多越好。更新更多參數意味著更長的訓練時間、內存和計算量。一般而言，判別式模型有更好的正則性。

生成式模型所需的數據一般要比判別式模型更少。

參考文獻

· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.

· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.

· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).

最后，歡迎在Twitter和Linkedin上發表您的想法！你覺得本文對你有幫助嗎？歡迎交流分享，聯系方式@SauravSingla_08和Saurav_Singla！

雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊，匯聚五百多位志愿者的力量，分享最新的海外AI資訊，交流關于人工智能技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT咨詢人、在校師生；志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業，北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。

生成模型和判定模型的內部指南