色情主播的天敵：AI 大牛為你解密人工智能鑒黃的那些事

本文作者：老王

2016-11-09 21:39

導語：想了解人工智能鑒黃？你想知道的都在這里。

目前多家人工智能公司已開始布局鑒黃業務，阿里巴巴和騰訊分別擁有阿里綠網、萬象優圖兩大鑒黃系統。而在創業公司方面，較為知名的有圖普科技、飛搜科技、深圖智服等公司。

近期在線直播火爆，因此有些公司開始切入直播鑒黃這個細分領域。為此，雷鋒網就以下問題請教了來自專攻色情識別的圖普科技和在計算機視覺公司云從科技的技術專家進行解讀。

直播（如花椒、映客）、在線視頻（如優酷、愛奇藝）、圖片鑒黃的區別在哪兒？直播的鑒黃難度是否最大？要解決哪些技術問題？

云從科技高級算法工程師周翔：

其實這三項（直播，在線視頻，圖片鑒黃）差異不大，三者都可歸類為實時視頻處理和海量圖片處理。

視頻/直播是動態的，圖片是靜態的。鑒別視頻和直播時，可以把動態內容解碼變成圖片幀來判斷，這樣就與靜態圖片鑒別沒差了。

至于技術問題，其實鑒黃在算法層面難度并不高，利用深度學習算法訓練后，就能達到不錯的鑒黃效果。

圖普科技工程師則在計算能力和算法要求上做了一些小補充：

目前主要是通過間隔截圖、關鍵幀截圖之類的對直播和在線視頻進行識別處理，所以最終也是對單張圖片的處理。

但是，由于直播的實時性，所以直播相對于另外在線視頻和圖片，對于機器的圖片識別的處理速度要求較高，這主要是對于計算能力和算法的要求加大。

至于是屏蔽、刪除或者禁播等方面的處理，主要是看業務方，可以選擇由機器自動處理或者人工介入。

既然算法門檻不是很高，為什么一些 CV 公司不增一項視頻/直播鑒黃業務撈點油水？

云從科技高級算法工程師周翔：

一方面是他們不太愿意做。

另一方面雖然 CV 公司可能有現成的鑒黃算法訓練系統平臺，但是他們缺數據。鑒黃需要大量的數據來進行訓練。黃色圖片和視頻幀最好達到十萬的量級深度學習才能跑起來。至于如何收集這些數據，一般情況下很多視頻直播都已經有現成的，包括鑒黃中心等都有非常大量的此類圖片。

剛提到大批量數據用深度學習來訓練，而訓練小批量數據一般采用傳統的特征分析加分類器算法來做，但效果和精度沒有目前的深度學習高。

直播鑒黃是不是要識別里面的每一幀圖像，這樣計算量豈不是很大？

圖普科技工程師：

這與算法能力關系不大，在算法和工程能力都已經達到最優的情況下，這個是屬于企業的成本預算問題。

直播是視頻流，企業如果對直播的每一幀的圖片都進行識別，這是非常巨大的數據量，企業的運營成本自然較高。所以我們一般建議企業按自己的需求，對于視頻先進行抽幀處理，例如一分鐘視頻的視頻可以按照時間段抽 6-15 幀左右的圖片進行識別處理之類的來控制成本。

鑒黃存在哪些難點？

云從科技高級算法工程師周翔：

實時視頻影像分析大致通過三大方面進行鑒定：
是否有人物（有：色情概率增加）
人形輪廓的膚色比例（大：色情概率增加）
姿態分析（性行為姿勢：色情概率增加）

人類對于色情的定義較為廣泛，多種情況下對于色情的鑒定標準也會有不同。在這基礎上其實對于黃色和非黃色圖片的區分，有時候不是特別明顯，很難判斷。舉個通俗的例子，赤裸上身的男子照片（屬于膚色比例大），這種圖片本質上屬于非黃色圖片，但很多時候，因為訓練數據里有類似圖片被判定為黃色圖像，存在判錯的問題。因此需要利用大量樣本去不斷地訓練它，讓機器不斷糾正，學習更多特征避免這種“低級錯誤”。

這也正是上面提到部分 CV 公司不涉入鑒黃業務的原因，因為一直需要大量樣本去不斷訓練、糾正，工程量挺大。

鑒黃的數據訓練過程是什么樣的？

圖普科技工程師：

通俗講，可以把深度學習理解為一個空白的大腦，海量數據就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎，讓引擎不斷學習，然后把他們做對的進行獎勵，做錯的就懲罰，當然這些獎勵和懲罰都是數學上的，最后空白的腦袋就會學成了一種連接的模型，這種模型就是為了鑒別色情與非色情而生的。

綜合上述內容，AI 科技評論把人工智能鑒黃總結為以下幾點：

實時視頻影像分析大致要從三個方向鑒定：是否有人物、人形輪廓的膚色比例、姿態分析。
直播/視頻和圖片鑒黃區別不大，把動態視頻解碼為圖片幀就與圖片沒差了。視頻鑒黃不會對每一幀進行識別，一般是從固定時間段里抽取幾幀進行識別。
黃色的圖片和視頻幀最好達到十萬的量級，深度學習才能跑起來。而訓練小批量數據一般采用傳統的特征分析加分類器算法來做，但效果和精度不如深度學習。
屏蔽、刪除或者禁播等方面的處理，主要是看業務方，可以選擇由機器自動處理或者人工介入。
最后，鑒黃的棘手之處主要是難以掌握色情和非色情的臨界點，機器容易把正常圖片（如男生上身半裸圖片）誤判為色情圖片，因此需要大量的數據不斷去訓練和糾正，是個慢熬的苦差事，這也是部分 CV 公司不涉入鑒黃業務的一大原因。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

老王

編輯

微信 wangyafeng123456

發私信

當月熱門文章