CNCC 2016 | 山世光：深度化的人臉檢測與識別技術—進展與展望

本文作者：李尊

2016-10-26 10:17

專題：2016中國計算機大會(CNCC 2016)

導語：介紹人臉檢測、面部特征定位及識別的性能評測、應用進展。

雷鋒網按：本文根據山世光在 CNCC 2016 可視媒體計算論壇上所做的報告《深度化的人臉檢測與識別技術：進展與問題》編輯整理而來，在未改變原意的基礎上略有刪減。

山世光，中科院計算所研究員，中科院智能信息處理重點實驗室常務副主任。主要從事計算機視覺、模式識別、機器學習等相關研究工作。迄今已發表CCF A類論文50余篇，全部論文被Google Scholar引用9000余次。曾應邀擔任過ICCV，ACCV，ICPR，FG等多個國際會議的領域主席（Area Chair）。現任IEEE Trans. on Image Processing，Neurocomputing和Pattern Recogintion Letters等國際學術刊物的編委（AE）。研究成果曾獲2005年國家科技進步二等獎和2015年度國家自然科學二等獎。2008年度中國科學院盧嘉錫青年人才獎獲得者，2009年度北京市科技新星獲得者，2009年獲首屆Scopus尋找未來科學之星銀獎(信息領域共2名)，2012年獲得基金委“優青”支持。

今天我所做的報告的題目是《深度化的人臉檢測與識別技術》，在過去三四年里，人臉識別領域非常快速地從非深度學習方法切換到了深度學習這樣一個新的范式里面。

本次報告主要介紹最近幾年在人臉識別領域幾個關鍵流程上面，深度學習的應用情況。

主要給大家介紹這幾部分內容：

人臉識別總體情況
人臉檢測
面部特征點定位
SeetaFace開源引擎

| 總體情況

全自動人臉識別系統流程

本質——對比兩個照片是否是同一個人。

舉例來說對于上圖中兩張照片，人臉識別需要去做的是計算其相似度是不是足夠高。這個過程可以分為以下幾個步驟：

第一步是要找到臉在哪里
第二步是找到五官的位置
第三步是把關鍵人臉區域提取出來
第四步是用特征提取器F把圖像變成特征向量（y=F（x））
第五步對比向量y1、y2的相似度是否足夠高，據此來進行判斷

在這里面最核心的其實有三個步驟，第一個是找到臉在哪里，第二個是找到五官在哪里，第三個是f（x）函數的設置，這也是人臉識別系統中最本質的三個內容。

人臉識別近期發展的最大特點

人臉識別能在過去的三四年的時間里能有一個快速的發展是得益于深度學習。

在這期間有一個非常重要的變化是人臉識別變得和狗臉識別、貓臉識別沒什么太大區別了。也就是說在技術上，不用再把人臉識別特別來看待了。

卷積神經網絡（CNN）

在深度學習之后，我們發現深度學習對于人臉識別這項幫助非常大。為什么？其實是實現了深度化。

在計算機視覺領域，深度學習中應用得最好、最成功的就是卷積神經網絡（CNN）。

卷積神經網絡（CNN）變遷

事實上卷積神經網絡不是2016年發明的，也不是2012年發明的，它大約是在20世紀80年代出現的，到1998年這期間出現了一些卷積神經網絡的雛形。可以從上圖中看到，1998年出現的卷積神經網絡和當下的在本質上其實已經沒什么區別了。

卷積神經網絡實質上是對輸入進行加權求和之后，去做一個非線性變化的過程。輸入圖像通過濾波器組進行非線性卷積，卷積后在每一層產生特征映射圖，然后特征映射圖中的值再進行加權求和并進行非線性變換。在此過程中這些像素在池化層被池化，最終得到輸出值。

| 人臉檢測技術

具體到人臉檢測的問題，在深度學習技術出現之前，幾乎所有人臉檢測都是采用滑動窗口式的方法。

也就是說，我們會首先設計一個分類器。拿上圖中圖片舉例來說，我們會設計一個40x40的窗口，然后去檢測那個部分是不是人臉。此外我們還需要對圖片進行縮放再進行檢測，這個方式其實是2000-2012年以來主流的方法。

物體檢測：內涵與總體思路

不管是人臉檢測還是物體檢測，都需要進行考慮的是這兩個問題：

有沒有？
在哪里？

2014年以來的變遷

“有沒有”部分

從人臉特征——分類器學習“兩步法”轉變為特征和分類器End—to—End學習
從二類分類轉變為多類分類

“在哪里&有多大？”部分

從Check所有可能位置和大小轉變為只Check可能位置和大小或者回歸位置和大小（更準確）

基于深度學習的物體檢測

在過去的幾年時間里出現了一系列的方法，包括

Region CNN系列

R-CNN——SPP R-CNN——Fast R-CNN——Faster R-CNN

回歸位置

YOLO

傳統方法與深度方法結合

FacenessNET
Cascade CNN（coarse-to-fine）

R-CNN

關鍵點：

Selective Search產生約2000個候選窗口
每個候選窗縮放到227*227（用CNN提取特征）
SVM分類

需要2000多次CNN過程，速度很慢。

SPP-Net

Fast R-CNN

Faster R-CNN

YOLO（You Only Look Once）

這個方法更加的簡單粗暴一些

將輸入圖像劃分為SxS grid
對grid cell預測
網絡全連接層——張量
用NMS去除冗余

FacenessNET

Cascade CNN（coarse-to-fine）

物體（人臉）檢測：總結與問題

小結：

深度學習方法帶了性能上的大提升
Bounding Box Regression（BBR）興起
樣本組織方式的變革

問題：

高精度、全姿態時的速度問題
小尺度、大遮擋、復雜光照情況下可能漏檢

| 面部特征點定位技術

深度級聯回歸

基于多級DCNN實現f函數（CVPR2013）

基于多級Auto-encoder實現f函數（ECCV2014）

對遮擋魯棒性地特征點定位方法（CVPR2016）

| 判別特征學習與匹配方法

在深度學習出現之前，和傳統方法一致。（兩步法）

人工（卷積）特征
特征變換

人臉識別測試集和性能的變遷

特別要提到的是學術界的里程碑（數據庫）：

ORL——FERET——FRGC v2.0——LFW

LFW人臉識別評測

LFW數據庫來源于因特網上的數據，對于名人明星的圖像進行識別。

過去三年錯誤率從5%下降到0.4%。

在深度學習出現之后，直接從圖像開始學習特征。

過去2年的新進展

最開始將深度學習應用到人臉特征提取的是Facebook的DeepFace，使用一個8層的神經網絡，對4000人的440萬圖像進行訓練學習。

Google的FaceNet則是使用800萬人的2億張圖像進行訓練學習，這個數據量是及其龐大的。

我們有理由相信這樣一個網絡在如此龐大數據量訓練之后，它的人臉識別能力是比普通人要好的。

待解決問題

人臉識別應用現狀

1：N

配合照片檢索應用，目前基本成熟

1：1驗證

配合用戶，可以應用

1：N+1

萬級以上非配合用戶，任重道遠

| SeetaFace引擎

SeetaFace Detector

SeetaFace Alignment

SeetaFace Identification

| 總結

人臉檢測與識別不再具有特殊性
深度模型（&大數據&高性能計算）極大推進了人臉識別能力，在一些（用戶配合的）任務上能超過人眼
萬人規模的黑名單視頻監控場景尚不成熟
SeetaFace為大家提供了一個不錯的baseline

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

專題

2016中國計算機大會(CNCC 2016)

本專題其他文章

李尊

編輯

掃描關注作者微信

發私信

當月熱門文章