Facebook 公布全身追蹤技術，不只是臉，整個身體都可實現 AR 效果

本文作者：何忞

2018-01-26 16:48

導語：Facebook研發團隊在博客中透露了其最新的AR全身追蹤技術Mask R-CNNGo。

日前，Facebook 人工智能攝像團隊（AI Camera Team）正在研發各種計算機視覺技術和創新工具，幫助人們更有創意地表達自我。比如，利用實時“風格轉換”技術，你可以制作出“梵高風”的照片和視頻。使用實時面部追蹤技術，你可以實現“一鍵美妝”或者“換頭術”，變化成各種卡通頭像。那么，你有想過“換身術“嗎？Facebook 團隊的 AR 全身追蹤技術或許可以幫你實現。雷鋒網將該團隊目前取得的成果編譯如下。

為了實現“換身術”，我們需要實時并準確地檢測和追蹤身體動作。這其實是一個非常具有挑戰性的問題，因為身體姿勢和動作變化會很大，識別起來并不容易。一個人可以是坐著的，走著的或是跑動著的；人們可能穿著長外套或者短褲；有時候人的身體還會被他人或物體阻擋。這些因素都大大增加了身體追蹤系統保持穩健性的難度。

我們團隊最近開發了一種新的技術，可以準確地檢測到身體姿勢，同時將人體從背景中分割出來。目前，我們的模型還處于研究階段，但這個模型的好處在于，它只有幾兆大小，可以在智能手機上實時運行。不久之后，它還可以衍生出許多新的應用程序，比如創建“全身面具”，使用手勢來控制游戲，或者對人體進行“去識別化（de-identifying）”。

MaskR-CNN2Go的架構

我們的人體檢測和分割模型基于一個叫做“Mask R-CNN”的框架。這是一個簡單、靈活且十分通用的對象檢測和分割框架。它可以高效地檢測圖像中的對象，同時預測關鍵點的運行軌跡，并為每個對象生成一個分割掩碼（segmentation mask）。Mask R-CNN 框架研究獲得了 ICCV 2017 年度最佳論文獎。為了在移動設備上實時運行 Mask R-CNN 模型，Facebook 的 Camera，FAIR 和 AML 團隊的研究人員和工程師共同合作，構建了一個高效而輕量的框架模型：“Mask R-CNN2Go”。

Mask R-CNN2Go 模型由五個主要組件組成：

1、主干模型包含多個卷積層，并且生成輸入圖像的深層特征表征。

2、候選區域生成網絡（RPN）以預定的比例和縱橫比（錨點）生成候選對象。OI-Align 層從每個對象的邊界框中提取其特征并將它們發送到探測端。

3、探測端口包含一組卷積層，池化層和全連接層。它能預測每個候選框中的對象有多大可能是一個人體。探測頭還可以改進邊界框的坐標，將非極大抑制值的相鄰框候選框進行分組，并為圖像中的每個人生成最終的邊界框。

4、利用每個人的邊界框，我們使用第二個 ROI-Align 層來提取特征，這些特征來自于關鍵點端口和分割端口的輸入。

5、關鍵點端口與分割端口具有相似的結構。它為身體上的每個預定關鍵點預測出一個掩碼。并使用單一最大掃描來生成最終坐標。

Facebook 公布全身追蹤技術，不只是臉，整個身體都可實現 AR 效果

一個針對移動設備而優化的輕量級模型

與現代 GPU 服務器不同，手機的算力和存儲空間都十分有限。Mask R-CNN 最初的模型是基于 ResNet的，它太大而且太慢，無法在手機上運行。為了解決這個問題，我們為移動設備開發了一個非常優化而高效的模型架構。

我們使用了幾種方法來減小模型的大小。首先，我們優化了卷積層的數量和每層的寬度，這也是我們在處理中最耗時的部分。為了確保擁有足夠大的感受野，我們使用了包括 1×1，3×3 和 5×5 的內核大小的組合。另外，我們還使用權重剪枝算法來縮減模型。我們的最終模型只有幾兆字節，但是非常精準。

模塊化設計提高了計算速度

為了能夠實時運行深度學習算法，我們使用并優化了我們的核心框架：載有 NNPack 的 Caffe2，SNPE和 Metal。通過使用移動 CPU 和包含 NNPack，SNPE 和 Metal 在內的 GPU 庫，我們能夠顯著提高移動計算的速度。并且，所有這些都是通過模塊化設計完成的，并不需要改變模型的一般定義。因此，我們既可以獲得較小的模型，又可以獲得較快的運行時間，同時避免了潛在的不兼容問題。

Facebook AI 研發團隊（FAIR）最近發布了 Mask R-CNN 研究平臺（Detectron）。我們開源了 Caffe2 運算符（GenerateProposalsOp，BBoxTransformOp，BoxWithNMSLimit 以及 RoIAlignOp）并提供了必要的模型轉換代碼，供研究社區使用。

下一步是什么

開發移動設備的計算機視覺模型是一項艱巨的任務。移動設備模型必須小巧，快速而準確，并且不需要大量內存。我們將繼續探索新的模型架構，力求進一步提升模型效率。我們還將探索更適合移動 GPU 和 DSP 的模型，讓它們更加節省電量和算力。

via research.fb.com 雷鋒網雷鋒網編譯

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

何忞

編輯

站在博士路的路口。

發私信

當月熱門文章