0
雷鋒網 AI 科技評論按:作為社交網絡巨頭,Facebook 的一系列應用和服務每月服務的用戶多達 27 億。隨著近幾年的 AI 熱潮席卷而來,Facebook 也開始把數據中心中的許多通用計算硬件逐漸切換為了性能、功耗、效率更好的專用硬件。
昨天(美國時間 3 月 14 日),Facebook 公開介紹了自己的「下一代」AI 模型訓練硬件平臺 Zion,一并也介紹了針對另外兩類計算的定制化 ASIC(應用專用集成電路)芯片:用于 AI 推理的 Kings Canyon,以及用于視頻轉碼的 Mount Shasta 。這些新設計主要針對 AI 推理、AI 訓練、視頻轉碼三類計算。這些計算不僅負荷重、切換為專用硬件的提升明顯,而且也是 Facebook 中快速擴大的服務類型。
Facebook 早就開始大規模部署 AI 模型用于業務中的計算,這些模型每天要進行超過一百萬億次預測以及超過六十億次語言翻譯。Facebook 用來識別、分類內容的圖像識別模型也使用了超過 35 億張圖像訓練。各種使用了 AI 的服務幫助用戶更好地進行日常溝通,也為他們提供了獨特、個性化的使用感受。
Facebook 自研的 AI 平臺 FBLearner 管理了 Facebook 目前的大多數 AI 模型流水線。FBLearner 中包含了特征存儲、訓練過程管理、推理引擎管理等對應問題不同部分的工具。另外,Facebook 也基于「開放計算計劃」(OCP)設計了自己的硬件,這些硬件和 FBLearner 配合使用,能夠讓 Facebook 的開發人員們快速大批量地部署模型。
在解決了當前緊迫的計算規模問題之后,Facebook 繼續集中精力研發,最終目標是創建一種面向未來的、牢靠的硬件設計,它不僅要對供應商是透明的,同時也要能持續體現 Facebook 的最大化運行效率的離散化設計理念。Facebook 的答卷就是他們的下一代訓練、推理硬件平臺。雷鋒網 AI 科技評論簡單介紹如下。
Zion 是 Facebook 的下一代大容量統一訓練平臺,目標是高效地承擔未來的更大計算負載。Zion 在設計時就考慮了如何高效地處理 CNN、LSTM、稀疏神經網絡等多種不同的神經網絡模型。Zion 平臺可以提供高內存容量、高帶寬、靈活的高速內部連接,為 Facebook 內部的關鍵工作負載提供強大的計算能力。
Zion 的設計采用了 Facebook 新的供應商透明的 OCP 加速模型(OAM)。OAM 的作用在于,Facebook 從 AMD、Habana、Graphcore、英特爾、英偉達等許多不同的硬件供應商處購買硬件,只要他們在開放計算計劃(OCP)的公開標準基礎上開發硬件,不僅可以幫助他們更快地創新,也可以讓 Facebook 自由地在同一個機架上的不同的硬件平臺、不同的服務器之間拓展,只需要通過一個機柜網絡交換機。即便 Facebook 的 AI 訓練負載不斷增加、不斷變得更加復雜,Zion 平臺也可以拓展并處理。
具體來說,Facebook 的 Zion 系統可以分為三個部分:八路 CPU 服務器、OCP 加速模塊、以及可以安裝八個 OCP 加速模塊的平臺主板。



Zion 平臺的設計得以把系統中的內存、計算、網絡部件進行解耦,然后每一項都可以獨立地進行拓展。系統中的八路 CPU 平臺可以提供超大的 DDR 內存池,服務于對內存容量有很高要求的工作負載,比如稀疏神經網絡的嵌入表。對于 CNN 或者稀疏神經網絡中較為稠密那些,它們對帶寬和計算能力更為敏感,那么它們的加速主要就是依靠連接到每個 CPU 上的 OCP 加速器模塊。
系統中包括兩種高速連接線:一種把所有 CPU 互相連接,另一種把所有的加速器互相連接。由于加速器具有很高的內存帶寬和低內存容量,Facebook 工程人員想了一種辦法來高效地利用總的內存容量:把模型和內存做一定的劃分,比較經常訪問的數據就存儲在加速器的內存上,不怎么經常訪問的數據則存儲在 CPU 的 DDR 內存中。所有 CPU 和加速器之間的計算和通訊會進行平衡,通過高速和低速互聯線路高效地執行。
與逐漸增加的 AI 訓練負載相對應地,AI 推理負載也在快速增加。在下一代設計中,Facebook 和 Esperanto, Habana, 英特爾, Marvell, 高通等企業合作,共同開發易于拓展和部署的專用 ASIC 芯片。Kings Canyon 芯片可以同時支持偏重推理速度的 INT8 (8 位整型)計算,以及偏重更高精度的 FP16 (半精度浮點)計算。

Kings Canyon 芯片搭載在 M.2 規格的電路板上;每個 Glacier Point v2 母板上安裝六塊 Kings Canyon 芯片;最后,兩個 Glacier Point v2 母板和兩個單路服務器一同組成一臺完整的 Yosemite 服務器。
Facebook 的視頻轉碼 ASIC 芯片 Mount Shasta 也采用了這樣的布置方式。
根據 Facebook 給出的圖解和介紹,目前似乎只有 AI 訓練平臺 Zion 已經開始投入使用,AI 推理芯片 Kings Canyon、視頻轉碼芯片 Mount Shasta 以及相關硬件還沒有看到實物。但 Facebook 上下都對這套設計充滿了信心。未來他們將通過 OCP 公開所有的設計和相關規格,便于更廣泛的合作;Facebook 也會和目前的合作伙伴一起共同改善整套系統的軟硬件共同設計。
更多詳細說明可以參見 Facebook 官方介紹:https://code.fb.com/data-center-engineering/accelerating-infrastructure/,雷鋒網 AI 科技評論報道
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。