微軟讓訓練萬億參數AI模型的GPU需求從4000個減少到800個

本文作者：包永剛

2020-09-11 08:03

導語：從2012年到2018年，在大型AI訓練中，計算量的需求增長了300,000倍，也就是大概每3.5個月的時間翻一番。

微軟今天發布了DeepSpeed庫的更新版本，該庫引入了一種新方法來訓練包含數萬億個參數的AI模型，這種模型內部的變量可為預測提供依據。微軟稱這種技術稱為3D并行性，可以適應各種的工作負載需求，特別是為功耗大的超大型模型平衡效率。

具有數十億個參數的單個大型AI模型在一系列具有挑戰性的領域中取得了長足的進步。研究表明它們之所以表現出色，是因為它們可以理解語言、語法、知識、概念和上下文的細微差別，使他們能夠總結演講，在實時游戲聊天中過濾不合適的話語，解析復雜的法律文檔，甚至可以通過搜索GitHub生成代碼。

但是訓練模型需要大量的計算資源。根據2018年OpenAI的分析，從2012年到2018年，在大型AI訓練中，計算量的需求增長了300,000倍，也就是大概每3.5個月的時間翻一番，遠遠超過了摩爾定律的步伐。

增強的DeepSpeed利用三種技術來實現“萬億級”模型訓練：數據并行訓練、模型并行訓練和管線并行訓練。

訓練一個萬億參數的模型將需要至少400個Nvidia 今年最新推出的A100 GPU（每個內存高達40GB），并且Microsoft估計需要4,000臺A100以50%的效率運行，大約需要100天才能完成訓練。這與微軟和OpenAI共同設計的AI超級計算機無并不匹配，后者包含10,000多個顯卡，在這樣的超大規模下，很難獲得很高的計算效率。

DeepSpeed將大型模型分為四個流水線階段，分為較小的組件（層）。每個流水線階段中的層進一步劃分為四個“工人（workers）”，它們執行實際的訓練。每個管道都在兩個并行數據實例之間復制，并且工作程序被映射到多GPU系統。由于有了這些和其他性能改進，微軟表示，一個萬億參數的AI模型可以減少到僅需要800個Nvidia V100 GPU訓練。

DeepSpeed的最新版本還包含了ZeRO-Offload技術，該技術可利用GPU及其主機CPU上的計算和內存資源，從而在一臺V100上訓練多達130億個參數的模型。微軟聲稱這比最新技術強10倍，使得訓練人員可以使用更少的計算資源來進行數據科學家的訓練。

“這些（DeepSpeed中的新技術）提供了極高的計算、內存和通信效率，并支持數十億到數萬億個參數的模型訓練?！?微軟在博客中寫道，“這些技術還允許極長的輸入序列，并通過單個GPU，具有數千個GPU的高端集群或具有非常慢的以太網網絡的低端集群釋放硬件系統的能量。我們將（繼續）進行快速創新，為深度學習訓練突破了速度和規模的界限?！?/p>

雷鋒網編譯，via venturebeat 雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

包永剛

編輯

發私信

當月熱門文章