IPU首度公開MLPerf成績，性價比收益勝過英偉達

本文作者：吳優

2021-07-01 01:05

導語：MLPerf基準測試發布至今已有三年之久。

本周四，MLCommons發布了最新MLPerf Inference v1.0基準測試（Benchmark）結果，英偉達GPU一如既往地表現不俗，但值得英偉達注意的是，其超大規模數據中心的競爭對手，Graphcore公司專為機器智能設計的 IPU也參加了此次基準測試。

MLPerf基準測試發布至今已有三年之久，此前英偉達、谷歌、阿里巴巴等大公司一直通過MLPerf跑分成績強調其產品實力，能夠挑戰英偉達GPU的IPU為何今年才加入MLPerf基準測試？首次參加MLPerf測試的IPU，究竟表現如何？

IPU首度公開MLPerf成績，性價比收益勝過英偉達

首次提交兩個模型，性價比收益勝過英偉達

在今年提交的MLPerf訓練1.0版本任務中，Graphcore提交了兩個模型：計算機視覺模型ResNet-50和自然語言處理模型BERT。

IPU首度公開MLPerf成績，性價比收益勝過英偉達

新一輪MLPerf基準測試結果（部分）

Graphcore高級副總裁兼中國區總經理盧濤稱，之所以提交這兩個模型，是因為這兩個模型在相應領域里頗具代表意義且被廣泛使用。

“許多骨干網絡還是基于ResNet，BERT雖然有很多變種版本。但標準的BERT就還是大家比較認可的Benchmark基準?！?/p>

基于IPU-M2000，Graphcore用了兩種配置的硬件進行基準測試，由4個1U IPU-M2000和1個雙路服務器組成的IPU-POD16，可以提供4 PetaFLOPS的AI算力，由16個IPU-M2000和4臺雙路服務器組成的IPU-POD64 ，可提供16 PetaFLOPS的AI算力。

IPU首度公開MLPerf成績，性價比收益勝過英偉達

測試結果顯示，在BERT模型訓練中，IPU-POD16在開放分區（Open Division）的訓練時間在半小時以內，約為27分鐘，封閉分區（Closed Division）的訓練時間為34分鐘。兩個分區的區別在于，在封閉分區中，需要完全按照規定的網絡架構優化方式和硬件配置完成提交，而在開放分區擁有更多的自主靈活性。

同樣的模型訓練在IPU-POD64上，訓練時間縮短3.5倍，且在開放分區的訓練時間10分鐘以內，這意味著相關科研工作者在模型訓練過程中能夠更快地得到研究結果。

在ResNet-50模型訓練中，IPU-POD16的封閉分區訓練時間為37分鐘，IPU-POD64能在這一基礎上能將時間縮短3倍。

一直以來將英偉達視為競爭對手的Graphcore這次也同英偉達基于DGX A100 640G提交的訓練結果進行比較?；贒GX A100，其ResNet-50的MLPerf訓練時間28分鐘，BERT的MLPerf訓練時間為21分鐘，均高于IPU-POD16。

不過IPU訓練時間更久并不意味著其AI能力就落后于GPU。

IPU首度公開MLPerf成績，性價比收益勝過英偉達

盧濤表示，一方面，ResNet、BERT等應用都是在過往基于GPU架構選擇出來并深度優化的應用，對IPU可能并不是很友好，另一方面，對于最終用戶非常關注“每花費一美金所能獲得的訓練收益”，如果將訓練收益和目錄折算成性價比，ResNet訓練任務下，IPU-POD16相對DGX A100 640G版本的性價比收益有1.6倍，BERT訓練任務下，IPU-POD16相對DGX A100 640G版本的性價比收益有1.3倍。

也就是說，如果單純從性價比收益來看，IPU可能是更好的選擇。

參加MLPerf基準測試，源于Graphcore 資源更加充足

事實上，Graphcore IPU與英偉達GPU跑分對比并不是第一次，不過當時并未選擇在業內認可度和接受度更高的MLPerf。

去年8月，Graphcore通過參加谷歌發布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基準測試且與英偉達A100 GPU對比。測試數據表明，多維度比較后，IPU的推理性能與訓練性能均優于GPU。

為何當時未提交MLPerf的結果？“因為當時資源有限，更多地聚焦在對SDK的打磨、優化、功能開發，和頭部客戶及合作伙伴聯合探索應用場景落地。”盧濤如此回答。

盧濤解釋到，參加MLPerf Benchmark需要較大的投入，Graphcore十幾個團隊成員分別間接或直接參加了這一項目，且至少耗費半年以上的時間?！敖裉霨raphcore整體軟硬件，尤其是軟件和生態，更加成熟完善，公司整體實力和之前相比更加雄厚。在幾個因素疊加的影響下，我們參加了MLPerf訓練1.0的Benchmark，后續也有持續投入的計劃。”

選擇在資源充足后參加MLPerf基準測試，同時也表明Graphcore對這一基準測試的認可。

“AI芯片產業的整體出發點是DSA（Domain Specific Architecture），與不論是在整體架構上還是計算機體系結構上相對比較類似的CPU相比，各個AI處理器的架構之間會有較大的差異。對于最終用戶來說，就很難體現所選擇的架構對于業務受益產生的影響。”

“我并不能說MLPerf代表了整個AI產業所有的任務，但是它代表了今天工業界比較主流部署的應用場景。我認為MLPerf是有一定指導意義的?！北R濤說道。

雖然基于GPU架構選擇出來的應用模型對IPU而言并不友好，但Graphcore認為，需要積極參與產業標準的探討，逐漸成為產業中有力的聲音，才能影響產業標準的走向。

“之后我們會積極參與MLPerf的提交，提供一些不同的任務，讓MLPerf的工作負載更具代表性。”盧濤說道。

文中圖片源自Graphcore

雷鋒網雷鋒網雷鋒網

不是GPU的IPU，為什么更值得英偉達警惕？

超越全球最大7nm芯片A100！Graphcore第二代IPU晶體管數量高達594億個

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏