為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

本文作者：包永剛

2019-11-18 18:35

導(dǎo)語：在計算機歷史上只發(fā)生過三次革命，第一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。

被譽為英國半導(dǎo)體之父，也是Arm聯(lián)合創(chuàng)始人的Hermann Hauser曾經(jīng)這樣說：“在計算機歷史上只發(fā)生過三次革命，第一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命。” 他所指的正是Graphcore率先提出的就是為AI計算而生的IPU（Intelligence Processing Unit）。

內(nèi)存墻是阻礙AI芯片性能提升的關(guān)鍵，因此計算架構(gòu)的創(chuàng)新變得更加重要，不過這其中大部分的架構(gòu)創(chuàng)新都是在已有的架構(gòu)基礎(chǔ)上。Graphcore聯(lián)合創(chuàng)始人兼CEO Nigel Toon在ASPENCORE主辦的2019 CEO峰會期間接受雷鋒網(wǎng)采訪時表示，Graphcore開創(chuàng)了全新的處理器類型IPU，IPU是專為機器智能設(shè)計的處理器，能夠滿足人們對高效易于使用的處理器的需求。

左：Graphcore銷售副總裁/中國區(qū)總經(jīng)理盧濤，右：Graphcore聯(lián)合創(chuàng)始人兼CEO Nigel Toon

左右逢源的英國AI獨角獸

Graphcore在風險資本的支持下于2016年在英國成立，成立三年時間，就獲得了3.25億美元的融資，去年估值就達到了17億美元，其中的投資者既有像紅杉資本這樣的金融投資者，也有像戴爾、三星、微軟等的戰(zhàn)略投資者。

除了資本的認可，Graphcore還獲得了多位AI領(lǐng)域的知名學(xué)術(shù)投資人為其背書，比如DeepMind 的聯(lián)合創(chuàng)始人 Demis Hassabis、劍橋大學(xué)的 Zoubin Ghahramani 和 Uber 的首席科學(xué)家、加州大學(xué)伯克利的 Pieter Abbeel 以及 OpenAI 的 Greg Brockman、Scott Grey 和 Ilya Sutskever等。

被稱為AI教父Geoff Hinton就曾說，“我認為我們需要轉(zhuǎn)向不同類型的計算機。幸運的是，我這里有一個。”Hinton伸手進入他的錢包，拿出一個又大又亮的硅片，這個硅片就是Graphcore的IPU。

為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

創(chuàng)立這家獲得學(xué)界和資本都認可的兩位創(chuàng)始人是Nigel Toon和Simon Knowles，Graohcore也是他們的第二次創(chuàng)業(yè)。 2002年，Toon和Knowles（現(xiàn)任Graphcore CTO）在英國Bristol共同創(chuàng)辦了Icera，致力于打造3G modem芯片，2011年被英偉達以3.7億美元的價格收購。

在Icera被收購之后不久，Nigel Toon和Simon Knowles就在思考再次進行創(chuàng)業(yè)，基于兩位創(chuàng)始人的經(jīng)驗以及對未來的判斷，在2016年創(chuàng)立了了Graphcore。如今，Graphcore在倫敦、劍橋、臺灣、北京、Palo Alto、Oslo都設(shè)有辦公室，員工人數(shù)將在今年底達到400人，IPU也已經(jīng)于去年底推出。

那么，IPU為何能受到如此多的關(guān)注和期待？

全新類型處理器架構(gòu)——IPU

Nigel認為，AI有三類芯片，第一類是簡單的小型化加速器，用于手機、傳感器等；第二類是ASIC，比如谷歌的TPU；第三類是可編程處理器，目前市場上只有GPU，Graphcore的IPU屬于這個分類，但又有所不同，因為IPU是一個非常靈活的處理器，從零開始，是專門針對AI設(shè)計的處理器架構(gòu)，在未來很多新的AI應(yīng)用中，IPU也會表現(xiàn)的更好。

之所以要推出IPU，是因為Nigel看到，如果只是針對基本的前饋卷積神經(jīng)網(wǎng)絡(luò)，GPU是一個非常好的解決方案，但隨著網(wǎng)絡(luò)變得越來越復(fù)雜，人們需要一個新的解決方案，ASIC和FPGA的采用就已經(jīng)證明了GPU的弱點。

“我們接觸過的所有創(chuàng)新者都說使用GPU正在阻礙他們創(chuàng)新。如果仔細看一下他們正在研究的模型類型，你會發(fā)現(xiàn)他們主要研究卷積神經(jīng)網(wǎng)絡(luò)，遞歸神經(jīng)網(wǎng)絡(luò)和其他類型的結(jié)構(gòu)，例如強化學(xué)習(xí)，并不能很好地映射到GPU。這也正是我們將IPU推向市場的主要原因。”

Nigel指出，IPU是我們開創(chuàng)的一個全新的處理器類型，專為AI設(shè)計，IPU強大的并行處理能力實現(xiàn)了快速訓(xùn)練模型并進行實時操控。其實現(xiàn)在有一些國外公司也在說他們的產(chǎn)品叫IPU，但我們首創(chuàng)的這個叫法，而且技術(shù)產(chǎn)品跟我們相比還差很多。

那IPU架構(gòu)到底獨特在哪里？Graphcore銷售副總裁/中國區(qū)總經(jīng)理盧濤對雷鋒網(wǎng)表示，Graphcore的IPU里面有1216個核，我們稱之為Tile，每個Tile里都有計算單元和內(nèi)存。由于同時有上千個處理器工作，所以單個IPU的存儲帶寬能達到45TB，比性能最快的HBM提升了50倍以上，在相同算力下，功耗也降低了一半。

為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

根據(jù)Graphcore的說法，IPU處理器是迄今為止最復(fù)雜的處理器芯片，基于16納米的工藝集成了240億個晶體管，每個芯片提供125 teraFLOPS運算能力。借助IPU，一個完整的機器學(xué)習(xí)模型可以在處理器內(nèi)部處理。而且IPU處理器具有數(shù)百兆字節(jié)的RAM，可在處理器上以1.6 GHz的速率全速運行。

但是，提高帶寬的同時，如何解決數(shù)據(jù)的通信以及提升數(shù)據(jù)的使用效率就是非常關(guān)鍵的問題，也是關(guān)鍵挑戰(zhàn)。盧濤表示， IPU內(nèi)部里有一個叫all-to-all總線，這個互聯(lián)總線，可以高速實現(xiàn)任意一個核到另外一個核的直接訪問。涉及到跨多個芯片的時，通過IPU-Link就可以把多個IPU聯(lián)結(jié)在一起，組成一個集群。當然，all-to-all總線中間的BSP（Bulk Synchronous Parallel）協(xié)議，不僅用于同一個芯片的不同核之間，而且跨芯片的核之間也可以通過該協(xié)議透過 IPU-Link 總線進行通信。

IPU-Link最多可以支持128個芯片的互聯(lián)，如果要進行更大規(guī)模的訓(xùn)練，可以通過以太網(wǎng)或者Infiniband進行互聯(lián)，另外針對超大規(guī)模AI 訓(xùn)練應(yīng)用，Graphcore還開發(fā)了專門的IPU-POD。IPU-POD 是由 IPU-machine 組成的 POD，每個 IPU-machine 上集成的IPU-Gateway芯片里有一個叫做IPUoF的技術(shù)，能夠把幾千甚至幾萬顆的 IPU 處理器連在一起。

解決了數(shù)據(jù)通信的問題，還有數(shù)據(jù)的效率問題。IPU沒有采用傳統(tǒng)處理器架構(gòu)中保證多個處理器數(shù)據(jù)一致性的Cache協(xié)議，而是通過BSP配合Poplar軟件棧的方式來提升效率。Nigel Toon表示，很多人都部署了BSP，但只是用在主機之間，也就是大規(guī)模的并行機制，我們在芯片上實現(xiàn)了BSP，同時配合Poplar的軟件棧工具/編譯器，它會把算法模型、數(shù)據(jù)處理之后，映射或者分配到處理器的不同位置，并定義好交換和同步的時間等，不僅更易于使用，而且具有足夠的靈活性。

這樣即使對于算法公司而言，雖然處理器有1000多個核，7000多個線程，但是不需要太擔心通信的問題，能夠讓算法工程師非常方便地用。

Nigel Toon總結(jié)表示，IPU與其它的AI芯片相比，有三個比較核心的區(qū)別：

第一，處理器核的架構(gòu)不同，IPU是MIMD的架構(gòu)。

第二，IPU的模型在處理器內(nèi)。

第三，大規(guī)模并行，IPU核之間的通信效率也非常高，這非常難，Graphcore進行了大量的創(chuàng)新。

為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

相同的IPU硬件就可用于推理和訓(xùn)練

對于芯片公司而言，設(shè)計出獨特的芯片并不是最難的，更難的是獲得客戶的認可和采用。Nigel Toon表示，未來幾年Graphcore都會專注在算力比較密集的場景，而不會做終端的應(yīng)用。IPU也更能夠適應(yīng)未來整個行業(yè)的變化非常快，模型的大小每3.5個月就會增長一倍。并且，模型參數(shù)增加一倍，但最后還是要拆成不同的尺寸，算力需求的增長將不止兩倍，所以未來的算力需求將會呈現(xiàn)指數(shù)型的增長。

盧濤補充表示，現(xiàn)在AI做的主要是圖片的目標識別，自然語言處理對算力的要求更高，未來視頻的分析需要更高的算力，如何把AI應(yīng)用到AR、VR都對算力提出了巨大的要求。

為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

需要指出的是，使用相同的IPU就能進行AI訓(xùn)練和推理。在大家普遍的認知中，推理和訓(xùn)練對于算力有著巨大的需求，不過Nigel Toon認為，訓(xùn)練和推理技術(shù)上本質(zhì)上沒有很大區(qū)別，先通過數(shù)據(jù)訓(xùn)練出模型，部署的時候?qū)嶋H上是通過推理是把模型拿出來。在未來的應(yīng)用里，部署的場景可能是推理，同時還要不停地訓(xùn)練和更新這個模型。

為AI顛覆GPU！計算機史上迎來第三個革命性架構(gòu)IPU

“從架構(gòu)的角度，這對我們非常重要，因為隨著機器學(xué)習(xí)演進，系統(tǒng)將能夠從經(jīng)驗中學(xué)習(xí)。推理性能表現(xiàn)的關(guān)鍵包括低延遲、能使用小模型、小批次，以及可能會嘗試導(dǎo)入稀疏性的訓(xùn)練模型；IPU可以有效地完成所有這些事情。”

據(jù)介紹，在一個4U機箱中，16顆IPU共同合作協(xié)作進行訓(xùn)練，每顆IPU可以執(zhí)行獨立的推論任務(wù)，并由一個CPU上執(zhí)行的虛擬機來控制，最終得到一個可用于訓(xùn)練的硬件。一旦模型被訓(xùn)練、布署，隨著模型演進且想要從經(jīng)驗中學(xué)習(xí)時，就可以采用相同的硬件。

盧濤進一步指出，由于IPU架構(gòu)的特性，模型部署的時候精度和訓(xùn)練的結(jié)果會保持一致，另外在 IPU 里面要做的計算跟要處理的處理都是在本地，以及 IPU 這種超大規(guī)模小型向量機的架構(gòu)，使得IPU做稀疏化應(yīng)用場景的時候，天生性能就會更好。所以IPU既可以用于云服務(wù)器，在邊緣端，IPU也非常擅長，自動駕駛就會是我們很重要的應(yīng)用場景。

但還有一個關(guān)鍵問題，擁有如此多核心和片內(nèi)存儲的IPU是否會成本高昂？Nigel Toon表示不一定，因為客戶都會關(guān)注效能，如果 IPU的架構(gòu)在實際應(yīng)用場景實現(xiàn)幾倍甚至幾十倍的性能優(yōu)勢時，實際的總體擁有成本還是大幅降低。

有意思的是，在技術(shù)創(chuàng)新的同時，Graphcore也進行了商業(yè)模式的創(chuàng)新。Nigel Toon表示，我們目前沒有采用傳統(tǒng)芯片銷售的模式，我們更多的是通過合作，有兩大類公司會是我們的合作伙伴，一類是服務(wù)器公司，目前我們已經(jīng)與戴爾易安信合作推出了IPU服務(wù)器，和中國的服務(wù)器廠商合作進展也很快，估計很快就會有搭載我們IPU的服務(wù)器上市。

另外一類是云服務(wù)提供商，在新的時代，IT產(chǎn)品交付給最終的用戶，云服務(wù)廠商非常重要。我們會和中國、美國的公司都進行合作，但具體的合作暫時還處于保密階段。

最近，Graphcore宣布與微軟的具體合作內(nèi)容，并正式發(fā)布Microsoft Azure上Graphcore智能處理單元（IPU）的預(yù)覽版，這是公有云領(lǐng)導(dǎo)供應(yīng)商首次提供GrapchoreIPU。目前，Azure上的Graphcore IPU預(yù)覽版現(xiàn)已開放供用戶注冊，專注于突破NLP界限并在機器智能方面取得新突破的開發(fā)者可獲得優(yōu)先訪問權(quán)限。

對于中國市場，Nigel Toon表示中國是Graphcore非常重要的策略性市場，Graphcore的中國公司不僅會有銷售和市場，還會注重工程技術(shù)方面的投入，會有很多定制化的開發(fā)工作，更好地與本地的社區(qū)、創(chuàng)新者一起用好IPU。

雷鋒網(wǎng)小結(jié)

AI芯片要滿足快速迭代的AI算法，算力的提升非常關(guān)鍵，但摩爾定律的放緩，讓架構(gòu)的創(chuàng)新變得更加重要，實際的情況是大部分創(chuàng)新都是基于已有的架構(gòu)，Graphcore表示其IPU架構(gòu)進行了更全面的創(chuàng)新，我們可看到其獲得了資本和學(xué)術(shù)界的好評。當然，除了硬件架構(gòu)的創(chuàng)新之外，軟件工具鏈Poplar同樣非常關(guān)鍵，這是IPU提升靈活性，降低算法開發(fā)者的應(yīng)用門檻的核心，也是能比其它IPU性能更好的關(guān)鍵所在。

因此，AI的時代架構(gòu)創(chuàng)新很重要，軟硬件的協(xié)同更加重要。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當月熱門文章