Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

本文作者：包永剛

2024-03-19 18:58

導語：加速計算已到達臨界點，通用計算已失去動力。

去年英偉達市值突破1萬億之后，這家加速計算公司在全球范圍內就吸引了越來越多的關注。

今年2月，英偉達的市值一度突破2萬億，讓這家加速計算公司的熱度再次攀升，也讓今天在加州圣何塞舉行的GTC 2024擠滿了來自全球各地超11000名與會者。

“未來將是可生成的，這就是為什么這是一個全新的行業。”NVIDIA 創始人兼首席執行官黃仁勛開場就說，“我們需要一種全新的計算方式——由此我們才可以繼續擴展，繼續降低計算成本，并在保證可持續性的同時繼續進行越來越多的計算。”

黃仁勛說道，“加速計算已到達臨界點，通用計算已失去動力。與通用計算相比，加速計算使每個行業都可以大幅提速。”

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

全新的行業需要更大的模型，更大的多模態AI需要更大的GPU。

黃仁勛從口袋里掏出一塊全新的Blackwell芯片，將它與Hopper芯片并排舉起，后者顯得小了一些。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

基于NVIDIA GB200構建的DGX SuperPOD，相比英偉達前代H100 GPU構建的系統，大語言模型性能飆升了30倍，能夠處理萬億參數的模型。

架構迭代帶來如此巨大的性能提升，證明了英偉達依舊在加速計算的道路上飛速前進，英偉達進一步拉大了與追趕者們距離。

英偉達還有更遠大的目標，GTC2024上推出的NVIDIA NIM微服務，通過推理加速讓生成式AI能夠普及，這才是生成式AI商業價值更高的地方。

“下一波AI浪潮將是AI對物理世界的學習。”黃仁勛還有更長遠的布局。

Blackwell 架構如何支撐10萬億參數模型需求？

最新的Blackwell 架構是兩年前推出的Hopper架構的繼承者，延續過去英偉達以科學家名字命名架構的方式，新架構是以一位加州大學伯克利分校的數學家 David Harold Blackwell 命名。這位數學家專門研究博弈論和統計學，是第一位入選美國國家科學院的黑人學者。

相比Hopper架構GPU，Blackwell架構GPU單芯片訓練性能（FP8）是Hopper架構的2.5 倍，推理性能（FP4）是Hopper架構的5倍。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

要讓Blackwell架構支撐高達10萬億參數的模型訓練和實時 LLM 推理，需要一系列獨特的技術。

先進的工藝和Chiplet技術就是關鍵之一，Blackwell架構GPU具有2080億個晶體管，采用專門定制的雙倍光刻極限尺寸 4NP TSMC 工藝制造，通過 10 TB/s 的片間互聯，將 GPU 裸片連接成一塊統一的 GPU。

為了更好支持Transformer模型，Balckwell架構集成了第二代Transformer 引擎，支持全新微張量縮放，集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA動態范圍管理算法，Blackwell將在新型FP4 AI推理能力下實現算力和模型大小翻倍。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

為了擴大Blackwell規模，NVIDIA構建了一款名為NVLink Switch的新芯片。每個芯片可以以每秒1.8 TB的速度（幾乎是上一代的10倍）連接四個NVLink，通過減少網絡內流量來消除流量擁塞，幫助構建GB200。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

NVIDIA GB200 Grace Blackwell 超級芯片通過 900GB/s 超低功耗的NVLink芯片間互連，將兩個 Blackwell NVIDIA B200 Tensor Core GPU 連接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的關鍵組件。

NVIDIA GB200 NVL72是多節點、液冷、機架級系統，將36個Grace Blackwell超級芯片組合在一起，其中包含通過第五代NVLink相互連接的72 個Blackwell GPU 和 36 個 Grace CPU，還內置 NVIDIA BlueField-3 數據處理器，可在超大規模 AI 云中實現云網絡加速、組合式存儲、零信任安全和 GPU 計算彈性。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

相較于同樣數量的NVIDIA H100 Tensor Core GPU，GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在單個機架中可實現720 petaflops 的 AI 訓練性能和 1.4 exaflops 的 AI 推理性能。該機器包含600,000個零件，重3,000磅（約1360.78公斤）。

黃仁勛介紹：“此時此刻，地球上也許只有三臺百億億次浮點運算（exaflop）機器。而這是一個單一機架中的 1 個百億億次浮點運算AI 系統。”

要進一步實現對10萬億參數大模型的支持，需要更強大的DGX SuperPOD。

Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200（每個包含36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU）系統構建而成，采用新型高效液冷機架規模架構。

這個系統還需要通過GTC 2024發布的第五代NVIDIA NVLink，NVIDIA BlueField-3 DPU，NVIDIA Quantum-X800 InfiniBand 網絡（為每塊GPU提供每秒800 GB 的帶寬），新一代 DGX SuperPOD 架構的網絡計算能力提高了4倍，可擴展到數萬個 GB200 超級芯片。

用戶可通過 NVLink 連接 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU，可在 FP4 精度下提供 11.5 exaflops 的 AI 超級計算能力和 240 TB 的快速內存，并可通過額外的機架進行擴展。

2016 年，黃仁勛給OpenAI的DGX算力是 0.17Petaflops，現在DGX GB200的算力以 exaflop 計算。

除了GB200，NVIDIA還發布了一款統一用于 AI 模型訓練、微調和推理的通用 AI 超級計算平臺 NVIDIA DGX B200 系統。

DGX B200是DGX 系列的第六代產品，使用風冷機架設計，包含 8 個 NVIDIA B200 Tensor Core GPU和2個第五代英特爾至強處理器。

DGX B200系統可提供144 petaflops（FP4精度）的AI性能、1.4TB的 GPU 顯存和 64TB/s 的顯存帶寬，使得該系統萬億參數模型實時推理速度比上一代產品提升了 15 倍。

另外，DGX B200 系統也包含帶有8個NVIDIA ConnectX-7 網卡和2個BlueField-3 DPU 的高性能網絡，每個連接的帶寬高達400 Gb/s，可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網網絡平臺支持更高的 AI 性能。

“未來，數據中心將成為 AI 工廠”，黃仁勛說，“AI 工廠的使命是創造收入，同時也創造智能。”

AI推理微服務挖掘「金礦」

“生成式 AI 改變了應用程序的編寫方式。”黃仁勛解釋，未來的公司會將精力放在組裝 AI 模型，賦予它們任務，給出工作產品示例，審查計劃和中間結果，而不是編寫軟件。

GTC 2024上，NVIDIA NIM微服務推出，這是根據 NVIDIA 的加速計算庫和生成式 AI 模型構建，提供基于 NVIDIA 推理軟件的預構建容器，包括Triton 推理服務器和TensorRT-LLM，使開發者能夠將部署時間從幾周縮短至幾分鐘。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

“企業IT行業正坐在一座‘金礦’上，”黃仁勛說道， “他們擁有多年來創建的所有這些令人驚嘆的工具（和數據）。如果他們能把這個‘金礦’變成 AI 助手，就能給用戶提供更多可能。”

NVIDIA 幫助領先的科技公司，包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 構建 AI 助手和虛擬助理。其它領域也正在采用。

在電信領域，NVIDIA推出 6G研究云，這是由 AI 和 Omniverse 支持的生成平臺，它采用 NVIDIA 的 Sionna 神經無線電框架、NVIDIA Aerial CUDA 加速無線電接入網絡和 NVIDIA Aerial Omniverse Digital Twin for 6G 構建。

在半導體設計和制造領域，NVIDIA 正在與 TSMC 和 Synopsys 合作，將計算光刻平臺 cuLitho 投入生產，這一平臺將把半導體制造中計算最密集的工作負載加速 40-60 倍。

黃仁勛還宣布推出NVIDIA 地球氣候數字孿生Earth-2，可實現交互式高分辨率模擬，戶在數秒內發布預警和最新預報，使用傳統模型在CPU上運行需要耗時數分鐘乃至數小時。

黃仁勛表示，AI 的最大影響將體現在醫療領域，NVIDIA 已經涉足成像系統、基因測序儀器，并與領先的手術機器人公司合作。

NVIDIA 正在推出一種新型生物學軟件。 GTC 2024發布了二十多個新的微服務，使全球醫療企業能夠在任何地方、任何云上利用生成式 AI 的最新進展。

下一波AI浪潮將是 AI 對物理世界的學習

黃仁勛說，“我們需要一個模擬引擎，以數字方式為機器人呈現世界，這樣機器人就有了一個學習如何成為機器人的‘健身房’，我們稱這個虛擬世界為 Omniverse。”

NVIDIA宣布將以API形式提供 NVIDIA Omniverse Cloud，將全球領先的工業數字孿生應用和工作流創建平臺的覆蓋范圍擴展到整個軟件制造商生態系統。

為了展示其工作原理，黃仁勛分享了一個機器人倉庫的演示——使用多攝像頭感知和追蹤，看顧工人并協調機器人叉車，在整個機器人堆棧運行的情況下，這些叉車能夠實現自動駕駛。

NVIDIA還宣布將把 Omniverse 引入 Apple Vision Pro 中，通過新的 Omniverse Cloud API，開發者可以將交互式工業數字孿生流式傳輸到 VR 頭顯中。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

一些全球大型工業軟件制造商正在采用 Omniverse Cloud API，包括 Ansys、Cadence、達索系統旗下 3DEXCITE 品牌、Hexagon、微軟、羅克韋爾自動化、西門子和 Trimble 等。

機器人的巨大空間

“所有會動的東西都可能成為機器人，汽車行業將是其中的一個重要部分。”黃仁勛表示。

雷峰網(公眾號：雷峰網)了解到，比亞迪已選擇 NVIDIA 的下一代計算平臺用于其自動駕駛汽車，在 DRIVE Thor 上構建其下一代電動汽車車隊。昊鉑、小鵬、理想汽車、極氪也已經宣布將在DRIVE Thor上構建其未來的汽車產品。

人形機器人也是機器人的重要方向。

為此NVIDIA宣布了 Project GR00T（代表通用機器人 00 技術），這是一個為人形機器人設計的通用基礎模型。

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024

GR00T 脫胎于英偉達的 Isaac 機器人平臺工具，GR00T 驅動的人形機器人能夠接受文本、語音、視頻甚至現場演示的輸入，并對其進行處理以采取特定的操作，包括理解自然語言、模擬人類行為、在現實世界中導航和交互。

黃仁勛還推出了一款用于人形機器人的新型計算機 Jetson Thor，它基于 NVIDIA Thor 系統級芯片，并對 NVIDIA Isaac 機器人平臺進行了重大升級。

Jetson Thor采用Blackwell架構，可提供每秒 800 萬億次8位浮點運算 AI 性能，能夠執行復雜的任務并使用 Transformer 引擎處理多個傳感器，以運行 GR00T 等多模態生成式 AI 模型。

如果用一句話總結GTC的全新發布，可以借用黃仁勛的“我們創造了為生成式 AI 時代而生的處理器。”

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

包永剛

編輯

發私信

當月熱門文章

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會 ｜GTC 2024

Blackwell 架構GPU性能暴漲30倍，英偉達沒給追趕者一點機會｜GTC 2024