推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

本文作者：劉伊倫

2025-03-21 15:57

導(dǎo)語：GTC2025，英偉達(dá)帶來Blackwell Ultra、Rubin等全新發(fā)布。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))消息，北京時間3月19日凌晨，英偉達(dá)公司創(chuàng)始人兼CEO黃仁勛在GTC會議上發(fā)表主題演講。

DeepSeek爆火后，英偉達(dá)被推上風(fēng)口浪尖，對于AI發(fā)展是否會帶來更大數(shù)量級的算力需求，市場生出隱憂。演講開場，黃仁勛便做出回答：“全世界都錯了，Scaling law有更強(qiáng)的韌性，現(xiàn)在的計算量是去年同期的100倍。”

推理讓AI具備“思維鏈”，模型響應(yīng)需求時會對問題進(jìn)行拆解，而不是直接給出答案，對每個步驟進(jìn)行推理勢必讓產(chǎn)生的Token數(shù)量增加。模型變得更加復(fù)雜，為了保證原有的推理速度以及響應(yīng)能力，便對算力提出了更高的要求。

Token是AI的基本單元，推理模型本質(zhì)上是一座生產(chǎn)Token的工廠，提高Token的生產(chǎn)速度就是提高工廠的生產(chǎn)效率，效率越高，利益越大，算力要做的就是探索生產(chǎn)效率的邊界。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

而具備自主推理能力的Agentic AI發(fā)展趨勢之下，勢必帶動物理AI的發(fā)展。GTC會議上，英偉達(dá)帶來Blackwell Ultra、推理系統(tǒng)Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新發(fā)布，用性能回應(yīng)需求。

AI芯片將「年更」，Rubin性能達(dá)Hopper「900倍」

AI的發(fā)展讓數(shù)據(jù)中心的資本支出不斷攀升，數(shù)據(jù)顯示，2028年數(shù)據(jù)中心資本支出將達(dá)到1萬億美元，黃仁勛稱：“這其中的大部分增長可能還會加速。”資本支出增加、盈利能力提升，帶來的是英偉達(dá)在數(shù)據(jù)中心領(lǐng)域的營收增加。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

為了讓計算機(jī)成為更強(qiáng)的“Token生成器”，英偉達(dá)發(fā)布新一代“最強(qiáng)AI芯片” Blackwell Ultra。

單從硬件上看，Blackwell Ultra相較于GB200帶來的最大升級是采用12層堆疊的HBM3e內(nèi)存，成為全球首個顯存達(dá)到288GB的GPU。對此，有消息稱，SK海力士將獨(dú)家供應(yīng)Blackwell Ultra。

高效響應(yīng)推理模型，對算力、內(nèi)存及帶寬提出更高的要求。英偉達(dá)推出Blackwell Ultra GB300 NVL72機(jī)架級解決方案，集成72個Blackwell Ultra GPU和36個Grace CPU，滿足AI推理工作負(fù)載對算力和內(nèi)存的要求。

Blackwell Ultra GB300 NVL72將于2025年下半年發(fā)布，其性能為GB200 NVL72的1.5倍、40TB快速閃存為前代1.5倍，14.4TB/s帶寬為前代2倍。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

要更好釋放硬件的算力，軟硬件協(xié)同變得更加重要，為此，英偉達(dá)推出分布式推理服務(wù)庫NVIDIA Dynamo，通過協(xié)調(diào)并加速數(shù)千個GPU之間的推理通信，為部署推理AI模型的AI工廠最大化其token收益。

在GPU數(shù)量相同的情況下，Dynamo可以實(shí)現(xiàn)Hopper平臺上運(yùn)行Llama模型的AI工廠性能和收益翻倍，在由GB200 NVL72機(jī)架組成的集群上運(yùn)行DeepSeek-R1模型時，Dynamo的智能推理優(yōu)化能將每個GPU生成的Token數(shù)量提高30倍以上，并讓Blackwell的性能相較于Hopper提升了25倍。

黃仁勛表示，Dynamo將完全開源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM，使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署AI模型的方法。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

在推理模型中，Dynamo則讓Blackwell的性能達(dá)到Hopper的40倍，黃仁勛笑稱：“當(dāng)Blackwell批量發(fā)貨時，就不要再拿Hopper去送人了。”

以功率為100兆瓦的AI工廠為例，其能供能45000個H100芯片，共計1400個H100 NVL8機(jī)架，生產(chǎn)力為3億個Token。同等功率下，其能供能85000個GB200芯片，共計600個機(jī)架，生產(chǎn)力為120億個Token。相較于H100 NVL8，GB200 NVL72不僅帶來更強(qiáng)的算力，而且在功耗和空間占用上更有優(yōu)勢。

“買得越多，省得越多。”黃仁勛又說出了他的帶貨名言，這次還補(bǔ)充道，“買得越多，賺得越多。”

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

旗艦版AI芯片作為GTC的“最大看點(diǎn)”，僅僅宣布Blackwell Ultra很難滿足外界預(yù)期。對此，黃仁勛公布了英偉達(dá)旗艦芯片的全新路線圖，芯片架構(gòu)的更新周期正在加速，由每兩年推出新的產(chǎn)品線調(diào)整為“每年一更”的產(chǎn)品節(jié)奏。

每代產(chǎn)品更新均基于全棧解決方案、依托統(tǒng)一架構(gòu)，并秉持“CUDA無處不在”的理念推進(jìn)。按照路線圖規(guī)劃，黃仁勛提前預(yù)告了下一代AI芯片“Rubin”，遵循以往采用科學(xué)家名字命名架構(gòu)的慣例，本次新架構(gòu)以美國天文學(xué)家“Vera Rubin”的姓氏命名，以紀(jì)念其證實(shí)了暗物質(zhì)存在的卓越貢獻(xiàn)。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

Vera Rubin NVL144預(yù)計將在2026年下半年發(fā)布，在進(jìn)行FP4精度的推理任務(wù)時，性能達(dá)到3.6ExaFLOPS，進(jìn)行FP8精度的訓(xùn)練任務(wù)時，性能為1.2ExaFLOPS，與GB300 NVL72相比，性能提升了3.3倍。

Vera Rubin NVL144配備HBM4，帶寬達(dá)到13TB/s，擁有達(dá)到前代1.6倍的75TB快速閃存。支持NVLink6和CX9，帶寬均達(dá)到前代2倍，實(shí)現(xiàn)數(shù)據(jù)傳輸效率的提升。

黃仁勛表示，Blackwell的性能相較于Hopper提升了68倍，而Rubin的性能將達(dá)到Hopper的900倍。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

與Blackwell一樣，除了標(biāo)準(zhǔn)版本，英偉達(dá)還計劃于2027年下半年推出Rubin Ultra NVL576，在進(jìn)行FP4精度的推理任務(wù)時，其性能達(dá)到15ExaFLOPS，進(jìn)行FP8精度的訓(xùn)練任務(wù)時，性能為5ExaFLOPS，與GB300 NVL72相比，性能提升了14倍。

Vera Rubin NVL144將配備HBM4e，帶寬達(dá)到4.6PB/s，擁有達(dá)到前代8倍的365TB快速內(nèi)存。支持NVLink7，帶寬1.5PB/s，為前代12倍。支持CX9，帶寬115.2TB/s，為前代8倍。

CPU部分，Vera芯片搭載88個定制Arm核心，支持176線程，具備1.8TB/s的NVLink - C2C（芯片到芯片）帶寬，在多芯片互聯(lián)等場景下能高效傳輸數(shù)據(jù)。GPU方面，Rubin Ultra集成4個Reticle-Sized GPU，每顆GPU擁有100PF的FP4算力，搭配1TB HBM4e顯存，在性能和內(nèi)存容量上達(dá)到新高。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

在訓(xùn)練、推理及應(yīng)用部署等關(guān)鍵環(huán)節(jié)，AI芯片平臺都需要網(wǎng)絡(luò)為其提供高速穩(wěn)定的數(shù)據(jù)傳輸。英偉達(dá)推出Spectrum-X和Quantum-X硅光網(wǎng)絡(luò)交換機(jī)，為全球最先進(jìn)的AI云及AI工廠提供支持。

Spectrum-X網(wǎng)絡(luò)交換機(jī)有多種配置，最高配置512端口800Gb/s或2048端口200Gb/s，總吞吐量達(dá)400Tb/s。與之配套的Quantum - X網(wǎng)絡(luò)交換機(jī)基于200Gb/s SerDes技術(shù)，提供144端口800Gb/s的InfiniBand連接，與上一代相比，速度提升2倍、可擴(kuò)展性提升5倍。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

不止AI工廠，DGX Spark和DGX Station打造「AI桌面」

為了支持AI開發(fā)者、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生等群體，英偉達(dá)推出“全球最小AI超級計算機(jī)”DGX Spark，其支持在臺式電腦上對大模型進(jìn)行原型設(shè)計、微調(diào)和推理，用戶可以在本地、云或數(shù)據(jù)中心基礎(chǔ)設(shè)施中運(yùn)行這些模型。

DGX Spark是基于GB10 Grace Blackwell打造的個人AI超級計算機(jī)系列產(chǎn)品，根據(jù)臺式電腦外形規(guī)格進(jìn)行了針對性優(yōu)化，其支持第五代Tensor Core和FP4，每秒計算次數(shù)達(dá)到1000萬億次。GB10采用NVIDIA NVLink-C2C互連技術(shù)，帶寬是第五代PCIe的五倍，并且能夠訪問GPU和CPU之間的數(shù)據(jù)，為內(nèi)存密集型AI開發(fā)者工作負(fù)載優(yōu)化性能。

英偉達(dá)的全棧AI平臺支持DGX Spark用戶將其模型從臺式機(jī)遷移到DGX Cloud、其他加速云及數(shù)據(jù)中心基礎(chǔ)設(shè)施中，并且無需修改代碼，簡化了對其工作流進(jìn)行原型設(shè)計、微調(diào)和迭代的要求。

黃仁勛表示：“AI改變了每一層計算堆棧。我們有理由相信將出現(xiàn)一類專為AI原生開發(fā)者而設(shè)計并用于運(yùn)行AI原生應(yīng)用的新型計算機(jī)。借助全新的DGX個人AI計算機(jī)，AI能夠從云服務(wù)擴(kuò)展到臺式電腦和邊緣應(yīng)用。”

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

DGX Station是Ultra平臺的高性能桌面超級計算機(jī)，定位為面向企業(yè)和科研機(jī)構(gòu)的高性能AI計算站，能夠幫助企業(yè)構(gòu)建私有AI推理系統(tǒng)，相較于DGX Spark，適用于更大規(guī)模的AI開發(fā)領(lǐng)域。

DGX Station是第一款采用英偉達(dá)GB300 Grace Blackwell Ultra桌面超級芯片構(gòu)建的臺式機(jī)系統(tǒng)，擁有784GB統(tǒng)一系統(tǒng)內(nèi)存，支持800Gb/s網(wǎng)絡(luò)連接的ConnectX-8 SuperNIC，AI性能達(dá)到20PFLOPS。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

從數(shù)據(jù)、模型到算力，英偉達(dá)「全面驅(qū)動」人形機(jī)器人

“機(jī)器人時代已經(jīng)到來，其能夠與物理世界交互并執(zhí)行數(shù)字信息無法完成的任務(wù)。”黃仁勛說，“世界正面臨嚴(yán)重的勞動力短缺，到2030年，全世界將短缺5000萬名工人，我們可能不得不每年支付5萬美元薪水給機(jī)器人。”

物理AI正在改變規(guī)模50萬億美元的產(chǎn)業(yè)。英偉達(dá)推出全新Cosmos世界基礎(chǔ)模型，引入開放式、可完全定制的物理AI開發(fā)推理模型，包含各種模型尺寸并適用于多種輸入數(shù)據(jù)格式，幫助生成大型數(shù)據(jù)集，能將圖像從3D擴(kuò)展到真實(shí)場景，縮小仿真與現(xiàn)實(shí)之間的差距。

1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業(yè)，可更快、更大規(guī)模地為物理AI生成更豐富的訓(xùn)練數(shù)據(jù)。

“正如大語言模型改變了生成式和代理式 AI，Cosmos世界基礎(chǔ)模型是物理AI的一項重大突破。”黃仁勛表示， “Cosmos為物理AI帶來了一個開放式、可完全定制的推理模型，為機(jī)器人和物理工業(yè)領(lǐng)域的突破性發(fā)展帶來了機(jī)遇。”

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？

滿足數(shù)據(jù)需求之外，英偉達(dá)推出人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1，采用“快速反應(yīng)”的系統(tǒng)1以及“深度推理”的系統(tǒng)2雙架構(gòu)，黃仁勛表示，Isaac GR00T N1將開源，機(jī)器人開發(fā)者可以用真實(shí)或合成數(shù)據(jù)進(jìn)行后訓(xùn)練。

推理和機(jī)器人，哪一個才是英偉達(dá)「AI工廠」的增長故事？