0
| 本文作者: 劉伊倫 | 2025-03-21 15:57 |

雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息,北京時間3月19日凌晨,英偉達(dá)公司創(chuàng)始人兼CEO黃仁勛在GTC會議上發(fā)表主題演講。
DeepSeek爆火后,英偉達(dá)被推上風(fēng)口浪尖,對于AI發(fā)展是否會帶來更大數(shù)量級的算力需求,市場生出隱憂。演講開場,黃仁勛便做出回答:“全世界都錯了,Scaling law有更強(qiáng)的韌性,現(xiàn)在的計算量是去年同期的100倍。”
推理讓AI具備“思維鏈”,模型響應(yīng)需求時會對問題進(jìn)行拆解,而不是直接給出答案,對每個步驟進(jìn)行推理勢必讓產(chǎn)生的Token數(shù)量增加。模型變得更加復(fù)雜,為了保證原有的推理速度以及響應(yīng)能力,便對算力提出了更高的要求。
Token是AI的基本單元,推理模型本質(zhì)上是一座生產(chǎn)Token的工廠,提高Token的生產(chǎn)速度就是提高工廠的生產(chǎn)效率,效率越高,利益越大,算力要做的就是探索生產(chǎn)效率的邊界。

而具備自主推理能力的Agentic AI發(fā)展趨勢之下,勢必帶動物理AI的發(fā)展。GTC會議上,英偉達(dá)帶來Blackwell Ultra、推理系統(tǒng)Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新發(fā)布,用性能回應(yīng)需求。
AI芯片將「年更」,Rubin性能達(dá)Hopper「900倍」
AI的發(fā)展讓數(shù)據(jù)中心的資本支出不斷攀升,數(shù)據(jù)顯示,2028年數(shù)據(jù)中心資本支出將達(dá)到1萬億美元,黃仁勛稱:“這其中的大部分增長可能還會加速。”資本支出增加、盈利能力提升,帶來的是英偉達(dá)在數(shù)據(jù)中心領(lǐng)域的營收增加。

為了讓計算機(jī)成為更強(qiáng)的“Token生成器”,英偉達(dá)發(fā)布新一代“最強(qiáng)AI芯片” Blackwell Ultra。
單從硬件上看,Blackwell Ultra相較于GB200帶來的最大升級是采用12層堆疊的HBM3e內(nèi)存,成為全球首個顯存達(dá)到288GB的GPU。對此,有消息稱,SK海力士將獨(dú)家供應(yīng)Blackwell Ultra。
高效響應(yīng)推理模型,對算力、內(nèi)存及帶寬提出更高的要求。英偉達(dá)推出Blackwell Ultra GB300 NVL72機(jī)架級解決方案,集成72個Blackwell Ultra GPU和36個Grace CPU,滿足AI推理工作負(fù)載對算力和內(nèi)存的要求。
Blackwell Ultra GB300 NVL72將于2025年下半年發(fā)布,其性能為GB200 NVL72的1.5倍、40TB快速閃存為前代1.5倍,14.4TB/s帶寬為前代2倍。

要更好釋放硬件的算力,軟硬件協(xié)同變得更加重要,為此,英偉達(dá)推出分布式推理服務(wù)庫NVIDIA Dynamo,通過協(xié)調(diào)并加速數(shù)千個GPU之間的推理通信,為部署推理AI模型的AI工廠最大化其token收益。
在GPU數(shù)量相同的情況下,Dynamo可以實(shí)現(xiàn)Hopper平臺上運(yùn)行Llama模型的AI工廠性能和收益翻倍,在由GB200 NVL72機(jī)架組成的集群上運(yùn)行DeepSeek-R1模型時,Dynamo的智能推理優(yōu)化能將每個GPU生成的Token數(shù)量提高30倍以上,并讓Blackwell的性能相較于Hopper提升了25倍。
黃仁勛表示,Dynamo將完全開源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署AI模型的方法。

在推理模型中,Dynamo則讓Blackwell的性能達(dá)到Hopper的40倍,黃仁勛笑稱:“當(dāng)Blackwell批量發(fā)貨時,就不要再拿Hopper去送人了。”
以功率為100兆瓦的AI工廠為例,其能供能45000個H100芯片,共計1400個H100 NVL8機(jī)架,生產(chǎn)力為3億個Token。同等功率下,其能供能85000個GB200芯片,共計600個機(jī)架,生產(chǎn)力為120億個Token。相較于H100 NVL8,GB200 NVL72不僅帶來更強(qiáng)的算力,而且在功耗和空間占用上更有優(yōu)勢。
“買得越多,省得越多。”黃仁勛又說出了他的帶貨名言,這次還補(bǔ)充道,“買得越多,賺得越多。”

旗艦版AI芯片作為GTC的“最大看點(diǎn)”,僅僅宣布Blackwell Ultra很難滿足外界預(yù)期。對此,黃仁勛公布了英偉達(dá)旗艦芯片的全新路線圖,芯片架構(gòu)的更新周期正在加速,由每兩年推出新的產(chǎn)品線調(diào)整為“每年一更”的產(chǎn)品節(jié)奏。
每代產(chǎn)品更新均基于全棧解決方案、依托統(tǒng)一架構(gòu),并秉持“CUDA無處不在”的理念推進(jìn)。按照路線圖規(guī)劃,黃仁勛提前預(yù)告了下一代AI芯片“Rubin”,遵循以往采用科學(xué)家名字命名架構(gòu)的慣例,本次新架構(gòu)以美國天文學(xué)家“Vera Rubin”的姓氏命名,以紀(jì)念其證實(shí)了暗物質(zhì)存在的卓越貢獻(xiàn)。

Vera Rubin NVL144預(yù)計將在2026年下半年發(fā)布,在進(jìn)行FP4精度的推理任務(wù)時,性能達(dá)到3.6ExaFLOPS,進(jìn)行FP8精度的訓(xùn)練任務(wù)時,性能為1.2ExaFLOPS,與GB300 NVL72相比,性能提升了3.3倍。
Vera Rubin NVL144配備HBM4,帶寬達(dá)到13TB/s,擁有達(dá)到前代1.6倍的75TB快速閃存。支持NVLink6和CX9,帶寬均達(dá)到前代2倍,實(shí)現(xiàn)數(shù)據(jù)傳輸效率的提升。
黃仁勛表示,Blackwell的性能相較于Hopper提升了68倍,而Rubin的性能將達(dá)到Hopper的900倍。

與Blackwell一樣,除了標(biāo)準(zhǔn)版本,英偉達(dá)還計劃于2027年下半年推出Rubin Ultra NVL576,在進(jìn)行FP4精度的推理任務(wù)時,其性能達(dá)到15ExaFLOPS,進(jìn)行FP8精度的訓(xùn)練任務(wù)時,性能為5ExaFLOPS,與GB300 NVL72相比,性能提升了14倍。
Vera Rubin NVL144將配備HBM4e,帶寬達(dá)到4.6PB/s,擁有達(dá)到前代8倍的365TB快速內(nèi)存。支持NVLink7,帶寬1.5PB/s,為前代12倍。支持CX9,帶寬115.2TB/s,為前代8倍。
CPU部分,Vera芯片搭載88個定制Arm核心,支持176線程,具備1.8TB/s的NVLink - C2C(芯片到芯片)帶寬,在多芯片互聯(lián)等場景下能高效傳輸數(shù)據(jù)。GPU方面,Rubin Ultra集成4個Reticle-Sized GPU,每顆GPU擁有100PF的FP4算力,搭配1TB HBM4e顯存,在性能和內(nèi)存容量上達(dá)到新高。

在訓(xùn)練、推理及應(yīng)用部署等關(guān)鍵環(huán)節(jié),AI芯片平臺都需要網(wǎng)絡(luò)為其提供高速穩(wěn)定的數(shù)據(jù)傳輸。英偉達(dá)推出Spectrum-X和Quantum-X硅光網(wǎng)絡(luò)交換機(jī),為全球最先進(jìn)的AI云及AI工廠提供支持。
Spectrum-X網(wǎng)絡(luò)交換機(jī)有多種配置,最高配置512端口800Gb/s或2048端口200Gb/s,總吞吐量達(dá)400Tb/s。與之配套的Quantum - X網(wǎng)絡(luò)交換機(jī)基于200Gb/s SerDes技術(shù),提供144端口800Gb/s的InfiniBand連接,與上一代相比,速度提升2倍、可擴(kuò)展性提升5倍。

不止AI工廠,DGX Spark和DGX Station打造「AI桌面」
為了支持AI開發(fā)者、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生等群體,英偉達(dá)推出“全球最小AI超級計算機(jī)”DGX Spark,其支持在臺式電腦上對大模型進(jìn)行原型設(shè)計、微調(diào)和推理,用戶可以在本地、云或數(shù)據(jù)中心基礎(chǔ)設(shè)施中運(yùn)行這些模型。
DGX Spark是基于GB10 Grace Blackwell打造的個人AI超級計算機(jī)系列產(chǎn)品,根據(jù)臺式電腦外形規(guī)格進(jìn)行了針對性優(yōu)化,其支持第五代Tensor Core和FP4,每秒計算次數(shù)達(dá)到1000萬億次。GB10采用NVIDIA NVLink-C2C互連技術(shù),帶寬是第五代PCIe的五倍,并且能夠訪問GPU和CPU之間的數(shù)據(jù),為內(nèi)存密集型AI開發(fā)者工作負(fù)載優(yōu)化性能。
英偉達(dá)的全棧AI平臺支持DGX Spark用戶將其模型從臺式機(jī)遷移到DGX Cloud、其他加速云及數(shù)據(jù)中心基礎(chǔ)設(shè)施中,并且無需修改代碼,簡化了對其工作流進(jìn)行原型設(shè)計、微調(diào)和迭代的要求。
黃仁勛表示:“AI改變了每一層計算堆棧。我們有理由相信將出現(xiàn)一類專為AI原生開發(fā)者而設(shè)計并用于運(yùn)行AI原生應(yīng)用的新型計算機(jī)。借助全新的DGX個人AI計算機(jī),AI能夠從云服務(wù)擴(kuò)展到臺式電腦和邊緣應(yīng)用。”

DGX Station是Ultra平臺的高性能桌面超級計算機(jī),定位為面向企業(yè)和科研機(jī)構(gòu)的高性能AI計算站,能夠幫助企業(yè)構(gòu)建私有AI推理系統(tǒng),相較于DGX Spark,適用于更大規(guī)模的AI開發(fā)領(lǐng)域。
DGX Station是第一款采用英偉達(dá)GB300 Grace Blackwell Ultra桌面超級芯片構(gòu)建的臺式機(jī)系統(tǒng),擁有784GB統(tǒng)一系統(tǒng)內(nèi)存,支持800Gb/s網(wǎng)絡(luò)連接的ConnectX-8 SuperNIC,AI性能達(dá)到20PFLOPS。

從數(shù)據(jù)、模型到算力,英偉達(dá)「全面驅(qū)動」人形機(jī)器人
“機(jī)器人時代已經(jīng)到來,其能夠與物理世界交互并執(zhí)行數(shù)字信息無法完成的任務(wù)。”黃仁勛說,“世界正面臨嚴(yán)重的勞動力短缺,到2030年,全世界將短缺5000萬名工人,我們可能不得不每年支付5萬美元薪水給機(jī)器人。”
物理AI正在改變規(guī)模50萬億美元的產(chǎn)業(yè)。英偉達(dá)推出全新Cosmos世界基礎(chǔ)模型,引入開放式、可完全定制的物理AI開發(fā)推理模型,包含各種模型尺寸并適用于多種輸入數(shù)據(jù)格式,幫助生成大型數(shù)據(jù)集,能將圖像從3D擴(kuò)展到真實(shí)場景,縮小仿真與現(xiàn)實(shí)之間的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業(yè),可更快、更大規(guī)模地為物理AI生成更豐富的訓(xùn)練數(shù)據(jù)。
“正如大語言模型改變了生成式和代理式 AI,Cosmos世界基礎(chǔ)模型是物理AI的一項重大突破。”黃仁勛表示, “Cosmos為物理AI帶來了一個開放式、可完全定制的推理模型,為機(jī)器人和物理工業(yè)領(lǐng)域的突破性發(fā)展帶來了機(jī)遇。”

滿足數(shù)據(jù)需求之外,英偉達(dá)推出人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1,采用“快速反應(yīng)”的系統(tǒng)1以及“深度推理”的系統(tǒng)2雙架構(gòu),黃仁勛表示,Isaac GR00T N1將開源,機(jī)器人開發(fā)者可以用真實(shí)或合成數(shù)據(jù)進(jìn)行后訓(xùn)練。

Isaac GR00T N1基礎(chǔ)模型采用廣義類人推理和技能進(jìn)行了預(yù)訓(xùn)練,開發(fā)者可以通過進(jìn)行后訓(xùn)練,使其滿足特定的需求,例如完成不同工廠生產(chǎn)線的特定任務(wù)以及自主完成不同的家務(wù)。
英偉達(dá)、谷歌DeepMind及迪士尼合作開發(fā)了開源物理引擎Newton,采用Isaac GR00T N1作為底座驅(qū)動了迪士尼BDX機(jī)器人。

人形機(jī)器人是AI時代下一個增長點(diǎn),從數(shù)據(jù)生成、基礎(chǔ)大模型到算力,英偉達(dá)為開發(fā)者提供了全面支持。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。