從預訓練到推理拐點，英偉達能靠Rubin延續霸權嗎？

本文作者：趙之齊

2026-01-20 09:52

導語：“六芯組合”是單芯片紅利觸頂的現實倒逼，也是英偉達在推理市場的破局之舉。

作者 | 趙之齊

編輯 | 包永剛

在預訓練賽道憑借硬件性能與生態優勢稱霸的英偉達，進入AI推理時代后，面臨新的挑戰。

在CES 2026上，英偉達創始人兼CEO黃仁勛強調了“物理AI”是AI的下一波浪潮。他將推理性AI置于核心位置，發布了具備自主思考能力的自動駕駛AI Alpamayo，提出了與西門子聯手打造工業AI的未來藍圖，并且，也披露了下一代AI計算平臺Vera Rubin的細節。

顯然，黃仁勛不愿讓Rubin停留在“概念革命”的想象層。他花了大量篇幅闡述AI推理帶來的挑戰：模型規模每年增長十倍，推理從單次生成走向多步思考，所需算力呈指數級膨脹，更長的上下文也導致存儲與帶寬壓力飆升。

對此，英偉達給出的解決方案是，集成Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-X以太網交換機的組合平臺。

從預訓練到推理拐點，英偉達能靠Rubin延續霸權嗎？

在部分業內人士眼中，這是一場“營銷意味更重”的發布：面對TPU、超節點等在推理領域相繼崛起，以及單芯片制程逼近物理極限的現實，英偉達推出六芯協同組合Rubin平臺，是其保持在推理市場領先地位的關鍵一步。

但這背后也隱藏著現實問題：

Rubin的推理性能突破，建立在NVFP4自適應調整精度前提下，“但提高FP4精度的推理，難免會擠壓FP16、FP32等更高精度的計算資源，且精度下降后，對于文生視頻等對精度敏感的場景而言，推理質量也會肉眼可見地變差”。

而對于黃仁勛提出Rubin平臺用45℃溫水冷卻、有望為全球數據中心總電力消耗節省約6%的論斷，AI系統架構師徐先生解讀：“這種方式的出液與進液溫差很小，核心元器件的實際工作溫度可能維持在八九十攝氏度，機柜的故障率很難實質下降。”

面對這一系列嚴苛的前置條件，Rubin能否切入推理市場并實現大規模落地，尚不明朗。（更多關于Rubin落地的細節判斷，歡迎添加作者微信 Ericazhao23 交流。）

不過，黃仁勛形容這套六芯組合系統的出現“恰逢其時”——它告別了單一芯片的能力競賽，邁向算力基礎設施的全棧升級，這與他在GTC 2025上強調的打造“AI工廠”概念，一脈相承。

對于此次戰略轉向，多位業內人士給出了相似判斷：“Rubin的發布對于國產芯片來說短期會利空，但長期會利好。從英偉達這個動作可以看出，單芯片性能紅利已經觸頂，多芯片協同與系統設計能力會成為新的破局關鍵。”

這種系統性的能力，也是許多國產芯片公司已在探索的技術路徑。

Rubin的發布，是英偉達在推理時代進一步加固自身的生態護城河。然而，行業也已形成共識：“訓練業務的價值核心是效率，但推理業務的核心是成本”。在新的價值邏輯下，Rubin要實現它的藍圖，需要跨過哪些關卡？在競爭日趨激烈的推理賽道中，英偉達還能延續其在預訓練領域的霸主地位嗎？

從芯片競爭到系統博弈：Rubin帶來的啟示

在CES現場聆聽分享的胡晨輝，已有十多年芯片從業經驗。已經耳聞Rubin存在的他，這次比起驚喜，更多是平靜地感慨：“它終于來了”。

在他看來，黃仁勛的整場演講，都在傳遞一種“強者恒強”的氣質。

介紹完架構細節后，黃仁勛強調了Vera Rubin在商業上的亮眼表現：

訓練一個十萬億參數規模的大模型時，其所需的集群規模僅為Blackwell系統的四分之一；在同等功耗和空間條件下，一座Vera Rubin數據中心的AI計算吞吐量，預計可達到基于Hopper架構數據中心的約100倍。

不僅如此，未來大規模AI服務的token生成成本，預計能降到當前水平的十分之一左右。

這樣的性能與成本優勢，切中了推理時代的核心需求——過去數據中心“更大模型+更強算力”的發展路徑，如今已難以被復制，各類交互、駕駛、控制等場景對時延高度敏感，且更多落地在端邊側，對成本有著苛刻追求。面對群雄逐鹿的格局，英偉達也開始以“性價比”為抓手，堅守推理市場的份額。

黃仁勛還指出，此次Rubin的發布，也打破了英偉達過往“每一代新平臺不應有超過一兩個芯片發生變動”的原則，可以說是其從“AI芯片廠商”，向打造“AI工廠”轉型的重要一步。

對于這一策略的轉變，煒燁智算副總裁孟健雄認為，短期內對國產芯片可能利空，但最終一定是具備制造業優勢的中國更占贏面——只是這個周期可能非常漫長。

徐先生也直言，這次英偉達的動作，釋放出一個關鍵信號：如今他們講的不再是單芯片的故事，而是多芯片系統的協同價值，這意味著其芯片設計、代工封裝等環節已經接近物理極限，對國產芯片來說，反而是一種利好。

芯片領域資深投資人IO資本創始合伙人趙占祥，也持相似立場。他指出，通過全局設計來提升綜合算力、推出整機乃至集群級的解決方案，是Google TPU很早就開始走的路線，而這條技術路徑，國內已有不少芯片創業公司在積極布局。（各類芯片架構的進一步探討，歡迎添加作者微信 Ericazhao23 交流。）

此外，這一趨勢對國內存儲廠商也十分有利。

他進一步分析說：大模型推理對KVCache的調用頻率更高，當前的性能瓶頸是GPU直連的HBM容量有限，而存儲服務器又與計算單元的物理距離過遠。由此來看，未來CXL存儲、LPDDR等新型高速存儲技術，都有望被部署到GPU周邊，通過縮短數據傳輸鏈路來提升推理性能，進而帶動相關技術的商業化落地與規模化應用。

毋庸置疑的是，英偉達發布的Rubin平臺，在硬件性能和性價比上的進一步突破，也加強了其生態護城河。

但趙占祥也指出一個核心矛盾：英偉達試圖通過強化軟硬耦合，綁定客戶采購其全套產品；但客戶其實更傾向于選擇軟硬解耦的方案，不愿被英偉達的生態完全綁定，因此，采購決策負擔與顧慮也可能隨之加重。

不過，在生態綁定的爭議之外，Rubin所標榜的五倍性能突破，要真正落地應用，還需跨過多重技術與實踐關卡。

動態精度調整，“偉大的發明”還是美好的想象？

在CES 2026上，黃仁勛把NVFP4 Tensor Core稱作是一項“偉大的發明”。

這是一個完整的處理器單元，能自適應地調整精度和結構，從而在允許精度損失的場景下實現更高吞吐量，并在需要時恢復到可能的精度。這種動態調整能力，完全在處理器內部自主完成。Rubin GPU的AI推理浮點性能相較上一代Blackwell提升五倍，核心驅動力正是NVFP4 Tensor Core對精度與吞吐率的自適應調度能力。

然而，這種技術模式能否獲得市場青睞？

“晶體管就那么大，提高FP4精度的推理，難免會擠壓FP16、FP32等更高精度的計算資源”，AI系統架構師徐先生說道。

顯然，高精度是預訓練的剛需，一定程度上犧牲了精度的Rubin，瞄準的最大場景或是未來行業模型的后訓練和推理應用、訓推一體化領域。

但這就陷入一個尷尬境地：即便英偉達仍維持著技術領先的地位，國內廠商卻已開始憑借超節點等形態進行追趕，“這條賽道跟國產芯片廠商布局高度重疊，英偉達當下力推的技術方向，國產廠商也在做”，徐先生補充道。

同時，不可忽略的是，在推理領域，精度下調雖能減少顯存占用、提升運算速度，但也會對模型的最終準確率產生影響。

有國內大模型廠商的從業人士告訴雷峰網，公司內部曾開展多輪不同精度的對比測試，結果顯示，尤其是在文生視頻領域，當精度從FP16降到FP8，視頻的生成效果已經肉眼可見地變差——這還建立在當前多數文生視頻產品時長僅為五秒的前提下。

不過，業內也有不同看法。趙占祥認為，在推理需求高速增長的情況下，精度壓縮是行業必經之路，由于NVFP4張量核心能實時分析Transformer模型各層的計算特性、動態調整數據精度與計算路徑，本質上還是推理的自適應數據壓縮技術，會在精度損失和推理性能之間做平衡。

即便如此，市場對于向FP4精度跨越仍存疑慮：當前業內主流的推理精度普遍停留在FP8級別，當精度進一步壓縮，雖然英偉達宣稱可通過特定技術實現微乎其微的精度損失，但在文生視頻等對精度敏感的場景中，是否會引發更顯著的效果衰減？

種種未知下，Rubin技術落地的真實效果，行業還在等待驗證。

功耗翻倍：Rubin能否跨過能源與散熱門檻？

“Vera Rubin的功耗是Grace Blackwell的兩倍，但我們仍然能將Vera Rubin塞進這個框架里，這本身就是一個奇跡”，黃仁勛在大會上說道。但這份樂觀，能否真正實現？

“散熱是未來超節點和萬卡集群最重要的競爭點”，AI系統架構師徐先生說道。

Rubin的液冷計算托盤，摒棄了傳統的電纜和軟管設計。在徐先生看來，這樣設計的優勢在于無線纜架構，能對GPU、CPU、網卡及存儲等核心模塊都進行制冷處理。

不過，他指出，這種方案下，如果進液溫度為45度，出液溫度可能就在50度左右，如此小的溫差，預估核心元器件的實際工作溫度仍會維持在八九十攝氏度。這就意味著，機柜的故障率很難實質下降，整個集群的模型浮點運算利用率（MFU）大概率可能停留在30%-50%的區間，硬件算力依然存在嚴重浪費。

盡管已有業內消息稱，面對Rubin與下一代Feynman平臺的功耗激增，現有散熱方案已經難以應對，英偉達正要求供應商研發“微通道水冷板”技術，但在徐先生看來，這種方案的天花板較低，最終的散熱體系還是要融入浸沒式液冷技術，才能突破瓶頸。（服務器散熱技術迭代，液冷如何破局？歡迎添加作者微信 Ericazhao23 交流。）

除了散熱，電力供應也是不容忽視的關鍵環節。

“一個很有意思的現象，以前你走進大廠的機房，一排機柜看過去都是滿滿當當裝著服務器，但現在，一個機柜里可能只有一兩臺，看起來空空蕩蕩的”，某大廠算力行業人士李明說道。

背后原因，是現有電力承載力已難以匹配設備的能耗需求。

黃仁勛也抓住了這一痛點。他介紹，Vera Rubin平臺堅持使用45攝氏度溫水冷卻，無需能耗巨大的冷水機組，這一設計預計能為全球數據中心節省約6%的總電力消耗。

在李明看來，如果這個故事真能講通，那對于當下電力資源緊缺的全球數據中心市場來說，無疑是一劑強心針。

不過，一個無法回避的現實是，Rubin的規模化落地，需要一套更全面的非標配套體系作為支撐。

胡晨輝指出，未來部署Rubin產品的總擁有成本（TCO）肯定會降低，畢竟能源利用效率顯著提升，但同時，部署Rubin的IDC可能需要專用變電站來支撐。徐先生也認為，Rubin架構單機柜的功耗門檻極高，需要大量非標電壓、電線等配套設施，實則給供電系統帶來了不小的壓力。

與此同時，很多數據中心原來的硬件配置乃至運維團隊，可能都要因此“換一波”。不過，煒燁智算副總裁孟健雄也推測，在故障率相當的前提下，設備集成度越高、系統內故障源點越少，相應的維護成本也有望降低。

在群雄逐鹿下，英偉達的Rubin“豪賭”能否落地，取決于其能否跨過能源與精度的雙重門檻；而國產芯片的未來，則在于能否抓住這次規則重構的機遇，例如通過增加芯片部署數量、制定更優的散熱方案，將系統設計的優勢轉化為真正的市場競爭力。

當六芯組合的時代真正來臨，胡晨輝最強的體會是：SOC不再是傳統意義上的系統級芯片，系統也不再局限于硬件的簡單集成，行業里的參與者，都要樹立做“場景底座”的商業思維。

這場圍繞AI基礎設施的博弈，正火熱展開。

作者長期關注半導體、算力上下游等方向，歡迎添加作者微信 Ericazhao23 交流。

注，文中李明為化名。

雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

趙之齊

作者

關注算力、AI及相關IR話題等。微信：Ericazhao23。

發私信

當月熱門文章

成本下探30%，中科曙光IB產品沖擊RoCE性價比「護城河」