0
智算集群的建設瓶頸,正在經歷轉移。
過去兩年,行業還聚焦在算力規模上,仿佛誰拿到了更多GPU,誰就掌握了AI競爭的入場券。但當萬卡集群逐漸落地,一個更隱蔽的瓶頸浮出水面:網絡。
中科曙光高級副總裁李斌算了這樣一筆賬:“原來以CPU為中心的計算單元,雙路的計算節點插一張網卡就夠了;現在以GPU為中心的計算節點,一臺機器要配八張甚至更多的網卡。”
由此算下來,如今網絡的用量相比以往的數據中心,提高了十到二十倍。
數量膨脹背后,智算集群也對網絡性能提出更苛刻的要求:
萬卡集群的訓練,需要網絡時延在納秒級內,且傳輸精度做到無損。而現實是,無論選擇英偉達主導的IB(InfiniBand)路線,還是運維復雜的RoCE路線,國內用戶都一定程度上“受制于人”。

正是這樣的背景下,中科曙光歷時三年推出國產原生IB架構高速網絡產品scaleFabric,試圖在智算網絡的咽喉要道上,占據一席之地。
隨著AI需求飆漲,行業已經逐漸發現,大規模計算系統的效率不等于系統的峰值算力,在集群實際運行中,接近一半的算力會被浪費掉。
也就是說,單卡算力再強,如果網絡無法在規定時間內完成數據交換,大部分算力只能在等待中被浪費。MFU(模型算力利用率)的天花板,很大程度上是由網絡決定的。
目前,萬卡集群高速互聯需求下,市場能滿足的技術路線主要有兩條:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是專為高性能計算設計的原生RDMA架構,后者則是基于以太網的RDMA技術方案。
過往,二者的場景和區別還比較涇渭分明:
IB性能卓越但價格昂貴,是超算和頂級AI集群的首選;RoCE成本較低,且互聯網廠商在CPU云時代便以以太網為基礎,成熟的運維體系也讓他們在智算時代更傾向于繼續沿用以太網路線。
然而,AI帶來算力需求爆發的當下,隨著智算集群規模從千卡邁向萬卡甚至十萬卡,RoCE的先天短板開始顯現——
IB交換機采用VCT交換,可實現“邊收邊轉”,交換時延可控制在300納秒以內;而RoCE交換機則采用“存儲-轉發”交換,需完整接收數據包后再轉發,時延普遍在500納秒以上。
在流量控制機制上,IB采用基于信用的精細化流控,發送前會確認接收端資源,從根源避免丟包;RoCE依賴的PFC(Priority Flow Control)暫停機制則是粗粒度流控,容易出現丟包、PFC死鎖或風暴,必須依賴擁塞控制且需人工調優水線。
盡管RoCE廠商在追趕IB的性能,但用戶也已經在“用腳投票”。例如,在感受到IB的性能優勢后,微軟如今已開始將部分核心AI訓練業務從以太轉向了IB。
然而,對于國內智算用戶而言,選擇IB同樣面臨困境:
英偉達一家獨大,采購價格高昂,且供貨周期和產品迭代并不穩定。并且,英偉達在B300等最新芯片中已標配CX8網絡模塊,這意味著采購其芯片,往往就被強制綁定使用英偉達自家的IB網絡產品。
面對性能較遜色的RoCE與高價壟斷的IB,國產算力高速網絡需要一條新出路。
中科曙光scaleFabric,試圖打破這一僵局。
這是國內首款全棧自研原生IB架構高速網絡產品:從底層的112G SerDes IP、交換芯片、網卡,到上層的交換機硬件和管理軟件,全是自主研發產品,歷時三年研發。
從公開的性能數據看,scaleFabric對標的是英偉達目前主流的NDR(指 400Gb/s InfiniBand 網絡)產品。
性能層面,中國科學院計算技術研究所王展表示,通信層面上,曙光的產品基本上和英偉達在同一水平。其端到端通信時延在0.93微秒,交換機轉發時延260納秒,與英偉達NDR持平;單端口帶寬達到800G,較RoCE主流交換機領先一到兩代,整機交換容量64T;在典型AI訓練任務中,實測網絡效率提升40%以上。
可靠性層面,由于采用了原生IB的信用流控機制,scaleFabric實現了真無損網絡,避免了RoCE方案中常見的PFC風暴風險。曙光透露,該產品已在近萬卡規模的集群中持續穩定運行超過10個月。
當然,對用戶而言,最敏感的變量依然是成本。曙光透露,在同等規模集群中,scaleFabric的整體網絡成本較進口IB方案可降低約30%。
這一價格優勢一旦被驗證,RoCE賴以生存的“性價比護身符”將受到巨大沖擊。
不過,這套國產IB產品的誕生也并非坦途。
中科曙光高速網絡互聯產品部總工程師萬偉直言,研發中的第一個難點是鏈路技術:起初大家想買現成的IB方案,但是根本不符合要求,最后只能招團隊從零做起。
其次,在目標設定上,團隊并非簡單對標英偉達IB,而是立志在關鍵規格上實現超越,這也帶來了巨大的技術挑戰。萬偉感慨,所幸團隊最終在國家的支持下得以攻克難關、取得成功。
李斌補充說,當前業界存在RoCE、ScaleOut、ScaleUP等多種技術路線,百花齊放,而曙光的選擇是在原生RDMA架構基礎上,為超大規模系統上的性能和擴展性做深度考量。
他對市場競爭格局有清醒的判斷:“目前這個市場的主要玩家還是英偉達。我們對于產品的定位,是期待在IB的技術路線能實現技術上的國產化替代,實現業務上真正的市場占比替代。我們希望打破一家獨大的局面,把整個技術做開放,市場的蛋糕大家共享。”
盡管英偉達的領先地位短期難以撼動,但國產IB的突破,已為智算網絡自主之路點亮希望。
雷峰網(公眾號:雷峰網)雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。