國產算力公司「各自為戰」，曙光如何打通協作壁壘？

本文作者：趙之齊

2025-09-09 18:22

導語：零散的國產算力廠商若不能形成合力，終將難與國際主流生態抗衡。

是什么契機，讓國內耳熟能詳的算力相關公司都濟濟一堂？

在2025世界智能產業博覽會的AI計算開放架構暨新品發布會上，國產算力友商們擁有了某種向心力。而串聯起他們的核心紐帶，正是中科曙光發布的國內首個AI計算開放架構。

此次發布中，中科曙光協同AI芯片、AI整機、大模型等20多家產業鏈上下游企業，共同推出AI超集群系統。在開放多項技術能力的同時，也宣布依托國家先進計算產業創新中心，啟動 “AI計算開放架構聯合實驗室” 的建設。

算力廠商們的集體亮相，背后也藏著大家對當前國內算力市場困局的共同焦慮：行業過去“強競爭、弱合作”，導致國內基礎設施市場雖然火熱，但不同廠商的服務器、存儲設備、算力調度平臺大多采用專有接口與協議，缺乏統一技術標準，從而難以形成合力，突破瓶頸。

那么，對當下的國內算力生態而言，曙光的這步嘗試究竟價值何在？為了推動這場突破，他們又做了哪些準備？

算力產業鏈環節細分，內部卻是“一盤散沙”

在外部生態護城河難以攻克之時，內部算力廠商卻仍各自為戰、缺乏協同，這是國內算力市場的一大瓶頸。

而這種局面的出現，一大原因是GPU領域內大量不同的品牌、廠商，彼此之間不同的算力密度、互聯方式以及生態體系差別，筑起的異構壁壘。

2023年前后，異構問題的解決被越來越多廠商提上日程。然而，目前的嘗試并不盡如人意——

在技術上，不同芯片算子庫不同，運行時的技術適配差異會增大整合難度；同時，異構的協調需要對GPU性能進行預測及拆分，甚至涉及硬件協調。

在生態上，中科曙光總裁助理、智能計算產品事業部總經理杜夏威向雷峰網介紹，行業已習慣在國際主流生態的框架下運行，現有慣性難以打破；且產業迭代速度極快、技術更新頻繁之下，AI各個產業板塊發展都很活躍，這導致“齒輪”之間并沒有嚴絲合縫協同。

這些問題沒有解決，目前的異構混訓就依然會對效率造成莫大犧牲——有業內人士指出，隨著AI加速卡數量的增加和不同芯片類型加入，混訓的魯棒性和穩定性都會變差。杜夏威觀察到“人們對打破壁壘的未知恐懼普遍存在”，但市場對廠商邁出這一步的需求，已迫在眉睫。

杜夏威指出，云計算時代，客戶的起步往往較云計算提供商晚，市場教育周期可能較長；而在AI大模型時代，客戶接受度極高，快速增長的海量需求反推數據中心的運營革新，市場正倒逼廠商啃下異構集群統一標準的“硬骨頭”。

雖然有觀點認為，異構需求只是國產芯片提升性能過程中的過渡性階段，智算中心最終還是會回歸到同構的基礎架構；然而，在未來算力市場發展的短期內，異構需求只會有增無減：

一方面，數據中心的國產化比例要求逐漸嚴格，以前國產卡比例在數據中心內可能只占兩成，但今年窗口指導等相關政策頒布后，未來可能有所升高。

另一方面，部分使用先進算力加國產化算力的組合集群的大模型客戶，也明確擁有對混訓能力的要求。

有見及此，2025智博會上，中科曙光協同AI芯片、AI整機、大模型等20多家產業鏈上下游企業，共同發布了國內首個AI計算開放架構，并基于該架構推出AI超集群系統。

這套超集群單機柜支持96張加速卡，可提供超過100P的AI算力，最高能夠實現百萬卡大規模擴展。它還能支持深度開發用戶迭代自有程序，同時幫助傳統行業用戶快速復用AI模型、整合業務。

與專有封閉系統相比，這套系統可適配支持多品牌GPU加速卡，兼容CUDA等主流軟件生態，為用戶提供更多選擇；同時也大幅降低硬件成本和軟件開發適配成本，使得前期投資壓力較小。

并且，曙光也攜手眾多產業鏈企業開放七項核心技術，包括CPU與AI加速器高性能接口協議、加速器互連協議，液冷基礎設施層面的規范，以及軟件棧的整合經驗等。

“這個AI超集群最大的特點，就是多元化和包容化”，杜夏威說道。在他看來，異構并非局限地理解為把多個品牌揉在一個系統下，而是尋找大家在整個系統化工程中擅長的部分，嘗試通過深度合作來形成對產業的良好支撐。

而曙光能成為開放架構號召人的角色，正源自其多年來的實驗積累。

中科曙光高級副總裁李斌說道，過去十年，中科曙光建設了20多個大規模算力集群，累計部署超50萬張異構加速卡。從大型機到集群，從小規模算力到超大規模算力系統，曙光在產業鏈各層級的沉淀，令其足以起串聯上下游。

這種串聯，一方面能讓各個環節的算力公司不再“重復造輪子”，減少為多種不同架構重復研發的無效過程；另一方面，也能在當前國內算力供需匹配不足的情況下，有效整合起分散的算力資源。

不過，讓算力資源有效運轉的條件之一，是要保障集群能長久穩定地基礎運營。為此，曙光做的準備遠不止這些。

做好模型訓練中的“臟活累活”

智博會上，中科曙光展臺正中間立著AI超集群產品，其存儲、液冷、生態等板塊的細分展區分布四周，將其簇擁其中。

據介紹，這套AI超集群千卡集群大模型訓推性能達到業界主流水平的2.3倍，其完善的工具鏈和軟件棧能把開發效率提升4倍，人力和時間投入降低70%。

GPU時代對軟硬件的協同優化提出更高要求，杜夏威說道，曙光的這套架構，也涵蓋了資源運管調度、下層并行化等策略，以及專家并行、PD分離等技術，確保底層算力高效發揮。同時，也對底層通信庫、算子庫進行優化，能做到以軟件棧的形態交付服務。

而在存算方面，曙光也提出了“以存提算”、存算一體，通過Burstbuffer數據緩存的使用，結合超級隧道降低交互，保障數據IO以及傳輸有自己高效的專屬通道，讓GPU算力效能增加了55%。

此外，那些在大模型時代發展早期被有意回避的“臟活累活”——提高穩定性、減少故障率、縮短故障恢復時間——反而成了曙光新品的亮眼名片：

在曙光的這套新集群中，其平均無故障時間（MTBF）提高了2.1倍，平均故障修復時間（MTTR）降低到原來的47%等。“把不影響原有業務運轉的故障替換技術，逐步釋放到整個AI超集群中”，是曙光下一步發展的目標。

高溫，也是大集群穩定運行的一大克星。一般來說，芯片工作溫度每升高10度，失效率就會翻倍。曙光數創CTO張鵬算了這樣一筆賬：目前，曙光通過液冷能做到PUE 1.04，相當于每帶走100個單位的熱量，只需額外花費4個單位的能量；而以往風冷的能量比效率只是1:1，相比起來，液冷的能耗節省非常明顯。

不過，在冷板、浸沒、噴淋三大液冷路線中，冷板雖先行落地成為主流，但面對目前已達1000w級GPU運行時的“熱浪”，已有些捉襟見肘。

要讓芯片算力得以充分釋放，下一扇需要開啟的門是“浸沒”。而曙光已經率先握住了這把鑰匙。

中科曙光在展會現場展出的相變浸沒液冷設備，令雷峰網印象深刻——

透過玻璃視窗，可以看到8塊GPU和2塊CPU浸泡在無色液體中。細密的氣泡從芯片上覆蓋而過，旋即升騰、折向右側，形成穩定而精確的“蒸汽軌道”。

據現場工作人員介紹，這些特殊液體的沸騰溫度僅在50度左右，遠低于芯片運行時80-90度的工作溫度。于是，在持續的沸騰中，熱量便被汽化的小氣泡裹挾帶走、隨后消散。

國產算力公司「各自為戰」，曙光如何打通協作壁壘？曙光展出的相變浸沒液冷設備，攝：雷峰網(公眾號：雷峰網)李想