0
| 本文作者: 劉伊倫 | 2026-03-30 10:46 |
當AI產業從模型能力競爭逐步轉向規模化應用競爭,圍繞“Token推理效率”進行系統性優化成為行業的核心命題。
“隨著智能體、AI Coding等應用的爆發式增長,Token消耗量呈百倍、千倍級躍升,2026年已成為名副其實的‘Token爆發元年’。AI產業的核心關注焦點,正從模型參數規模、模型可用性全面轉向穩定、低成本、高質量交付的Token產能。”鄭緯民院士表示。

但與此同時,國內算力利用率正深陷結構性困境。
首先,資源配比嚴重失衡,Token生成過度綁定GPU,高端內存、集群SSD、IB互聯等昂貴閑置資源利用率不足10%,整機綜合利用率不及20%,造成巨額智算成本空耗。
軟硬協同樣存在短板,硬件算力持續迭代,但軟件優化與分布式并行組合穩定性不足,超80%理論算力被浪費,粗放調度又隱形損耗超50%算力。
面對大量行業痛點,雷峰網(公眾號:雷峰網)獲悉,3月27日2026中關村論壇期間,趨境科技發布全新一代AI推理平臺——趨境ATaaS高效能AI Token生產服務平臺(Approaching.AI Token as a Service),為破解算力投入與Token產出失衡難題提供了系統性解決方案。
這一產品落地,也折射出AI基礎設施產業的演進趨勢:行業競爭不再單純比拼算力規模,而是轉向綜合衡量Token生產核心指標,涵蓋首包響應時延(TTFT)、Token吞吐效率(TPS)與全域資源利用率等關鍵維度。
那么,趨境ATaaS通過哪些底層技術優化,破解行業算力利用的結構性矛盾?又將如何通過生態共建,系統性打通產業割裂痛點?
萬億Token穩態產出、GPU開銷直降 90%,TaaS平臺重構智算底座
過去兩年,行業焦點高度集中在基礎模型競賽:各家瘋狂堆疊參數、沖刺榜單、追逐SOTA性能,模型廠商一度成為資本追捧的熱點。
但隨著產業主線從大模型訓練轉向規模化落地應用,深層供需失衡開始顯性暴露:個人重度使用“小龍蝦”等AI智能體單日Token成本可達千元,服務供給端卻深陷虧損經營,大量智算資源長期低效空轉、得不到合理利用。
TaaS成為調和產業矛盾、重構Token生產效率的核心解法,為行業打通降本、提效、提質的關鍵通路。
對此,鄭緯民院士錨定產業趨勢,明確了TaaS落地演進的三大核心技術底座:一是全系統異構協同,通過將不同計算任務合理分配至GPU、CPU、內存和SSD,打破算力瓶頸;二是存算協同實現“以存換算”,通過前置KV Cache等技術,大幅降低重復計算量,提升推理效率;三是面向SLO的智能調度,精準地將用戶業務需求“翻譯”為底層資源決策。
立足這套底層技術邏輯,趨境ATaaS平臺以極致高效能Token生產為核心錨點,可承載萬級并發AI推理業務,支撐集群實現日均萬億級穩態Token產出落地。

作為全球首創的大模型計算邏輯重構技術,異構推理2.0技術“六合”深度融合CPU與GPU、國產及非國產異構算力,實現任務智能分流,能將萬卡級智算集群運營成本壓降20%以上。
以存換算2.0“月餅”,憑借超體量KV Cache緩存技術,將存儲空間拓展百倍至千倍,最高實現90%緩存命中率,直接削減90%的GPU算力開銷。
“雙儀”虛實同構技術,依托算子級SLO仿真能力,完成算力資源智能預規劃與動態調優,精準切分異構算力,讓萬卡級集群硬件綜合利用率實現數倍提升。
“萬象”極致彈性技術,則打通了規模化量產的最后一道壁壘,支持萬億參數大模型7秒極速拉起、動態配置變更,以及數百節點超大規模EP彈性調度,為萬卡級集群高性能橫向擴展筑牢根基。
趨境ATaaS平臺的發布為AI基礎設施的建設和運營提供了新的思路和行業標準,使每單位算力和能耗投入都能夠數倍轉化為更穩定、更可衡量的Token價值產出,更標志著AI基礎設施發展焦點從單純的算力規模競爭,轉向對Token生產效率的綜合衡量,推動算力基礎設施從“數據中心”向“Token工廠”全面演進。

集群性能翻倍背后:TaaS生態協同「重寫」Token經濟學
面對國產推理基礎設施“可用”與“好用”之間的鴻溝,技術優化之外,生態協同的緊迫性正在凸顯。
從底層硬件廠商,到模型廠商,再到最貼近終端用戶的云服務平臺,趨境ATaaS平臺正逐步嵌入產業鏈的每一個關鍵環節,以生態協同模式發揮聚合效應,推動國產AI推理基礎設施的發展。
華為昇騰計算業務副總裁、首席產品規劃師葉耀榮表示,趨境與昇騰展開了全方位的技術和商業化合作,部分項目中在昇騰AI集群上實現了2倍以上性能提升。
九源智能計算系統生態聯合體副秘書長王豪杰表示,Token時代競爭轉向單位成本產出,國產卡面臨“生態驅動”困局。九源聯合體打造國產智能計算生態,全國產化方案適配多款GPU、串行代碼高效并行的九源領域編程語言“九齒”、支撐Mooncake推理加速系統、基于國產芯片的高效智能體,并與KTransformers等框架深度聯動。
云上算力服務的深度融合同樣是破局關鍵。
并行科技董事長陳健表示,并行MaaS服務得到趨境科技的大力支持,雙方合作將高質量Token的生產成本大幅優化,并將特定場景下的集群性能提升50%,共同為智譜、Kimi、MiniMax、DeepSeek等頭部大模型客戶提供優質服務。
京東云同樣與趨境科技達成合作,雙方聯合打造推理引擎,推動Mooncake開源生態發展。

基于一系列產業實踐,行業各方進一步沉淀形成三大共識。
首先,軟硬深度協同是釋放國產算力潛能的關鍵,需通過系統級優化彌合硬件性能與業務需求之間的鴻溝。
生態統一與標準建設同樣至關重要,打破“百花齊放”帶來的適配難題,才能實現規模化應用。
最后,人才培養是產業根基,需通過開源社區、技術競賽等方式,培育兼具理論與工程能力的AI Infra人才。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。