當大模型升級速度變緩，AI Infra 創業還是一門「好生意」嗎？

本文作者：朱可軒

2024-11-09 20:24

導語：AI Infra 格局呈現兩個極端：海外被巨頭壟斷，而國內則過于分散。

作者丨朱可軒

編輯丨陳彩嫻

時至今日，如果說清華系撐起了中國大模型創業的半壁江山，那 AI Infra 這條賽道絕對是清華系「上陣師徒兵」的又一波創業豪賭：

媒體所實驗室孵化的清昴智能、高性能計算機研究中心牽頭的清程極智、NICS-EFC 實驗室孕育出的無問芯穹......AI Infra 賽道的明星創企幾乎都來自清華各大實驗室，而硅基流動和潞晨科技的創始人袁進輝和尤洋也均屬「清華代表隊」。

當前，在這層創業要解決的問題也比較明確，主要就是面向上下游，把各類模型同芯片深度適配，一方面減少算力資源閑置現象，另一方面則實現模型應用的提速降本。

不過，作為中間層，模型、應用和硬件層正處在瞬息萬變之間，這意味著 AI Infra 的突破方向也在隨之調整，值此之際，該方向的創業也不斷面臨質疑和些許陣痛，例如：

創業公司做 MaaS 平臺會不會面臨壓力？
訓推一體機究竟是不是偽命題？
海內外需要的基礎設施有何差異？
國產算力的軟件生態需要怎樣的突破口？
異構混訓是長遠方向嗎？
……

這些問題的背后關系著創業最終能走多遠，而不同的團隊顯然有著不同的預判。

在這條尚處探索期的賽道中，孰對孰錯還尚未可知，那么各家能否在此之中找尋到真正的商機呢？

推理究竟如何布局？

去年年底開始，大模型的發展重心變開始逐步從訓練轉向推理，而繼 OpenAI 發布 o1 大模型后，大模型的 Scaling Law 從訓練轉向推理的趨勢也更加明顯。

不過，在業內看來，目前哪怕是 o1 這種閉源模型，半年后，其能力也能被開源模型陸續趕上。而隨著模型的能力逐漸達到相對滿意的程度，訓練廠商減少和萎縮是必然發生的趨勢，此后，應用落地才是箭在弦上的問題，而其中最關鍵的核心便是推理成本。

推理需求爆發是必然趨勢，據預測，整個推理成本未來三年，每年都做到十倍降本是可行且會發生的事情。當前，推理優化部署無疑成為讓大模型好用的關鍵一環，隨之而來的還有巨大的算力缺口。

不過，盡管海內外 AI Infra 創企都看到了推理側的機遇，在具體布局上卻有著些許分歧，比如在打造 MaaS 平臺這一趨向上。

由于模型每天的調用量是海量的，如果不優化一年將花費巨大，所以應用方要實際用起來的話，還是需要找可靠性較高的彈性服務，通過在底層更快部署來合理運用算力以節省成本，創業的價值也在于此。

簡單來講，MaaS 這條路徑的思維就是將模型要部署到云上，過程中平臺不訓練模型，而是變成 API 再集成，只負責最終的工程化實現，更多地專注在計算調度方面，主打提高成本、穩定性、可用性。

不過，對此，潞晨科技創始人尤洋曾向 AI 科技評論表達過些許顧慮。在他的觀點中，通過 MaaS 平臺賣大模型 API 實際上是在和通用大模型公司競爭，創業公司將很難吃到「蛋糕」。

于是，潞晨入局了視頻大模型，除了年初發布全面開源的 Open-Sora 外，今年 10 月，其還發布了 Video Ocean 視頻大模型，正式走向商業化。尤洋堅持認為，如果不做自己的優質大模型，推理平臺上沒有優質資源。

這步棋下得和 Together.AI 其實有些異曲同工之妙，去年 5 月， Together.AI 也曾發布過類 ChatGPT 開源模型 RedPajama-INCITE。

目前，從海外各家廠商的情況來看，他們似乎對于做 MaaS 的壓力也有些許感觸。Lepton.AI、Fireworks 都在布局 Together.AI、CoreWeave 的方向，而后者的核心收入基本都是 IaaS 收入。

有知情人士向 AI 科技評論透露，Fireworks 比較猶豫，之前說要做 MaaS 平臺，現在估計覺得這種方式會直接和 ChatGPT、Anthropic 競爭，壓力對于基礎設施公司來講太大了。

而 Lepton.AI 最開始主要聚焦的其實是 PaaS 和 MaaS，今年 5 月，其新上線了 FastGPU，這時旗下的 IaaS 業務才逐步開始入場。

「推理平臺要和 ChatGPT 競爭很難，因為這類平臺的優質資源是模型本身，而訓練微調平臺只需要和 CoreWeave、Lambda Labs 競爭，并且作為優質資源的 GPU 肯定能買到。」業內人士曾向 AI 科技評論分析。

值得一提的是，據 AI 科技評論了解，Together.AI 同 Lepton.AI 和 Fireworks 相比完全是自己的 GPU，這種方式相較于使用他人的硬件和云，然后在上層疊加模型服務部分，利潤空間其實會更大。

除此之外，一位 AI Infra 創業者也曾告訴 AI 科技評論，在 AI Infra 這一層創業，其實硬件也要自己做，光做軟件長期可能站不住，技術再好也不能沒有底層基礎設施。

從布局上來看，無問芯穹也有著相似的感知：

今年來，無問芯穹開始布局端側大模型推理處理器 LPU，計劃以 IP 的形式和合作伙伴做聯合芯片發布，并在明年開始落地嘗試。

在無問芯穹的思考中，大模型作為一個人機交互的接口，本身非常大，所以對于端上這部分的場景有很大的需求量，而固化到硬件層面也有很強烈的需求。所以在端上的大模型推理，大模型落地的硬件是一定會被大量需求的。

「無問芯穹如果能把自己的推理卡做好，有這樣的背景，就可以通過芯片層去變現，感覺這是他們在思考的事情。」業內人士在和 AI 科技評論交談時曾有提及。

不過，和前述顧慮相比，部分創業者的想法還是偏向樂觀的。他們認為，除了自身并不局限于 MaaS 這一種形式外，就算是做 MaaS 和通用大模型公司有競爭也是實屬正常。

從當前情況來看，即使 OpenAI 一年創收十幾億美金，但大模型應用的需求依舊處于非常初期的階段，未來，大模型應用必然會起量，大模型將無處不在，形成非常基礎的能力，成本也會降得很低。

待到那時，跑大模型或者 AIGC 推理需要的將會是百萬甚至千萬張，就像每人一部手機的時代，需求量會變得非常巨大。而這樣一個足夠大的市場之中，同一個細分市場也能容下好幾家廠商。

除了云平臺外，私有化部署在國內呼聲也逐日走高。

在這一趨勢的洞察之下，硅基流動、潞晨科技和清昴智能紛紛選擇了訓推一體機的交付路徑，這也和當前市場內大多數頭部玩家的走向一致。

從尤洋的判斷中看，潞晨科技布局訓推一體機主要針對的是 Post-training（后訓練）這一層，面向的大部分傳統行業客戶目前并沒有采用大規模集群，最多買了千卡。

但并非所有玩家都做此選擇，也有觀點認為，訓推一體機為了兼顧訓練和推理，可能會出現顧此失彼的情況，這不會是長期走向。

清程極智創始人湯雄超就覺得，訓推一體機實際上并不契合訓練的算力需求，「訓練和推理兩種業務間區別較大，很難想象一個較小的一體機能承載大的訓練業務，現在大模型預訓練可能都是萬卡以上的規模，只能在大規模智算集群上完成。」

需要關注的是，面向推理，端側對于中間層而言也有著很大的想象空間。

除了前文提到過的無問芯穹外，清昴智能也已有所布局，與許多同行從云切入有所不同，其最初便從端側切入，也曾和手機上的高通、驍龍芯片，寒武紀、比特大陸等都進行過適配。

當前，手機、電腦、車均開始逐步有了落地場景，但卻存在因模型太大而放不到端側的情況，這時就需要把大模型變成 1B、7B 的小模型。

中國比美國應用場景更多，而端側把性能、成本、功耗做到極致則非常關鍵。未來，端側軟件的作用也會愈發凸顯。

夾縫中能否覓得商機？

在海外，軟件層創業似乎相對國內更容易：首先，海外市場有一套成熟的訂閱軟件付費方法，其次，由于英偉達統一了市場，基于英偉達去做會更簡單。

中美市場存在些許差異，在應用的多樣性上雙方是類似的，都要去支持不同應用，比較大的區別在于對底層芯片的支持，海外主要由英偉達和 AMD 瓜分天下，需要適配的芯片較少，創業可能相對國內好做。

不過，從另外一個角度來看，海外市場反而也會因為有巨頭的存在，必要性不太強，國內芯片廠商長期來說還會處于分散的狀態，這種情況下，對不同國產芯片的支持就顯得比較重要。

有業內人士曾向 AI 科技評論分析過，在海外像 Coreweave、Lambda Labs 這樣的小型云其實是有機會的，不過，現階段附加值有限，即便是 Coreweave 都有些像是英偉達的「白手套」。

另外，海外一切以 GPU 為核心，產業鏈的核心定價權都由能否拿到足夠多的卡來決定，以規模為核心。很多創業公司甚至沒法獲得「白手套」的身份，且做的也僅僅是資產租賃生意，有短期的紅利，但不是長期事業。

目前來看，海內外走向兩個極端，海外被巨頭壟斷，而國內則過于分散。國內的芯片格局有些類似于「戰國時代」，各家都在爭奪技術高地。

一方面，芯片設計中不同的處理器架構和指令集設計會直接影響芯片性能和效率，盡管大體上設計理念和架構相近，但在具體實現和芯片制造過程中，各廠商的技術路線與細節處理上存在差異，這造成了芯片性能和兼容性等方面的區別。

另一方面，雖然在芯片設計及前端的 IC 設計環節已取得一定進展，但芯片生產制造以及配套軟件生態的建設相對較弱，尤其是軟件開發方面的投入相較于硬件設計來說還有待加強，這就導致了芯片碎片化問題較為嚴重。

據 AI 科技評論了解，目前英偉達的軟件占比在 2: 1，而國內甚至還不到 1: 2，因為國內廠商主要還在跑產能，保證交貨量，軟件生態肯定相對來講要弱一些。

同時，國內算力其實并非不夠，反而是太多了，問題關鍵在于「富裕但不匹配」，真正能用于大模型訓練的集群不夠集中和規模化。

國內有約十多萬張 A100 和 H100，但配有萬卡集群的只有頭部三四個玩家，這些卡中超半數屬于頭部大廠，但大廠卻因集群不是一個業務部門獨占，導致無法集中使用算力，而剩下一部分則分散在三五百家不同的中小型企業、園區及金融機構中。

算力分散化導致大量算力未集中用于大模型訓練，不僅造成了算力資源閑置，也限制了國產算力資源能力的發揮。

當前業內多有提及的 GPU 泡沫或者說算力通縮現象也是正在發生的事實，這種情況下，國內大量自建算力中心自持資產則顯得不一定理智。

有業者曾向 AI 科技評論分析，由于 GPU 性能提升和迭代速度遠高于 CPU，所以 GPU 的整個貶值速度或者攤銷的時間必須更短，但國內許多智算中心動輒 5 年、8 年時間攤銷，這種現象顯然不合理，CPU 最多也就 5 年攤銷。

這些問題也恰好為 AI Infra 創業帶來了空間——

無問芯穹是國內少數選擇了異構混訓這條路徑的創企，主要通過異構多種 GPU 卡來同時混訓一個大模型，地方政府、大模型廠商和偏研究型的單位都有這方面需求。

在無問芯穹創始人夏立雪看來，「異構混訓的難點主要在于，不同能力、背景的員工怎樣一起做一個大任務，其中會存在 GPU 性能如何預測，任務怎樣拆分、分配讓硬件各司其職，同時，怎樣在通信上實現較好地協調以及打通通信庫等多種問題。」

據了解，目前，英偉達加上國產卡 1+1 混訓，無問芯穹共有六種芯片，任意兩種都能組合訓練，在百卡和千卡這個級別都已經完成混訓，整體效率達到 97.6%。

不過，GPU 異構真的是長久之計嗎？長期來看這類解決方案究竟能走多遠呢？

業內多有觀點認為，異構是芯片產能不足現狀下的妥協。更甚者，有較為尖銳的聲音直指，「在異構的或者在不同品牌的芯片上去做一個統一的訓練平臺是個偽命題，是不存在且沒必要去做的方向。」

在實際的訓練場景里，如若采用不同的芯片架構去做異構訓練，其中的性能損耗較大，整體上來說效率和性價比均無法匹敵單一型號 GPU 的同構集群，很難發揮硬件的底層算力性能。

即便都是英偉達的芯片，將 A100、H100 混用也會帶來每層之間的訓練參數、能力之間的巨大差異，最后會導致這些 Bottleneck 影響到訓練的效果。

因為訓練是一個集中式的過程，其實有點像一個超級計算機，每一層的中間過程都會影響到性能發揮，所以在單一集群里混用多種芯片做訓練實際上必要性不大。

從超算的更迭趨勢上來看，也不存在同一超算中心放不同型號加速卡的情況。所以，隨著國產芯片產能的提升，最終智算中心會回歸到以往比較偏同構的基礎架構里，因為單一方式是最高效的解決方案。

此外，推理更沒必要異構，因為推理基本上把模型部署在單臺機器或者一個小集群上，即使是商業閉源模型也都部署在 16 卡、 32 卡的小集群上，因此，每個集群本身僅需保證集群內卡型一致。

而如若能夠兼容多種不同類型的芯片，不同集群使用不同芯片跑，就可以將推理變成一個分布式的任務，這也是 PPIO 派歐云看好分布式推理的原因之一。

「在這個過程中更重要的事情就是調度，因為可能 A 集群性能最強，任務很快就處理完了，B 集群 Transformer 還在過程中，那下一個任務要優先調給 A 還是 B，其實是任務調度和資源池化管理任務分配的話題。」PPIO 派歐云聯合創始人、CEO 姚欣曾向 AI 科技評論解釋。

超越云廠

過往，關于創業 AI Infra 到底會不會和云廠產生正面沖突，也是被提及最多的疑問之一。二者看似存在諸多相似之處，那大家為何不選擇體系更為成熟的云廠呢？

對此，也有許多業者向 AI 科技評論表達了自己的見解。從結論中綜合看來，大部分觀點其實都指向與云廠相比存在差異，這也是創企有著同云廠友好協作空間的原因所在：

一是，云廠過去解決的問題跟現在要解決的問題并不完全相同，甚至是相對的兩個方向，云廠基本從資源池化和共享的角度切入，而當前要解決的難題在于分布式的資源合并；

二是，云廠商都是做后端、做前端、網絡管理、調度的人才，AI 人才較為缺乏，事實上很難對國產芯片做適配。

但也有不同的聲音認為，「不管是美國的大模型公司，還是中國六小龍，其實都要建自己的基礎設施，不然就是被云廠服務，創業公司很難切到這部分蛋糕。」

總體上來看，如今，AI Infra 的重要性是不言而喻的。而在大模型的這一波浪潮中許多創企也正在摸索更合適的業務方向，正因為此，可以明顯感知到業內的觀點在不斷碰撞摩擦。

火星四濺之下，無論是會否和通用大模型公司抑或是其他云大廠競爭，還是說一體機和異構是否為長久之計，要解決的底層關鍵都是國產算力問題，而對于當前階段而言，不管從哪個方向切入或許都會是調優路上的有益嘗試。雷峰網雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

朱可軒

編輯

發私信

當月熱門文章