0

作者 | 李梅
編輯 | 岑峰
在魔都的東南角臨港新片區,商湯科技人工智能計算中心AIDC在2022年啟動運營,樓宇俯瞰宛若芯片。自ChatGPT以來,國內各家對大模型的追逐馬不停蹄,繼百度「文心一言」、阿里「通義千言」之后,昨日下午,商湯終于在AIDC亮相了其自研千億參數中文語言大模型——「商量 SenseChat」。
而商湯這次拿出的,不止一個類ChatGPT。在技術交流日現場,商湯科技CEO徐立展示了商湯「日日新 SenseNova」大模型研發體系,以及文生圖、數字人視頻生成、3D內容生成等一系列AIGC應用,演示期間驚嘆和掌聲此起彼伏。
商湯科技CEO徐立展示「日日新」大模型體系
回過頭看商湯在過去幾年大模型研發和算力基礎設施上的積累,觀賽者們驚覺:在這一波大模型的競技場上,商湯原來早有準備,出場迅速,且武藝絕佳。
—— 01 ——
商湯,出場
「茍日新、日日新、又日新」,這句話出自《禮記·大學》中湯之《盤銘》,也是商湯「日日新SenseNova」大模型體系的取名由來,承載了今天我們對大模型快速迭代、走向通用人工智能(AGI)的期待。
目前,商湯已經打造了視覺、自然語言、AIGC多個方向的AI大模型,正在以多模態大模型結合決策智能大模型為起點朝AGI走去。

在商湯這次推出的大模型體系中,備受關注的當是語言大模型「商量」,它的口號是「商量商量,都能解決」。
「商量」一名,實際上點出了ChatGPT類模型的核心,即用戶在多輪對話中,通過Prompt「魔法」調教,挖掘大模型解決問題的能力。
在現場,徐立向我們演示了如何與「商量」商量商量。在邏輯推演、語言理解的廣度和深度,以及知識的自動及時更新等方面,「商量」的表現都令人印象深刻。
你可以和「商量」互動創作一個故事,過程中用合適的Prompt能引導它講故事的走向:


對于數學推理題,「商量」也能回答得有理有據:

除了通用的對話能力,商湯還基于語言大模型打造了PDF文件閱讀助手、AI代碼助手、健康咨詢助手等工具。
其中AI代碼助手能提供代碼補全、注釋生成代碼、測試代碼生成、代碼翻譯、代碼修正、代碼重構、復雜度分析等功能。據內部測試,使用AI代碼助手的編程效率可提高62%,未來程序員們可以減少枯燥的重復性工作、專注創造性編程了。

基于「日日新」大模型體系,商湯此次還發布了一系列的AIGC模型及應用,包括:
文生圖創作平臺「秒畫 SenseMirage」、數字人視頻生成平臺「如影SenseAvatar」、3D內容生成平臺「瓊宇 SenseSpace」/「格物 SenseThings」等。 這些應用不僅名字取得典雅而不失貼切,而且其AI生成能力都十分驚艷。

使用「秒畫」,基于單卡A100支持,2秒就能獲得一張512K分辨率的圖片,而且光影真實、細節豐富、風格多變:
一只戴著珍珠耳環的鸚鵡,維米爾風格,12K,高畫質,高清,Octane Render

古代中國,唐朝,山峰,河流,夜晚,滿月,螢火蟲,石橋,超現實,cg渲染,高度細致,華麗,榮耀,史詩,電影感

令人驚嘆的史詩中國古代主題,飛龍,巨大,恐高癥,青白色薄荷,山脈,云朵,全景,極端全景,中國墨水風格。藝術風格,動態,電影,令人驚嘆,逼真的明暗處理,生動,充滿活力,8k,辛烷值渲染,不真實,高度細致,概念藝術

更令人稱奇的是,只需要20張訓練圖片,人人都能在5分鐘內定制屬于自己的LoRA模型。比如當你使用想生成「80年代港風」女子人像,但結果并不理想時,就可以上傳20張風格更為貼近的圖片,經過幾步點擊后得到新的LoRA模型。這時再輸入相同的Prompt,生成的圖像風格相似度就會顯著提升。

上行圖片由自訓練LoRA模型生成
在數字人視頻生成平臺上,只需要5分鐘的真人視頻,你就可以用「如影」制作自己的數字人分身,聲音動作自然、口型準確,還能說多語語言。這在短視頻、電商直播、教育等領域都大有用武之地。

借助「瓊宇」和「格物」,用戶則可以更高效、低成本地生成三維場景和精細化物件,元宇宙觸手可及。
其中,「瓊宇」專注于復刻和還原真實空間,其空間重建生成能力可達大城市級尺度,100平方公里的空間也不在話下。傳統人工建模10000人/天的建模任務,通過瓊宇只需要2天就能完成。

「格物」支持物體3D內容生成,使用它來復刻還原物體的光照、材質細節,效率相比傳統建模能提升400%。

—— 02 ——
從視覺走向多模態
超大規模神經網絡的能力「涌現」,是一種發現而非發明。ChatGPT演示了AI大模型的能力,建立了人們對大模型實現通用人工智能(AGI)潛力的共識,也掀起了AIGC淘金熱。
對商湯而言,ChatGPT則印證了:過去幾年,商湯做對了。
在國內群雄逐鹿AI大模型的當下,商湯在其中究竟扮演了怎樣的角色?雷峰網的觀點是,各家有各家的位置。商湯的位置已經清晰:
一是「日日新SenseNova」大模型體系以CV、NLP、AIGC等為核心,目標打造多模態大模型、最終通向AGI;
二是擁有業內稀缺的大模型專業基礎設施SenseCore AI大裝置;
三是以「大模型+大裝置」的路線在業務和行業落地。
自2018年起,商湯便在往通用模型的方向走,在2019年預見性地儲備了1000張GPU。10億參數的圖像大模型就是2019年發布,在之后的招股書中,商湯更是把AI大模型的布局寫了進去。到2022年,商湯訓練出了320億參數的通用視覺大模型,是迄今全球最大的通用視覺模型,在目標檢測、圖像分布、多物體識別等任務上取得了非常好的性能。
2021年,商湯也啟動了語言大模型的訓練,并在NLP頂級賽事中拿下過多個第一。最近則調動資源火速訓練出了1800億參數的中文語言大模型「商量SenseChat」,已經開始和客戶對接測試。
多模態方面,商湯在今年三月開源了30億參數的「書生2.5」大模型,具備很強的圖文跨模態開放任務處理能力,而且是目前全球開源模型中ImageNet準確度最高、規模最大、物體檢測標桿數據集COCO中唯一超過65.0 mAP的模型。
這種依托領先的視覺技術優勢,逐步向多模態拓展的技術路線,既是視覺AI領跑者商湯的必然選擇,也在技術層面有著邏輯合理性。
視覺是人類獲取周遭世界信息的最主要渠道,五感中大約有80%的信息都是以肉眼獲取的。另外,視覺信息也在互聯網數據分布中占很高的比例,據統計,若爬取整個互聯網的文本數據,經過數據清洗后得到的只有不到10個T,而已有的圖像公開數據集中最大的包含50億張圖像,大小約240T,所謂「一圖勝千言」,AI要處理的視覺信息遠比文本信息要多得多。所以,在視覺與語言信息具有互通性的前提下,以視覺為起點去擴展大模型的其他能力如語言、代碼、數學等,符合人類理解世界的方式。
還有很重要的一點是,以ChatGPT為代表的語言大模型其核心并不在于「語言」,而在于作為一種新方法的「大模型」。在這一波語言大模型浪潮中,為什么原本做NLP的一批公司并未如預想的那樣崛起,反而有的還「倒」在了大模型的腳下?就是因為通用大模型基于深度學習和超大規模神經網絡(Transformer為代表),把這些公司原本在傳統NLP技術上的競爭優勢給無情抹平了。
所以,基于對大模型、大裝置領域的長期積累,以及基礎設施投入,讓商湯在短時間內交出了千億級別的語言大模型,并確立了完整的商湯日日新大模型體系。
在商湯看來,多模態大模型是通往AGI的光明之路。如果以人的受教育程度來衡量大模型的智能水平,GPT-4目前已能媲美90%以上的大學生。讓大模型能夠「考上大學」、「通修全科」,這也是商湯的AGI愿景。
—— 03 ——
算力的長跑
大模型非一日之功,大算力更非一天能建成。大模型浪潮掀起,但入局者大多面臨著算力之困:許多下場的企業并沒有足夠的算力儲備;英偉達A100和A800仍是訓練大模型的最優選,國產芯片目前還僅能去做小模型和中模型的訓練和推理,在大模型上性價比沒那么高。
真正能夠馬上提供足夠算力支持的沒有幾家,商湯就是其中一個。支持商湯大模型訓練的SenseCore AI大裝置目前擁有2.7萬塊GPU,是亞洲最大的智算中心之一。其輸出的算力十分驚人:
峰值算力高達5000Petaflops;可以并行訓練20個以上的ChatGPT類模型;1750億參數的GPT-3在AIDC一天就能完成1次訓練。

商湯臨港智算中心AIDC商湯之所以能在這一波迅速入局,一個重要原因是商湯很早意識到算力的重要性并有長期布局。
商湯科技CEO徐立提出,AGI時代的大模型新公式是:大模型參數量×處理的數據量=計算量。其中,大模型參數量的指數級增長對算力的需求無需多言,商湯對大算力的預見性還在于多模態數據方面,這種預見很自然地發生在商湯的視覺模型研發經驗中。
一個對比是,由于視覺數據的數量、質量和信息容量上都比語言數據要大得多,視覺模型對算力的消耗相當于語言模型的10倍。商湯在2019年訓練出的10億參數視覺模型,實際上就要求有支撐100億語言模型訓練的算力,這促使商湯很早就開始了算力長跑。
不過,高算力并不是簡單地堆砌大量GPU卡就能實現,而是需要一個有強大系統設計的超大規模訓練集群,因為大模型的計算量是GPU數量、并行效率、運行時間三者的乘積。這當中,并行效率和運行時間是兩個技術關鍵,商湯大裝置在這兩個方面已經造就了工程奇跡。
一是并行效率非常高。從1千卡級到3、4千卡級,再到1萬張卡級大規模集群的部署,訓練集群的規模會有可預見的增長,但大模型訓練的并行效率才決定了實際算力。如果系統效率低下,1萬張卡相比1千張卡的訓練效率只能提高2倍,經濟上很不劃算。現在商湯大裝置在千卡級已經達到90%以上的線性度,能夠以最大4千卡的規模集群進行單任務訓練。
事實上,商湯很早就奠定了強大的系統和架構能力。19年商湯曾創造一個記錄,實現了全球最快的AlexNet訓練速度,當時已具備并行計算上千塊GPU的能力,這是很罕見的。
二是系統穩定性極強,目前可以做到7天以上不間斷的穩定訓練。商湯科技聯合創始人、大裝置事業群副總裁陳宇恒介紹,每天每1千張GPU中,約有1張卡會出現故障,那么有1萬張卡的時候,每天的故障率會更多,估計下來,平均無故障時間可能就只有一兩個小時,這樣的系統是沒法使用的。
商湯從硬件的可靠性到軟件的容錯度都實現了良好的設計,7天,實際上是非常了不起的,即使是背靠微軟Azure的OpenAI也望塵莫及,據官方公布,OpenAI訓練模型時兩三天就可能斷一次點。
—— 04 ——
「大模型+大裝置」雙輪落地
商湯一次性推出大模型體系和多個生成式AI應用,向業界表明,商湯大模型的技術與落地是在同時進行的。
從數十億參數級的大模型開始,在每一次的迭代中,商湯都將大模型用在實際的產品和行業中,構建用戶反饋的閉環。通過飛輪效應,一方面把模型越做越大,另一方面把模型越做越有用,而非一步登天地做出一個萬億級模型、卻無法在真實場景中落地。
這種更為平滑的路線,適合商湯自身,也向行業釋放了大模型的生產力。
如今,商湯的產品體系和技術體系,都可以依托大模型去做支撐。「日日新」大模型體系已經深度結合在商湯的智能汽車、智慧生活、智慧商業、智慧城市四大業務板塊中。
比如在自動駕駛方面,商湯已通過視覺大模型解決了邁向L3、 L4商用級過程之中的至少兩個痛點。一是把視覺大模型用作一個過濾器和半自動標注的機器人,去進行數據的篩選和預標注,能提高4倍的效率。二是視覺大模型能避免數據遺忘,有非常強的泛化能力,因此能解決傳統小模型無能為力的Corner Case(邊緣場景)問題。
另外在生物醫藥領域,商湯去年與生物企業合作,通過AI大裝置為蛋白質結構大模型提供推理算力,把推理時間縮短了60倍,只需要數分鐘就能得到蛋白質結構預測結果。

同時,商湯還通過大裝置AI云將大模型的能力輸出到了各個行業和場景中。
關于大模型的行業落地,最近很熱的一個概念是「模型即服務」(Model as a Service,MaaS )。在商湯看來,MaaS只是AI大模型商業化、產品化的其中一個模式,人工智能即服務(AI as a service,AIaaS)是一個包含更廣的概念。2022年,商湯AIDC開啟商業化,將AI能力移植上云,在包括MaaS在內的各個層面都提供了不同服務和商業模式的方向:
?在計算基礎設施服務層(IaaS),提供AI專用的算力存儲網絡服務,輸出大算力。
?在平臺層(PaaS):既提供多種MaaS服務,包括自動化數據標注平臺「商湯明眸SenseAnnotation」、自定義大模型訓練、模型增量訓練、模型推理部署、開發效率提升等,同時也開放API接口,支持自由調用「日日新」大模型的各項AI技術能力。
這一套服務在商業化上是很成功的。數據顯示,目前大裝置已經服務8家客戶訓練大模型,總共提供了7000多張GPU卡,支持了超過10個大模型訓練項目。在收入方面,大裝置的對外服務收入占到了整個智慧商業板塊收入的20%,AlaaS收入約2.93億元。
如今的商湯已經進入無人之境。在算力基礎設施層面,如何將上萬塊的計算卡與低延遲、高穩定、高吞吐的方式去互聯,完成超大規模訓練任務,是商湯接下來要應對的挑戰。在大模型技術層面,未來怎樣通過端云的配合完成大模型的應用閉環,也是一個長期命題。AGI的征途還很遠,商湯會繼續做時間的朋友。
(公眾號:雷峰網(公眾號:雷峰網))
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。