0
| 本文作者: 張夏寧 | 2025-12-22 17:52 |
12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。
本次大會為期兩天,由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為AI產學研投界標桿盛會,GAIR自2016年創辦以來,始終堅守“傳承+創新”內核,是AI學界思想接力的陣地、技術交流的平臺,更是中國AI四十年發展的精神家園。過去四年大模型驅動AI產業加速變革,歲末年初GAIR如約而至,以高質量觀點碰撞,為行業與大眾呈現AI時代的前沿洞見。
本次峰會之上,RockAI CMO鄒佳思以“擺脫Transformer的束縛,讓智能重新定義硬件”為主題,為參會者們帶來了一場精彩紛呈的演講。

鄒佳思通過提出一個生活場景的假設作為開場,描繪了一幅充分開發端側智能后的日常生活圖景。在設想中,家庭場景中智能設備的聯動無需云端參與。如回家后設備自動完成放音樂、加熱水、拉窗簾、定鬧鐘、點早餐等操作,這一系列動作,通過在終端設備上進行本地私有化部署的人工智能模型,實現了場景設備間的智能互聯,鄒佳思將其稱之為“端側智能”。他還強調,端側智能并非等于云端大模型的小參數版本。
鄒佳思解釋稱,比起云端智能,使用端側智能來實現許多生活場景的智能化是更好的選擇。省去云端的參與在允許模型更加個性化的同時,還避免了使用云端可能帶來的個人隱私及成本問題。他認為,現在主流“為云端模型Token付費是一種錯誤的理念,每天全世界的Token消耗達到萬億以上,而其中至少有50%是被浪費掉的”。
鄒佳思承認,從云端邁向端側智能的過程中,還有許多挑戰存在,包括算力、內存等硬件資源受限,實用性要求較高,以及缺少自主學習能力等方面。但他認為,一味的堆算力其實扼殺了創新,而人工智能的開發就像人類,“大家的智力水平可能都差不多,很高很低的都很少,但就是這么一群智商上面差不多的人,我們聚集在一起,可以造火箭,可以造AI,但是單個人是干不成這些事情的。”
因此RockAI致力于以非Transformer架構的模型,開發設備端側的智能設備,其核心在于使AI擁有原生記憶和自主學習的能力,進而最終達到“群體智能”的生態環境。
鄒佳思指出,端側智能的成長在于其自主進化,從“固定工具”到“持續學習”,并從“周期更新”的模式轉變為“即時成長”,讓大模型不再“死亡”于部署。
以下是鄒佳思的現場演講內容,雷峰網(公眾號:雷峰網)作了不改變原意的編輯及整理:
大家好,今天我想探討一個與大家生活密切相關的主題——設備端的智能。

設想這樣一個場景:在結束一天的工作后,我倍感疲憊,晚上十點回到家。此時我所期待的應該是,推開門時說一句“今天工作很累,想洗個澡立刻休息,明早七點還需早起”,家中設備能自主啟動一系列操作——例如播放一首悠揚的音樂放松心情、熱水器開始加熱、窗簾自動拉合、設定明早六點的鬧鐘,甚至預訂好六點半的早餐。這般景象并非空想,它其實是可以實現的,而且我們預計將在不久后成為現實。
然而這里存在一個問題:在整個設備聯動的過程中,是否真的需要云端參與?不妨想象一些具體情境,例如當我走進浴室時,我希望熱水即刻流出,但絕不想某個云端模型看到我正在洗澡、進入浴室或臥室——這樣的畫面很詭異。實際上,這些操作完全可以依賴設備之間的本地聯動來完成,無需任何云端介入。

那為什么會出現云端模型?我們認為,當前按Token付費的云端模型模式是一種錯誤的理念。如今全球云端模型每日消耗的Token總量已達萬億甚至百萬億級別。在這龐大的消耗中,究竟有多少是真正有效或值得的?
再舉一個簡單例子:假設我對著手機說“給隔壁老王發送一條生日祝福短信”。如果是云端的模型,執行這個指令的流程是:這段語音需先傳輸至云端模型,由云端解析為文字,再交由大模型處理并轉換為指令,傳回本地手機后打開本地應用,可見此鏈路非常復雜非常繞遠。技術追求簡單,簡單即真理,因此我們判斷,至少有50%的Token實際是被浪費的。
包括之前提及的家居場景,其實那個場景可能完全無需云端參與。正因如此,我們更關注端側智能的發展。事實上,端側智能今年已引起廣泛關注,眾多公司開始在此領域發力,大模型也逐漸從云端向端側延伸。有消息稱,OpenAI明年或將發布自有硬件,并與模型結合,甚至傳言將訓練小參數的模型直接部署于設備端。由此可見,端側人工智能確實在持續演進。

但端側智能同樣面臨諸多挑戰,包括實時性、功耗以及有限的計算資源,尤其是硬件方面的限制。其中一個核心問題在于端側的學習能力。因為每臺設備——無論是手機、PC還是穿戴設備——都具有高度個性化特征。正因為高度個性化,包含大量個人私有數據,模型若要理解這種個性化并與用戶貼近,就必須具備學習能力。否則,現行“預訓練-數據壓縮-部署至設備”的模式,將意味著模型失去了成長性。尤其在量化過程中,模型經量化后學習能力會進一步減弱,而反量化的成本又十分高昂。
當單個設備變得足夠智能,我們身邊又擁有眾多設備——家居場景中的、隨身穿戴的、工作環境內的——如果這些設備能夠相互聯動,是否會催生另一種形態的智能?就像人類,每個人的技能方向各異,但智力水平大多相近,極高或極低者均屬少數。正是這樣一群智力相仿的人聚集協作,能造出火箭、開發AI,這是單一個體難以完成的事情。

回到技術路線。當前大模型的發展仍以Transformer架構為主導。過去幾年,焦點多集中于規模化訓練——依賴更多數據、更大算力、更高人才密度,以打造更強大、更全能的模型。暫且不論這般投入是否存有泡沫,實際上,算力的增長正在扼殺創新,也令許多小團隊失去機會。目前國內外大模型廠商基本都在拼資源。如果所有參與者都需要如此龐大的資源,創新將從何而來?當大家在同一條道路上愈行愈遠,真正的問題在于:模型是否必須足夠大?數據是否必須海量?我個人或許未曾讀過上千本書,但這并不妨礙我今天在此分享觀點,也不妨礙我從事AI行業。我必然沒有一個大模型懂得多,它可能已遍覽所有的書籍與資料,但人類的進化與工作方式并非如此。

現在的云端模型還可通過在線檢索等方式獲取實時知識,但依賴搜索來實現這一功能本身已顯不足。因此我們認為,靜態的函數壓縮式智能難以誕生真正的智能。
第二個問題是:更多參數是否意味著更強智能?我們認為參數量的擴大僅是擴展了函數空間的容量,實現了知識的壓縮與傳播,并未真正創造知識。
關于記憶,目前許多大模型廠商也在探討記憶功能,但現有方案多通過RAG、數據庫或上下文等方式實現。這種方式好比借助筆記本記錄數據,卻沒有真正進入模型的大腦。

因此對于未來的智能硬件而言,我們認為最重要的在于原生記憶與自主學習能力。記憶可分為多個維度,包括形態記憶與知識記憶。形態記憶指模型記住一串數字、一個電話號碼或銀行卡號;知識記憶則不同,它并非具體數字,而是經大腦轉化后形成的知識,例如我正在輸出的觀點。
更高一層是記憶所構成的世界觀。如同人類三觀的形成,它并不是靠別人在某一天告訴你“應該成為怎樣的人”,而是通過長期記憶與學習逐步構建的價值觀。若模型僅有外部接入的記憶,或自身缺乏記憶能力,那么所謂的模型個性化及后續進化幾乎都難以實現。
除了記憶,設備端與云端的一大差異在于設備端具有部署屬性。或許有人質疑:設備端也可以聯網,那么接入云端模型是否也能實現相同的功能?以人臉識別為例:早期人臉識別多在云端完成,如今卻幾乎全部移至設備端。這不僅是時延與隱私的考量,也涉及成本問題。

因此我們認為,大模型的發展方向應從固定工具轉向持續學習,從每三月或半年更新一次的知識庫,轉變為能夠實時成長的系統。

這是我們RockAI開發的非Transformer架構Yan大模型,其主要特點包括兩項核心技術:一是記憶模塊,二是選擇激活機制。記憶模塊被內置在模型架構中,能更精準地控制細密度,從而在學習時,更新參數的權重會具有更準確的靶點靶向。

通過這張對比表可以看出,非Transformer架構在多項指標上與Transformer架構模型效果差異不大。當然Transformer在某些指標上仍優于我們,因此我們尚有提升空間。但在總體發展方向上,非Transformer架構應該占有一席之地。

這里做一個簡短演示(今年世界人工智能大會也曾現場展示):把模型部署到手機上,通過手機學習某些概念、動作或知識,進而指揮機器狗完成指定任務。
從視頻可以看出,端側模型在許多情境下具備很強的理解能力。它能夠從非設備本體的動作中抽象出概念,進而組合設備的原子能力并重新編排,以復現該動作。
此類應用場景本質上十分廣泛。例如:一位老人對空調說“我的小孫子每天下午三點踢完足球回家時滿頭大汗,不要對著他吹風,同時將溫度調至28度以上。”這整段話是一個完整訴求,老人希望空調在檢測到小孩子進門時自動執行該指令。該指令本質上涵蓋多層技術,包括模型理解、圖像理解以及記憶能力——模型需記住訴求,并在每次孩子回來時重復執行,這是真正可落地的應用。

我們認為當前許多硬件仍處于偏靜態的階段,即便是一些小型設備終端,尤其像AI玩具,其本質仍是以玩具為主體,只是掛載了接入云端模型的AI功能,AI并未真正融入設備本體。
因此它的AI功能并無本質上的差異化。對小朋友來說,它無法產生陪伴感,因為模型不具備情感反饋,不能隨使用者學習,也無法理解情緒表達的差異——例如上一次與這一次不開心有什么不同,也無法理解你期望它做些什么。
而當AI具備原生記憶與自主學習能力后,我們認為不僅Token收費模式將終結,整個設備端也會愈加個性化、富有情感且更了解用戶。屆時,軟件與硬件方能實現真正融合。
我們認為,優秀的AI硬件應是讓人感受不到AI的存在——正如如今人們過閘機時,不會意識到背后有強大的人臉識別在運作,只覺得它自然解決了問題。但當前許多設備,包括云端服務器及應用,仍讓人強烈感知到“這是一個AI”。我們距離真正的AI普及乃至AGI仍有鴻溝需要跨越。只有當大家不再察覺AI存在時,才意味著AI真正融入了日常生活。

RockAI目前主要聚焦于消費電子類設備,包括平板、PC、機器人等方向。這里有一個比較典型的案例可供參考,這個能力現已應用于多款機器人。
當然,該模型支持的模態仍有限,距離理解更多模態還有很長的路要走。我們也認識到當前模型在數據與模態理解等方面面臨的困境,但這件事值得投入。至少我們相信,自己正走在正確的道路上。

這張圖包含的內容很多,但其核心想表達的是“群體智能”這四個字。這是我們公司以及學界部分專家認為更具可行性、方向更明確的一條路徑。我們不確定一個擁有十幾萬億參數的模型未來能否成為全面的“六邊形戰士”,但自然界已給了我們許多啟示——比如人類和動物的群體協作。
回顧最初所舉的例子,其中80%的問題或許完全可以由設備間協作解決。最終落實到日常生活,我們設想的未來將是云端與設備端相結合、按比例分配協作的模式。

我們仍然期待設備間能夠互聯,最終實現群體智能,讓設備互聯涌現出一種新的智能形態。當Transformer道路抵達盡頭,面臨參數與規模的極限時,我們堅信需要在架構上創新,而非僅在現有路徑上不斷堆積數據與算力,因為那或許是一條不歸路。國家層面與全球經濟因素暫且不論,僅從技術角度出發,新的路線亟待出現。
感謝各位,我今天的分享就到這里。
下面是在演講之后,針對講座的問答環節
問:對于端側智能是一定要用非 transformer 架構做嗎?
鄒佳思:這個也不一定,我們是覺得在路線上最起碼是應該百花齊放的,因為單一的架構,大家其實也看到很多問題,比如算力、數據、還有超高的人才密度,這些其實是顯而易見的問題。還有像端側落地的模型怎么變小,模型怎么能跑得起來?這些是架構層面存在的問題。既然有問題,肯定有對應的新的方式去解決,只不過我們是走了一個新的方式而已。現在看不出來哪個路線能走到最后,但是多一條路線,多一個選擇,多一些可能性。
問:為什么選擇現在Yan架構的這個路線?
鄒佳思:其實早期的時候主要還是因為設備上資源的限制,我們從2021年開始做的時候,其實當時的設備比現在的很多算力資源還要低。即使是Transformer架構的3B模型在當時也跑不起來,但我們并不想等產品進化到滿足條件后再來做這件事情。所以我們一直在做新的嘗試,一直試到2024年,很多的方案我們都申請了專利,雖然這些方案都失敗了,但是在嘗試的過程中,最后試出來現在Yan模型的方案。我們從2024年1月份Yan 1.0的發布到Yan 1.3,整個模型能商業化、能穩定運行,其實也走了差不多一年的時間。
問:如果我用了端側模型,這個設備會不會不夠智能了?小愛同學這種AI也是在云端的,如果把它部署在那么一個小盒子上,它的成本是不是就會很大,或者小愛同學就不是那么聰明的AI了。
鄒佳思:我們做設備端有一個很重要的點是它是跟場景掛鉤的,云端的模型大家可能會更傾向于它是一個六邊形戰士,就是它什么都能干,可一旦到了設備端以后它一定是有偏向的,大家很多的場合也都在講,說這個落地一定要垂直。
而設備端它有典型的場景限制,就是說我不會用一個手機,或者用一個簡單的設備干所有的事情。對于這個事情,一旦你走到垂直領域的時候,其實模型端的差異可能就不會那么大。可能你要解決的就是其他問題,比如說功耗,比如說對硬件的需求。
剛才我們也有一頁PPT展示了與其他模型的對比,雖然可能不那么權威,但還是能看出來一些端倪,就是比如一個小參數的3B模型,可能它能達到沒有做過優化的8B模型甚至更高的模型的效果,而且這個事情在很多MIT的論文里面已經論證過了,就是模型參數很大,但在解決實際場景的時候,很多參數其實也是浪費。之前有一篇特別有意思的論文就是關于一個百億參數的模型,把很多參數都給剪裁掉,或者是給 mark掉,但是發現做任務的效果其實是一樣的,所以在一定程度上解釋了這個事情。
不過一個3B的模型要跟一個萬億的參數去比,這肯定是有差距的,但是就要看這個模型實際場景能解決哪些問題。就像現在智能家居的這個場景,如果所有的設備上都布了一個3B的模型,那它就能幫你解決很多生活里面你需要去做的事情。
講座完整視頻,詳見鏈接:https://youtu.be/-zosrLdozQI
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。