0
大模型一聲炮響,掀起了機器人的革命浪潮。
這一變革率先發生在人機交互上。以ChatGPT為代表的LLM模型第一次在人與機器間建立起高效的溝通方式,從根本上打破人機之間的語義隔離,進而賦予機器人快速向人類學習的能力,使其以更快地速度學習并執行相關任務。
傳統的人機交互模式,機器人只能機械地執行人類設定好的程序。這一模式局限性非常大。比如,需要有專業的工程師將知識“翻譯”給機器人,機器人才能執行具體任務,溝通效率低且人力成本極高,限制了機器人的落地應用。
在大模型強大的理解能力加持下,機器人能更智能地“聽懂人話”。人機交互不再需要專業的知識門檻,可以用自然語言、肢體動作等類人行為進行交流,大幅降低人類使用機器人的門檻,進而使得機器人的廣泛落地變成可能。
“機器人融入大模型是發展趨勢?!?/strong>全國機器人標準化技術委員會委員趙勇表示。
作為AI技術的進階態,大模型強大的泛化能力,讓機器人在“類人”的道路上更進一步。如果把機器人視為一個智能體,大模型則是這個智能體的技術底座,為機器人走向「具身智能」奠定了基礎。
如今,大模型在機器人領域的應用正在不斷拓展,各行各業正面臨一次“重鑄”。其中,工業機器人作為應用較為廣泛的品類,也迎來了一次深刻技術與范式蝶變。微億智造CTO趙何博士以具身智能理論作為指導,將成熟的工業機器人與新興的人工智能技術融合,首次提出了“具身智能工業機器人”(Embodied Intelligent Industrial Robots, EIIR)這一概念。至此,EIIR正式走上了歷史舞臺。
理解EIIR之前,首先要搞清楚,什么是具身智能,以及什么是具身智能機器人。
具身智能理論根源于“具身認知”,其主張智能體的認知能力由其自身結構決定,這種認知又直接反過來影響智能體的高級心理活動,諸如:推理,決策等。并且,智能體根據自身的軀體結構來構建自己的世界模型,從認知產生的機制到智能體決策依賴的世界模型,均受制于智能體具體的物質形態。
比如,嬰兒早期的學習行為,例如爬、抓取、行走等,本質上是智能體在主動探索周邊環境,來形成對外界的認知,并構建基礎的世界模型,形成了一套普適的方法論。
智能體的認知過程遵循"探索﹣利用"( exploration - exploitation )的范式,通過自己的"軀體"與外界環境進行互動,從外界對智能體的動作產生反饋獲取信息,建立起自身的認知模式。
在具體系統構成方面,智能體核心包括三部分:感知系統、運動系統和世界模型。與傳統認知不同,感知和運動系統并不孤立,二者同樣參與認知過程,世界模型則是智能體基于自身結構特點而構建,用于解釋世界的認知框架。
如果將這一理論應用到機器人行業,理論與技術相結合,便產生了具身智能機器人(EIR)??梢灶A見,未來所有機器人都將面臨一次「范式變革」。從第一性原理出發,具身智能機器人存在諸多共性,主要體現為五大能力,分別是——
1、多模態環境認知、交互能力;
2、智能的任務學習和理解能力;
3、高度自主的智能決策能力;
4、智能高效的單任務執行能力;
5、多任務切換能力。
這些能力構成了具身智能機器人的基礎。在具身智能理論框架下,“智能體”和“環境”是矛盾的兩個方面,它們之間的對立統產生了智能體的認知,孵化了智能。因此,從一開始設計機器人時,不能把機器人從任務環境中剝離出來。
當這一理論被應用于工業,具身智能工業機器人(EIIR)便呼之欲出了。作為EIR在工業場景下的外延,EIIR的生存環境,無容置疑就是工業生產環境。
過去幾年,AI技術的應用,從某種程度上推動了工業機器人的智能化提升。
比如,圖像識別技術在圖像分類、目標檢測和圖像生成方面取得的長足進步,使得計算機對圖像的識別理解能力已經超越了人類,對應的技術被應用到工業質檢這一環節中,大幅提高了企業生產制造的質檢效率和質量。
又比如,Slam算法被用于機器人導航,通過計算機視覺和機器視覺等技術,從而提高工業AGV/AMR的靈活度,最終提高運輸效率,降低人力成本。
而今,在以大模型為代表的AI技術賦能下,具身智能工業機器人(EIIR)成為工業機器人的新方向。
“EIIR可以理解為EIR在工業場景的外延,但形態并非是人形?!蔽|智造CTO趙何博士表示。
EIIR的生存環境就是工業生產環境。相對于自然環境,生產環境是一個閉合、簡單的環境。從邏輯上講,“人形”作為開放環境下的產物天然不會是閉合環境最佳的軀體形態。而且,人在很多工業場景存在天然的“缺陷”,在靈活度、精準度上,很難與機器相提并論。如果可以由機器自主完成而不需要人的參與,那么對應的生產環境可以設計成對機器更加友好,而完全不用考慮人類體形的局限,從而讓生產過程更加高效可靠。
EIIR需要替代的是人在生產過程中被異化后的投影,不是人的本質,更不是人的外形。將人類從生產活動中解放出來,必然存在多種形態。因此,“EIIR和人形機器人并不能直接劃等號”。
EIIR本質上,目的是“超越人”和“解放人”。相比精確的自動化控制,EIIR可以更好的實現真正的無人化生產。
原因主要有三點——
一是生產場景的不確定性。整個工業環境,場景非常多樣化,存在諸多不確定性,屬于定量開放環境,需要有EIIR這類具備靈活智能能力的機器人來應對。
二是生產環境閉合邊界不一。不同生產任務都有與之對應確定的生產環境,它們之間閉合邊界不具備一致性。這就要求足夠高的智能水平或在少量人類幫助下,完成這種環境的切換和適應。
三是標準產品具有標準智能。使得標準的EIIR產品具有一定水平的標準智能,不僅能減少 EIIR 從制造到應用的成本,并盡可能的適用于不同生產場景、適配具體任務,使其大規模應用成為可能。
一言以蔽之,EIIR的出現是市場環境與技術迭代共同作用的結果,又將反過來解決市場痛點。在這個相互作用的過程中,機器人能夠實現“自我進化”,成為新的生產工具,進一步推動社會生產力的發展。
作為具身智能的實體表現形式之一,EIIR必然遵循具身智能的一般規律,整個智能體由感知系統、運動系統和世界模型三部分組成。
感知系統
EIIR 的感知系統是一個多模態泛傳感器系統。該系統配備多種傳感器,具備比人類感知器官更精準的信息收集能力。這些信息相互補充、交叉驗證,為EIIR的決策提供輸入信息。并且,感知系統除了對周邊環境進行連續動態檢測以外,還要對自身進行不間斷地狀態感知,為EIIR的決策、與環境的互動提供感知基礎。
例如,在工業質檢領域,傳統的機器質檢雖然能夠大幅提高檢測效率,但模型依賴于工程師的不斷調優,柔性較差,部署成本也比較高。而EIIR則能夠識別和分析對象的姿態和特征,自主生成檢測序列,以高精度的圖像傳感器追蹤形態不定、位置不定的缺陷,實現柔性的、超越人類的缺陷檢測能力。

通過“感知系統”,對環境及自身持續采樣,并基于聯合認知進行決策
運動系統
EIIR 的運動系統首先是一個閉環控制系統,其一般原理是通過反饋環路,比較被控狀態量的實際值和設定值之間的誤差,作為輸入送到控制器進行計算,控制器的輸出控制執行器動作,直到被控量的實際值達到設定值為止。EIIR 的運動系統會包含很多個這樣的閉環控制系統,這些系統必須共同協作才能滿足 EIIR 靈活、精準、快速的要求。
以“關節電機”為例,其“視覺伺服”系統由多個控制器、按層級嵌套組合而成,每一層都有自身需要優化的控制指標與對象。只有從整體到局部逐層細化,才能實現閉環控制。EIIR能夠根據控制系統,實時地結合動力學、運動學算法,計算時間和狀態最優的運動軌跡,并以毫秒級速度閉環運動控制、使用圖像模型,完成閉環運動規劃。

通過“視覺伺服”,實現感知系統與運動系統的閉環控制
世界模型
世界模型是智能體根據自身結構特點構建起來、用于解釋世界的認知框架,會隨著智能體與環境的互動而動態變化。該模型由以大模型技術為主的“基礎模型”疊加智能體在面臨具體任務時的知識形成,二者通過“探索-利用”的范式構建起一個服務于具體任務的世界模型。
更具體一點,“基礎模型”賦予了EIIR強大的理解能力,能夠通過人類習慣的模式與人類進行信息交換。人類只需輸入自然語言、圖片、視頻、動作示教等知識,就可與EIIR建立起“示教-學習-反饋”的互動模式,將知識進行傳遞。如此一來,EIIR在基礎模型和具體任務知識的訓練下,通過不斷地自我學習和進化,便能實現獨立運行。

通過“基礎世界模型”,建立“示教-學習-反饋”的互動模式
“具身智能工業機器人(EIIR)是現代制造業的杰出代表,它們通過高度的自動化和智能化,極大地提升了生產效率和質量?!敝袊磐ㄔ喝A東分院、人工智能與大數據事業部主任陳俊琰表示,“隨著多模態大模型、人機自然交互等技術的進步,EIIR夠適應更復雜的工作環境,進行自我學習和優化,是“人工智能+”的積極探索實踐,也為工業生產帶來革命性的變化?!?nbsp;
EIIR 的發展將是一個循序漸進的過程,將主要分三個階段——
前期。EIIR 和人類共處在同一個生產環境下,人機協同是 EIIR 需要重點解決的問題。
中期。在新技術的賦能下,EIIR的人機交互水平提高,人機協作更加高效智能。但在這個階段,EIIR 本質上還是附屬于人類的智能機器。
后期。EIIR 的智能化程度越來越高,能夠獨立完成任務,人類逐漸淡出生產環境,“無人工廠”將得以實現。
這也將會是一個漫長的過程,但技術已經點亮了勝利的火焰。雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。