0
| 本文作者: 梁丙鑒 | 2025-12-31 16:42 |
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))訊 高質(zhì)量數(shù)據(jù)正在成為具身本體性能突破和成本控制的瓶頸。在具身智能從技術(shù)演示走向規(guī)模落地的關(guān)鍵轉(zhuǎn)折期,對于數(shù)據(jù)的需求和爭論也變得越發(fā)火熱。從遙操作到UMI,從動(dòng)捕到仿真數(shù)據(jù),具身數(shù)據(jù)的未來在數(shù)采工廠,還是名為In-the-wild的美好愿景?
2025年12月13日,第八屆GAIR大會(huì)的數(shù)據(jù)&一腦多形專場,舉辦了主題為具身數(shù)據(jù)的圓桌論壇。圓桌主持人為英諾天使基金 ED,石麻筆記主理人王建明,并邀請了諾亦騰機(jī)器人創(chuàng)始人戴若犁,極數(shù)迭代CEO、深圳AIRS訪問研究員佟顯喬,鹿明機(jī)器人CTO丁琰,共同圍繞具身數(shù)據(jù)的質(zhì)量、采集以及數(shù)據(jù)飛輪等議題,展開了一場深度對話。
對機(jī)器人而言,什么是好的數(shù)據(jù)?王建明以數(shù)據(jù)質(zhì)量切入,幾位嘉賓就“以終為始”達(dá)成了共識(shí),最終的模型性能、訓(xùn)練中機(jī)器人的受益程度反映著數(shù)據(jù)的質(zhì)量。丁琰進(jìn)一步指出,采集成本和各種數(shù)采方式對于不同場景和硬件的適配與否,都是決定數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié)。
未來的數(shù)據(jù)采集方式或?qū)⒆呦蚨嘣W鳛橐患矣袛?shù)據(jù)能力的創(chuàng)業(yè)公司,丁琰表示,鹿明機(jī)器人正在籌建自己的數(shù)采廠。出于成本考慮,現(xiàn)階段采用 UMI方式進(jìn)行數(shù)據(jù)采集,但未來仍可能引進(jìn)更多方案。“遙操作、 UMI(Universal Manipulation Interface)、動(dòng)捕、仿真數(shù)據(jù),存在即合理。”丁琰強(qiáng)調(diào)。
戴若犁就In-the-wild的數(shù)據(jù)采集方式發(fā)出了提醒,他指出這是一種高度考驗(yàn)技術(shù)水平的方案,其落地需要先后克服軟硬件易用性、組織管理能力兩道難關(guān),而在當(dāng)前的時(shí)間節(jié)點(diǎn),邁過前者的技術(shù)門檻無疑更為重要。
具體而言,在采集階段需要低摩擦、高精度、多模態(tài)的數(shù)采設(shè)備,野采數(shù)據(jù)的利用,還需要從稀疏原始數(shù)據(jù)中得到稠密信息的技術(shù)方案。戴若犁認(rèn)為,一條可行的鏈路是通過世界模型進(jìn)行先驗(yàn)估計(jì),輸出更豐富的模態(tài)及維度數(shù)據(jù)。相較之下,遠(yuǎn)未到比拼人力組織能力的時(shí)間。
佟顯喬認(rèn)為,數(shù)據(jù)采集行業(yè)仍處于早期階段,數(shù)據(jù)、本體、模型公司仍在相互磨合。不同的模型公司提出了不同的需求,這意味著數(shù)據(jù)公司不能停留于堆人力的體力活階段,而是要懂模型、給建議。“模型公司也需要你的knowledge”,佟顯喬強(qiáng)調(diào),“一個(gè)個(gè)批次之后,大家才能一起做得更好。”
以下是此次圓桌討論的精彩分享,AI科技評(píng)論進(jìn)行了不改變原意的編輯整理:
王建明:我們這個(gè)panel的話題是數(shù)據(jù),所以我的第一個(gè)問題,是想請各位先定義一下,對于機(jī)器人來說什么是好的數(shù)據(jù)?請戴博先開始吧。
戴若犁:我覺得還是以終為始,最終在訓(xùn)練模型、機(jī)器人的時(shí)候能夠獲得收益,而且收益比較高的數(shù)據(jù)是好數(shù)據(jù)。
佟顯喬:我覺得這一定是從最后的模型出發(fā),什么數(shù)據(jù)最后能訓(xùn)練出一個(gè)比較好的模型,就是好的數(shù)據(jù)。我們今天基本上是這樣定義,但是因?yàn)榻裉炷P偷臓顟B(tài)沒有收斂,用什么樣的數(shù)據(jù)能訓(xùn)練出什么樣的模型,不知道,所以其實(shí)也很難定義哪個(gè)是好的數(shù)據(jù)。
丁琰:第一數(shù)據(jù)必須要能訓(xùn)練出一個(gè)模型,才是比較好的數(shù)據(jù)。第二點(diǎn)是數(shù)據(jù)收集成本要比較低,如果特別高,那整個(gè)行業(yè)還是接受不了。還有一點(diǎn),就是數(shù)據(jù)的采集要適應(yīng)場景、適應(yīng)硬件。
王建明:剛才大家都提到,好的數(shù)據(jù)首先對于模型訓(xùn)練要有好的效果,那么在這個(gè)前提下,數(shù)據(jù)公司怎么知道如何提供好的數(shù)據(jù)?
通常來說,這些數(shù)據(jù)都是提供給模型公司或者本體公司,模型效果掌握在客戶的手上。是客戶知道自己想要什么樣的數(shù)據(jù),找到數(shù)據(jù)公司來定點(diǎn)運(yùn)營,還是數(shù)據(jù)公司自己知道什么樣的數(shù)據(jù)對模型公司好,來反哺給模型公司?你們認(rèn)為在整個(gè)具身智能的鏈路里,數(shù)據(jù)公司跟模型、本體或者應(yīng)用公司之間,關(guān)于數(shù)據(jù)這件事情的認(rèn)知,是一個(gè)什么樣的一個(gè)鏈路呢?
戴若犁:目前在前端商業(yè)實(shí)踐上,我看到的是反過來的。不是說模型公司想得特別透徹,就能夠給出命題作文,而是如果有足夠體量的數(shù)據(jù),且里邊蘊(yùn)含的信息足夠多,就能夠訓(xùn)出效果。如果訓(xùn)不出效果其實(shí)有很多原因,可能是模型架構(gòu)不對,可能訓(xùn)練方法不對,這個(gè)鍋不一定是數(shù)據(jù)來背。所以我目前看到的是,如果你有足量且明確知道這一類數(shù)據(jù)里面蘊(yùn)含足夠多的信息有待挖掘,那其實(shí)對于模型是有反向影響能力的。比如你有一個(gè)特別大體量的數(shù)據(jù)集,即使這個(gè)數(shù)據(jù)集的模態(tài)、維度、精度和傳感器的方式方法選擇跟模型方原本的期待并不一樣,他們也會(huì)愿意去改變訓(xùn)練的方式,甚至于讓模型的架構(gòu)去適應(yīng)數(shù)據(jù)集本身。
佟顯喬:我看到的其實(shí)跟戴總看到的比較類似,很多時(shí)候模型公司找到我們是說,這樣做行不行,那樣做行不行,他們其實(shí)也需要你的knowledge。在這個(gè)過程中,大家還有一個(gè)磨合,比如一開始說這樣采,很可能采完這一批次以后,下一批他說我覺得這樣做應(yīng)該更好。
所以其實(shí)目前來看,可能因?yàn)樾袠I(yè)還是早期階段,所以沒有一個(gè)統(tǒng)一的方式,大家都是在相互磨合。甚至你會(huì)發(fā)現(xiàn)不同模型公司,需求可能千差萬別,提的要求也很不一樣。所以作為一個(gè)數(shù)據(jù)公司,我覺得不能只是純粹做labor的工作,你還是要懂一些模型,你需要跟他們?nèi)ソ涣鳎o他們建議,這樣大家才能一起做得更好。
丁琰:我還是比較認(rèn)同佟博士的觀點(diǎn),我認(rèn)為就是做數(shù)據(jù)和做算法的公司是分不開的,數(shù)據(jù)和算法是不拆家的。到底什么是算法?你要搞一些非常高深的模型架構(gòu),做一些很創(chuàng)新的探索,可能沒有到這種級(jí)別。但是你如果要把市面上常見的主流算法和數(shù)據(jù)模型全部玩熟,我覺得還是非常非常必要的。不然的話,你采出來的數(shù)據(jù)很多是很臟的,基本上不能用。
跟行業(yè)里的人進(jìn)行交流的時(shí)候,我就發(fā)現(xiàn)很多公司沒有訓(xùn)練基礎(chǔ)模型的能力,他們對于數(shù)據(jù)的理解是非常簡單的,認(rèn)為只要按照指令把數(shù)據(jù)給采了就行。但其實(shí)這些數(shù)據(jù)往往是不能用的。
每個(gè)任務(wù)都需要進(jìn)行一些特定的任務(wù)設(shè)計(jì),比如大家都會(huì)疊衣服,但其實(shí)這里面技巧性非常強(qiáng)。你這個(gè)技巧怎么來的?其實(shí)是在采了一堆數(shù)據(jù)之后訓(xùn),發(fā)現(xiàn)有一些問題,然后再去改進(jìn)采集技巧,再來訓(xùn),最終才能得到一個(gè)比較好的效果。在這個(gè)數(shù)據(jù)采集和算法迭代的過程中,你會(huì)獲得很多know-how和insight,這些東西是在數(shù)據(jù)公司是非常關(guān)鍵的,這些東西才是真正寶貴的價(jià)值,而不是只是把這個(gè)數(shù)據(jù)采完交付給客戶,客戶愛怎么訓(xùn)怎么訓(xùn)就得了。這個(gè)是完全不一樣的。
另外一點(diǎn)就是,說到底是數(shù)據(jù)決定,我認(rèn)為現(xiàn)階段做算法的人和做數(shù)據(jù)的人要不斷地進(jìn)行迭代,最后才能去完成這個(gè)東西。像我們公司就是,我們自己也做一些基礎(chǔ)模型的訓(xùn)練,然后會(huì)對數(shù)據(jù)本身有一些 know-how 和insight,知道怎么采。但是我們自己得到的這些經(jīng)驗(yàn)教訓(xùn),可能只能針對于部分任務(wù),比如說pick and place,或者是針對于工業(yè)場景,因?yàn)槲覀冞€是做工業(yè)場景比較多。但如果是做精細(xì)化的任務(wù),比如我今天跟客戶去聊,系鞋帶、疊衣服、疊紙盒子,這些任務(wù)就是另外一種 know-how和insight了。可能得跟客戶一起成長,才能獲得很好的know-how和積累。
王建明:據(jù)我自己觀察,行業(yè)其實(shí)階段性地對不同類型數(shù)據(jù)的側(cè)重點(diǎn)是不一樣的。比如從2023年下半年開始,同構(gòu)遙操這種數(shù)據(jù)采集范式被帶火了。 UMI這個(gè)工作是23年年末地,但實(shí)際上它近期被Sunday Robotics 還有 the generalist 帶火了。24年我覺得數(shù)采還是以同構(gòu)遙操為主,到了今年上半年,有一些動(dòng)捕的數(shù)據(jù)采集范式也被帶火了,我感覺肯定也有一些北美進(jìn)展的淵源。
就各位的觀察,目前中美在數(shù)據(jù)這個(gè)問題上面,你們覺得最大的非共識(shí)是什么?共識(shí)又是什么?你們或多或少跟北美的一些客戶有聯(lián)系,你認(rèn)為他們現(xiàn)在重點(diǎn)的這個(gè)數(shù)據(jù)采集范式又是什么?
戴若犁:首先我覺得現(xiàn)在中美之間在機(jī)器人上完全沒有代差。他們不是開玩笑嗎,說Our Chinese better than your Chinese。我大概每兩個(gè)月在灣區(qū)待兩周,在灣區(qū)談生意需要說英文的時(shí)間還是挺少的,其實(shí)都是同一撥人,同學(xué)、朋友、師兄、師弟、學(xué)生,一起聊天。所以首先我沒有覺得中美有特別大的,共識(shí)方面的差異,大家其實(shí)都還挺一樣的。但我覺得中美在數(shù)據(jù)上面其實(shí)有一個(gè)特別大的區(qū)別,就是美國好像沒有地方政府的助力。數(shù)據(jù)這件事情,特別是數(shù)采廠,有地方政府助力,就會(huì)比較傾向于本體公司和地方政府合作,然后得到非常大的機(jī)會(huì),拿到當(dāng)期收入去建以遙操作為主的數(shù)采中心,也就比較少有機(jī)會(huì)孵化出來像 generative 或者Sunday 這樣In-the-wild或者 UMI的方式去采數(shù)據(jù)。
所以這個(gè)分水嶺我覺得很有意思。就是如果沒有這么多特別eager地想要幫助創(chuàng)業(yè)者,幫助企業(yè)招商引資的地方政府,可能就不會(huì)有這么多的數(shù)采中心用遙操作去采數(shù)據(jù),可能也就會(huì)促使像 UMI這樣的方式早一點(diǎn)在中國落地。
這件事情完全不是因?yàn)榧夹g(shù)的共識(shí)有差異或有代差導(dǎo)致的,我覺得反而是一種資源詛咒。我小時(shí)候打籃球,彈跳非常好,雙手隨便抓筐哐哐地扣,但是我技術(shù)非常差。我現(xiàn)在歲數(shù)大了,打球打得越來越差,被原來打球沒我打得好的人隨便過,我這就是資源詛咒,因?yàn)槲倚r(shí)候資源太豐富了。所以我覺得這就可能不是代差,而是資源詛咒。
王建明: UMI這樣的方式去年出來,我感覺當(dāng)時(shí)可能也有一些人在關(guān)注,但實(shí)際上是今年有一些北美公司把它release出來,才受到更廣泛的關(guān)注。
戴若犁: UMI就是很合理呀。 UMI其實(shí)是human-centric,它只是末端執(zhí)行器end effector 被置換了的human-centric,所以說它就是很合理,它somehow可以跨本體。
王建明:丁博士, UMI是你之前一個(gè)比較著名的工作,可能在這種數(shù)據(jù)采集方式上面,你們應(yīng)該是第一批關(guān)注,并且在這個(gè)基礎(chǔ)上去迭代做工程化的。可以聊聊你們對 UMI的看法嗎?
丁琰:這項(xiàng)工作其實(shí)我們在24年3月份就開始做了,當(dāng)時(shí)在上海 AI Lab的時(shí)候就啟動(dòng)了這個(gè)項(xiàng)目,做到現(xiàn)在一直沒有換過。我確實(shí)看到了數(shù)采方式從遙操作到 UMI,一路在迭代的過程。
其實(shí)我感覺中美之間是有代差的,至少在模型,或者是引領(lǐng)具身智能發(fā)展方向上有,可能北美那邊的模型或者資源還是比較多。因?yàn)橹拔覀冏?UMI的時(shí)候還是比較默默無聞的,沒有人關(guān)注,整個(gè)大陸好像只有我們一家公司,或者只有我們這一個(gè)團(tuán)隊(duì)在做這件事,也是我們自己一直在迭代。直到Sunday Robotics發(fā)布出一個(gè)非常牛逼的模型,基本上全中國或者全世界的關(guān)注點(diǎn)才轉(zhuǎn)向 UMI。我們的產(chǎn)品剛好在這個(gè)時(shí)間點(diǎn)工程化出來了,基本上整個(gè)具身智能圈子的同行都在瘋狂地采購和咨詢,所以我覺得確實(shí)美國那塊的人還是在引領(lǐng)一些潮流和方向。特別是 UMI這個(gè)東西,如果只有我們一家公司來做,其實(shí)我很難想象到底什么時(shí)候能火起來。雖然我們自己很堅(jiān)信 UMI,但是可能整個(gè)中國的同行并不是很堅(jiān)信。很感謝美國的這些公司引領(lǐng)這些潮流。
然后關(guān)于非共識(shí),在一些技術(shù)路線上其實(shí)是有一點(diǎn)點(diǎn)非共識(shí),但是gap很小,可能很快就彌補(bǔ)上來了。等到Sunday Robotics出來之后,中國的公司就一擁而上地探索 UMI,很快就把這個(gè)非共識(shí)給填起來了。
我們自己在做 UMI的時(shí)候,其實(shí)也會(huì)有一些自己的know-how 和insight。舉個(gè)例子,Sunday Robotics其實(shí)更偏向于一種后處理的方式,它把設(shè)備分發(fā)給Airbnb那些工作人員,或者是眾包人員去采,采完之后再把它收集回來處理。我們覺得這種方式稍微有一點(diǎn)點(diǎn)不太合理,因?yàn)槲易约涸诮〝?shù)采廠的過程中,發(fā)現(xiàn)人員是非常難管理的。如果是通過這種方式去做,后續(xù)處理流程的時(shí)間和消耗是異常的巨大。所以我們自己是選取的前處理,前處理的意思就是把時(shí)間花在前面,不要花在后面,在采集過程中我就及時(shí)評(píng)估和反饋數(shù)據(jù)到底好還是不好,有什么問題當(dāng)場就處理掉,最后收集起來的數(shù)據(jù)100%是合格的。
剛剛那個(gè)戴博士說的human-centric data其實(shí)有一點(diǎn)點(diǎn)像 UMI,但是 UMI又很特殊,它更多針對于二指夾爪這一塊。真正的human-centric更多地偏向五指,二指比較特殊,但是二指又是一個(gè)很重要的領(lǐng)域,因?yàn)檎麄€(gè)中國使用二指夾爪的這個(gè)比例份額我認(rèn)為還是大于99.9% 的,用五指靈巧手的份額目前來看偏少。主要是這個(gè)硬件本身不是特別穩(wěn)定,所以大家用起來,真正落地的還是二指為主, UMI就在這個(gè)生態(tài)里面占據(jù)了一個(gè)比較重要位置。雖然它屬于human-centric這個(gè)分支,但是它又跟五指有區(qū)別,這是我們對 UMI的認(rèn)知。
當(dāng)然 UMI其實(shí)還有很多問題,比如說active perception,要不要帶頭部視角?我們在跟客戶聊的過程中就會(huì)發(fā)現(xiàn),因?yàn)樵嫉?UMI只有兩個(gè)夾爪,只有手部這兩個(gè)相機(jī),這種configuration的配置它對硬件設(shè)計(jì)就會(huì)有一些要求,它會(huì)希望這個(gè)腕部相機(jī)的畫面是稍微比較大的,它可以獲得更多environment的feature,這樣就利于訓(xùn)練嘛。
但是如果你加上一個(gè)頭部相機(jī),那還需不需要這么大的一個(gè)畫面?這也是一個(gè)問題。你如果加上一個(gè)頭部的畫面,它又會(huì)引申出一些其他的問題。比如坐標(biāo)系之間的對齊,或者是你用哪個(gè)坐標(biāo)系。還有頭部要不要?jiǎng)樱繉τ谳喪诫p臂來說,頭部一般是固定的,沒有這個(gè)自由度。如果你想引入一個(gè)active perception,有一些工作是在頭上加了一個(gè)小機(jī)械臂,把這個(gè)小機(jī)械臂上掛一個(gè)攝像頭,這就會(huì)彌補(bǔ)active perception所帶來的自由度問題。但是這樣又引發(fā)一些其他的問題,比如市面上沒有這種機(jī)器人,頭上還長一個(gè)機(jī)械臂,所以說這些問題其實(shí)都沒有被解決。這個(gè) UMI的探索之路其實(shí)還是很長很長的,至少目前來說,我們覺得整個(gè)中國大陸或者全世界的具身智能圈子,對這方面的探索基本上屬于空白,或者說沒有做很多。我覺得在這方面,可能中美之間都會(huì)有一些這個(gè)共識(shí)或非共識(shí)在里面。
王建明:對。剛才戴博也說到了資源稟賦的問題,我確實(shí)也觀察到,北美它有很多配套模型公司的數(shù)采或者數(shù)據(jù)處理公司,或者設(shè)備公司,可能它們都是專門去服務(wù)某一些大公司的。那國內(nèi)的話,我們目前當(dāng)然看到了有一些數(shù)據(jù)相關(guān)的創(chuàng)業(yè)公司,但更多的還是政府支持的數(shù)采工廠。
所以我的一個(gè)問題是,這種這種政府支持的數(shù)采工廠是不是真的可以解決數(shù)據(jù)問題?在這個(gè)過程中,作為有一定數(shù)據(jù)能力的創(chuàng)業(yè)公司,你們覺得應(yīng)該怎么跟這些數(shù)采工廠合作?或者有什么建議給到這些有資源稟賦的單位?
佟顯喬:我覺得中國這兩年,各個(gè)地方政府大量地建訓(xùn)練廠,對行業(yè)肯定是有促進(jìn)作用。但是現(xiàn)在建的大量訓(xùn)練場都是用的遙操方式,那7這是不是正確的?這個(gè)也很難說。
再一個(gè),政府肯定是滯后的。如果以后的方向變了,以這種In-the-wild的方式做數(shù)采,可能他也會(huì)改變。所以就剛才討論的這個(gè)問題,我覺得如果以后通用機(jī)器人的能力要到來的話,一定是需要In-the-wild這種方式的數(shù)據(jù),因?yàn)槭紫人囟ㄒ绫倔w,第二一定是要大量數(shù)據(jù)。那用任何一個(gè)本體去采,即使你有那么多訓(xùn)練場,也不太可能達(dá)到這個(gè)目標(biāo)。
各地訓(xùn)練場是地方政府投資,然后買本體,給很多做本體的公司帶來了收入。政府肯定也不想做賠錢的生意,采完的數(shù)據(jù)要賣回去,那數(shù)據(jù)賣回去以后,大家拿數(shù)據(jù)訓(xùn)練模型,可能是形成了這樣的一個(gè)小閉環(huán),我覺得短期內(nèi)對這個(gè)行業(yè)肯定是有促進(jìn)的作用。但這件事是從商業(yè)上的考量,是不是導(dǎo)致了技術(shù)的方向不一定一直在正確的方向上,也是有可能的。不過這個(gè)行業(yè)因發(fā)展很快,其實(shí)去年的方向和今年也不一樣,所以這個(gè)我覺得都是走一步看一步。
丁琰:其實(shí)我們鹿明公司自己也正在籌建數(shù)采廠,目前有兩個(gè)正在籌建過程中。我們自己是采用的 UMI這種方式,主要的原因還是在于成本。現(xiàn)在的數(shù)采廠建設(shè)成本里,有70% ~ 80%可能都是買機(jī)器人硬件的花銷,這方面的成本會(huì)造成整個(gè)數(shù)據(jù)成本異常高昂。那有沒有人能消耗這些數(shù)據(jù),其實(shí)還是有點(diǎn)未可知。因?yàn)檫@種大規(guī)模的批量建的數(shù)采廠,本身如果數(shù)據(jù)管理做不到位,數(shù)據(jù)基本上都是廢的,沒有人會(huì)買。我跟同行去交流,大家對這些數(shù)據(jù)的吐槽還是挺多的,主要就是在于精細(xì)化管理沒有做到位。
我覺得這也是前期的一種正常狀態(tài),隨著后面的發(fā)展,可能會(huì)大家會(huì)對數(shù)據(jù)管理會(huì)更精細(xì),或者引進(jìn)不同的數(shù)采方式,彌補(bǔ)數(shù)采廠數(shù)據(jù)的多元化問題。我覺得不管是遙操作也好, UMI也好,動(dòng)捕也好,仿真數(shù)據(jù)也好,存在即合理,只是不同份額的問題。我覺得未來的數(shù)采可能會(huì)更加多元化一點(diǎn)。
戴若犁:我在北京有辦公室,有團(tuán)隊(duì),在深圳也有,北京市和深圳市的領(lǐng)導(dǎo)來調(diào)研,我其實(shí)給他們都寫過這樣的建議。其實(shí)他們也很關(guān)心,到底應(yīng)該怎么花錢,怎么幫助企業(yè)是最有價(jià)值的。我覺得其實(shí)就是要看最終數(shù)據(jù)的成本構(gòu)成。
比如我們說兩類數(shù)據(jù)。一種是數(shù)采工廠的,那個(gè)數(shù)據(jù)的成本大概有50%是設(shè)備的攤銷折舊。如果按照5年攤銷,大概有50%是人力的工時(shí),剩下的都可以忽略。如果是剛才說的野采,大概60%是人力,大概40%是場景的協(xié)調(diào),比如租500個(gè)Airbnb或者途家的房子去采生活服務(wù),在這邊硬件攤銷又可以被忽略了。
所以我當(dāng)時(shí)跟兩邊政府領(lǐng)導(dǎo)說的就是,不管是做數(shù)據(jù)的公司,還是做模型本體的公司,如果可以幫助他們在需要數(shù)據(jù)的時(shí)候,能夠在人力的補(bǔ)貼或者是場景的協(xié)調(diào)上降成本,或者在前置的設(shè)備投入上能夠幫助企業(yè)的話,那其實(shí)就直接在成本里頭幫助了大家。也可以考慮請我們這樣的數(shù)據(jù)服務(wù)公司,來采集一些普適的,可以跨本體的數(shù)據(jù)集,把這個(gè)數(shù)據(jù)集開放給大家,讓大家在早期試錯(cuò)的時(shí)候不用每一家都自己花很多錢去做。這個(gè)可以幫助所有人,我是這么認(rèn)為的。
王建明:現(xiàn)在很多賣本體的公司,他們經(jīng)常會(huì)有ToG這種銷售模式,其實(shí)很大一個(gè)點(diǎn)就是消耗他們的本體用來做數(shù)據(jù)采集。我覺得戴博提到的In-the-wild這個(gè)數(shù)據(jù)采集方式上,如果政府部門可以調(diào)動(dòng)一些,比如國有的超市,或者政府部門能夠介入的一些人力操作的部分,讓In-the-wild這個(gè)數(shù)據(jù)采集的能力組織起來,其實(shí)不需要投入太多的這個(gè)資金,更多是資源的調(diào)度。這樣跟數(shù)據(jù)公司配合起來,可能會(huì)比購買一堆本體來得更直接,和對行業(yè)的推動(dòng)會(huì)更有作用一點(diǎn)。
其實(shí)我們剛才也提到了,在工廠里面采集數(shù)據(jù)對量有一定的需求,但是可能更需要的是In-the-wild這個(gè)數(shù)量級(jí)的數(shù)據(jù)采集。各位在In-the-wild的數(shù)據(jù)采集上面有一些什么樣的觀察和思考?我先說說我的想法。我覺得In-the-wild這種數(shù)據(jù),其實(shí)更多是運(yùn)營能力的問題。那么是不是像美團(tuán)、餓了么這一類公司,會(huì)更適合做這種數(shù)據(jù)的運(yùn)營?作為數(shù)據(jù)公司來說怎么看這個(gè)問題?
戴若犁:In-the-wild的數(shù)據(jù),分兩部分。一部分是你說的,美團(tuán)、餓了么這種人力動(dòng)員,高效卷人力的能力,另外一部分可能是設(shè)備能力,就是說你要有優(yōu)質(zhì)的、對于操作的摩擦很低的 low-friction 設(shè)備,而且能夠采到足夠的modality,就是模態(tài)和精度,那這是兩部分。另外一部分是數(shù)據(jù)的利用,In-the-wild采回來的數(shù)據(jù)最大的問題是稀疏,模態(tài)稀疏,維度也稀疏,信息也稀疏,那有沒有辦法從稀疏的數(shù)據(jù)里邊挖出來稠密的信息,甚至于增廣出稠密的信息?這也是很考驗(yàn)水平的。比如世界模型,現(xiàn)在有一條鏈路就是稀疏性信息進(jìn)到一個(gè)世界模型,通過大量的先驗(yàn)估計(jì)出來更豐富的模態(tài)跟維度,這些其實(shí)都跟那個(gè)美團(tuán)、餓了么的人力組織就不太相關(guān)了。
所以我覺得其實(shí)In-the-wild也是一個(gè)非常考驗(yàn)技術(shù)水平的事情,如果只是靠人力組織的能力,那你的生意就是人力組織。到最后其實(shí)你拿出來什么能力,你賺到什么錢,這是非常公平的一個(gè)事情。
佟顯喬:我覺得In-the-wild在現(xiàn)在這個(gè)時(shí)間點(diǎn)其實(shí)屬于非常早期的階段,目前來看人力管理那部分還是第二步。第一步是怎么采集,硬件設(shè)備、軟件的易用性,和數(shù)據(jù)的處理,不管你是online處理還是后處理,都得先讓人可以很快地用起來。
這些東西成熟以后,后面拼的才是人力組織能力。這就有點(diǎn)像自動(dòng)駕駛行業(yè),現(xiàn)在數(shù)據(jù)標(biāo)注就變成了標(biāo)框了,但是早期階段,大家用不同的工具,標(biāo)注的效率和數(shù)據(jù)采集效率其實(shí)是不一樣的。到后邊這個(gè)東西成熟以后,大家就變成比拼誰人力成本搞得低,誰組織得好,這個(gè)是第二步。所以In-the-wild在具身這塊,其實(shí)還是早期階段。目前來看還是從技術(shù)的角度,要把采集設(shè)備這些技術(shù)角度做得更好,才能到下一個(gè)階段。
丁琰:我跟那個(gè)佟博的想法還是比較一致的。Collect data In-the-wild 確實(shí)是一個(gè)很好的愿景,但是我估計(jì)大規(guī)模需求應(yīng)該還是在明年下半年才會(huì)起來。因?yàn)楝F(xiàn)在整個(gè)模型的架構(gòu)還不是很清楚,對數(shù)據(jù)的探索,其實(shí)還在通過樣本數(shù)據(jù)或者是小批量數(shù)據(jù)去試驗(yàn)的階段。大家雖然嘴上說collect data In-the-wild,但其實(shí)并沒有要那么多的數(shù)據(jù),大部分?jǐn)?shù)據(jù)應(yīng)該還是出自于數(shù)采工廠。
我覺得collect data In-the-wild 肯定是要做的,但是這樣對于數(shù)采設(shè)備會(huì)提出更高的要求。舉個(gè)例子,我們便攜版本和全功能版本之間的區(qū)別就是,便攜版本沒有激光。因?yàn)榧す鉀]有辦法在野外進(jìn)行采集,它不可能隨時(shí)隨地給你提供一個(gè)電源和基站,并且激光可能還會(huì)受強(qiáng)光、紅外線等等的影響,還有遮擋之類的各種情況,其實(shí)就相當(dāng)于有些設(shè)備In-the-wild是完全不能用的,所以怎么去設(shè)計(jì)一個(gè)數(shù)采設(shè)備是重中之重,這是第一步。
第二步是,我覺得野外采集并沒有想象中那么簡單,不是說你隨便雇一個(gè)工人,他拿著設(shè)備亂采,這個(gè)數(shù)據(jù)就能用了。我們對于數(shù)據(jù)質(zhì)量的要求始終是很高的,如果數(shù)據(jù)量非常非常大的話,可能數(shù)據(jù)質(zhì)量臟一點(diǎn)也無所謂,但是如果你的數(shù)據(jù)量還沒有達(dá)到一定級(jí)別,其實(shí)數(shù)據(jù)質(zhì)量要比數(shù)據(jù)數(shù)量重要得多得多。所以怎么在In-the-wild這個(gè)過程中保證數(shù)據(jù)的質(zhì)量,怎么培訓(xùn)這些工人,其實(shí)也不是那么簡單的。
像美團(tuán)或餓了么,他們有大量的場景和普通的工人,但我覺得他們并不能在一開始就作為主力軍去采集數(shù)據(jù),至少在很長一段時(shí)間里是不可能的。前期階段應(yīng)該還是以一些比較well train的,有很多采集技巧的工人,拿著這個(gè)合格的數(shù)采設(shè)備在野外進(jìn)行采集為主。
王建明:我還有最后兩個(gè)問題。剛才也提到,除了工廠的數(shù)據(jù)采集,In-the-wild的數(shù)據(jù)采集,其實(shí)還有一種是有模型能力并且解決場景問題的公司,自己去做數(shù)據(jù)采集。舉個(gè)例子來說,主機(jī)廠自己有數(shù)據(jù)處理能力和模型能力,我感覺這一類公司確實(shí)也有趨勢,最近一段時(shí)間有可能是受北美一些公司的影響,他們可能在解決場景的問題的過程中同時(shí)積累數(shù)據(jù)和模型,把自己的小飛輪滾起來。一個(gè)一個(gè)場景解決了之后,就由小飛輪變成大飛輪。那你們覺得在這個(gè)過程中,這類公司會(huì)不會(huì)更容易積累數(shù)據(jù)?這些數(shù)據(jù)跟數(shù)據(jù)公司沒有什么關(guān)系,這會(huì)讓你們覺得很擔(dān)憂嗎?
戴若犁:我覺得這是一個(gè)很好的期待,但很大的問題就是,是不是真的能夠落地。我親身經(jīng)歷了好幾個(gè)很大的革命,比如說自動(dòng)駕駛、大語言模型, AR、VR。坦白來說,具身智能現(xiàn)在每年是 200 億美元、300 億美元的錢撒到這個(gè)行業(yè),但是如果跟之前的AR、VR、大語言模型和自動(dòng)駕駛相比,百億級(jí)別的錢進(jìn)到這個(gè)行業(yè)的時(shí)候,那三個(gè)行業(yè)的成熟度比現(xiàn)在具身智能的成熟度要高非常非常多。大家想想看,百億規(guī)模的錢進(jìn)到 VR 行業(yè)的時(shí)候,Oculus已經(jīng)可以做成一個(gè)350美元的設(shè)備賣給你,你回家可以玩過山車了,但現(xiàn)在是沒有這樣的機(jī)器人的。然后自動(dòng)駕駛,07年的時(shí)候,美國的DARPA挑戰(zhàn)賽就有六支隊(duì)伍可以完全無人干預(yù)地完成幾十英里的自動(dòng)駕駛,那是18 年以前。
所以具身智能現(xiàn)在的狀態(tài),其實(shí)我覺得很奇怪。建明也是投資人,為什么你們?nèi)雸鰰?huì)這么早?投資都投到大學(xué)教授里面去了。這其實(shí)是很奇怪的一件事情,我是高度懷疑,包括國內(nèi)的一些公司,真的能夠進(jìn)到人類的家庭,讓小飛輪轉(zhuǎn)起來嗎?我特別希望可以,但是我不信。
佟顯喬:我的觀點(diǎn)也是。舉個(gè)例子,從最早的深度學(xué)習(xí)去做感知,到后來感知的范式變成了BEV,再到后來的端到端、VLA,其實(shí)具身就是處在一個(gè)非常早期的階段,最后是什么樣?很難說。像你說的一些垂直領(lǐng)域的機(jī)器人,可能它們干的活相對比較簡單。比如到車廠里邊去擰螺絲,訓(xùn)一個(gè)這樣的小模型。也許以今天的能力,他們自己采數(shù)據(jù)就能解決,但這可能也不是具身機(jī)器人的最終追求。到底是哪條路能先來?這個(gè)事其實(shí)很難判斷,但我們肯定都是沖著那個(gè)最大的,或者是終極階段去的。從數(shù)據(jù)的角度來說,不管你是垂直領(lǐng)域還是通用領(lǐng)域,你采的數(shù)據(jù),你需要的東西和訓(xùn)的模型結(jié)構(gòu)其實(shí)還是那些。現(xiàn)在這個(gè)早期階段,大家也只能follow著正確的方向走,我覺得很難判斷最后哪個(gè)能成。
丁琰:其實(shí)我是很羨慕和佩服那些公司的。比如說剛剛提到一個(gè)例子是Dyna,我們公司肯定沒有他們那種資源,他們是可以完成一個(gè)數(shù)據(jù)采集、數(shù)據(jù)訓(xùn)練,反哺反饋,然后再落地的整個(gè)閉環(huán),有點(diǎn)像一個(gè)獨(dú)立的王國在運(yùn)行這件事。他們的know-how和insight的積累速度是非常快的。
絕大部分公司不能比擬這個(gè)過程。但是他們也會(huì)有一個(gè)小問題,就是除非資源非常多才能把整套邏輯和這個(gè)王國搭建起來,不然資源太分散的話可能搞不定。比如有些公司可能把90%資源全部投來訓(xùn)模型,但如果每個(gè)環(huán)節(jié)都想做,你又想采數(shù)據(jù),又想訓(xùn)模型,又想去真機(jī)部署,那你得花費(fèi)很多的資源去布置每一個(gè)陣地,這是很累的。他們?nèi)绻苁氐米。强隙ㄊ亲詈茫珨?shù)據(jù)公司的一個(gè)缺陷就是,他對于模型的理解肯定沒有別的公司強(qiáng),如果你不是大量地訓(xùn)模型,這個(gè)know-how和insight總歸還是會(huì)比模型公司少。
但是他還有個(gè)活下去的路徑。比如你做一個(gè)疊衣服的任務(wù),那個(gè)know-how和insight 是針對于疊衣服這個(gè)任務(wù)本身而言的。但是對于其它任務(wù),比如系鞋帶,這個(gè)know-how就沒有了。他不可能把所有的場景、所有的小任務(wù)、小場景全給搞定,他不可能有那么大的know-how。
但是做數(shù)據(jù)的公司就會(huì)有一條活路,這是我突然想出來的。我們是不是可以在和不同客戶打交道地過程中,有些客戶是疊衣服的,有些客戶是系鞋帶的,有些客戶是做飯的,幫助他們?nèi)カ@取know-how。他們自己可能也沒有那么多資源,所以我們聯(lián)合起來,做數(shù)據(jù)的公司和做模型的公司拼在一起,就可以把每個(gè)小場景做閉環(huán)。這可能也是一個(gè)數(shù)據(jù)公司活下來的一個(gè)途徑之一
王建明:最后一個(gè)問題。各位可以說說在機(jī)器人這個(gè)行業(yè),個(gè)人的vision、你們創(chuàng)辦公司的vision,以及你們覺得大概到什么時(shí)間點(diǎn),這個(gè)vision是可以夠得著的嗎?
戴若犁:我們公司的slogan叫做 we don' t make robots,we make them Intelligent。我們這個(gè)機(jī)器人公司不造機(jī)器人,我最大的期待,也不是vision,就是期待真的造機(jī)器人的那些杰出的企業(yè)和人,他們能活得好,他們能夠融到大錢,做大生意,這樣我們好好地做個(gè)配角就行了。
佟顯喬:我說一下我的vision。為什么做具身數(shù)據(jù)這個(gè)行業(yè),我覺得從數(shù)據(jù)切入是在這個(gè)不確定的行業(yè)里邊,最確定性的一件事情。今天這個(gè)行業(yè)還在早期階段,最后是什么樣?long way to go。可能十年,可能20年,在這個(gè)過程中,我覺得數(shù)據(jù)是唯一確定的事情,而且數(shù)據(jù)積累的know-how,實(shí)際就是模型積累的。所以為什么我和深圳AIRS一起去做這件事情?也是因?yàn)橛X得,從數(shù)據(jù)的角度切入,去follow最先進(jìn)的方向,做具身智能這件事,是一個(gè)長期偏確定性的創(chuàng)業(yè)機(jī)會(huì)。
丁琰:機(jī)器人的場景非常非常多,我們鹿明就希望守住自己這一塊地,在這一塊地里做到top1的級(jí)別。我們自己在做 UMI數(shù)據(jù)的時(shí)候,目前來說還是最快的一家,我們想守住自己的陣地,把各種東西探明白、搞清楚,然后服務(wù)大家。我們的理解是, UMI這塊還有好多問題沒有解決,甚至沒幾家能夠把它真正用起來,還有比較長的路要走。另外從在工廠里采到在野外采數(shù)據(jù),又是另外一個(gè)跨越。在工廠里采,采完下一步其實(shí)就到要實(shí)現(xiàn)落地的階段了,這可能還是一個(gè)比較長的過程,要在兩到三年之內(nèi)完成,這是我個(gè)人和公司的愿景。
王建明:謝謝各位嘉賓,那么數(shù)據(jù)環(huán)節(jié)的探討就先到這里。
雷峰網(wǎng)文章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。