TR35 | Sergey Levine：提高機器人任務能力的關鍵，就是讓它成為“自學小能手” | 新智造

本文作者： Misty

2016-08-25 16:55

導語：縱使它們（程序）能夠戰勝世界最棒的圍棋選手，但它們從未親自拿起過一枚棋子。所以，要讓它們自己學會“拿棋子”。

美國時間8月23日，《麻省理工科技評論》公布了第16屆TR35榜單，即全球35名35歲以下青年創新者榜單。各路精英在創造力、毅力、管理能力方面都堪稱翹楚，他們的創新領域涉及醫療、能源、計算機和先進電子器件；他們的事業舞臺涵蓋初創公司、研發機構和企業巨頭。他們是各自領域的領軍人物。而加州大學伯克利分校機器人學專家Sergey Levine便是其中的一員。

在今年三月的圍棋人機大戰中，谷歌人工智能AlphaGO打敗了世界最優秀的圍棋選手李世石，讓人們深深感嘆當今人工智能的強大力量。當時，Sergey Levine正在谷歌公司工作。在這九個月的工作時間中，他親眼目睹了人工智能的勝利，在欽佩AlphaGo在機器學習領域所取得的成就的同時，他發現了這個強大的圍棋游戲算法中存在的一個明顯缺點。

他笑稱：

縱使它們（程序）能夠戰勝世界最棒的圍棋選手，但它們從未親自拿起過一枚棋子。

眾所周知，機器人有著強大的大腦，它們足夠聰明，運算速度超快，能夠完成人類無法完成的工作。然而，它們也存在一個劣勢：一些在人類看來最常見最簡單的動作（比如擦桌子、抓杯子等），它們做起來非常困難。因此，它們要順利地完成這些任務，學習能力相當重要。

而Sergey Levine在做的，就是教會機器人學習。

讓機器人吸取經驗、自學成才

在谷歌研究所中，14只機器人手臂擺在一起，連續數月地撿起不同的物品，重的、輕的、扁的、大的、小的、硬的、軟的、還有半透明的。而這正是Sergey Levine團隊正在進行的項目。

TR35 | Sergey Levine：提高機器人任務能力的關鍵，就是讓它成為“自學小能手” | 新智造

日復一日地撿起物品聽起來有點蠢，但Sergey Levine覺得這種方法獨一無二、意義重大。要教會機器人完成一個動作，傳統的方法首先要讓機器人去識別、分辨不同的物體，然后要通過反復的訓練，最終才能實現目標。這種方法在教會機器人完成簡單的任務（比如擰上瓶蓋）時還算湊效，但這個訓練過程漫長而無味。另外，在面對復雜的任務時，這種方法的效果并不明顯。

而Sergey Levine團隊的方法卻與傳統方法截然不同，它的關鍵之處在于將已經十分出眾的圖像識別分類算法用于機械臂，讓機器人能從先前的成功經驗中學習。

首先，Levine給機械臂設定一些手頭上很容易解決的目標(比如擰上瓶蓋)，完成之后機械臂就可以回顧之前的成功案例，并從中學習經驗，方便完成今后的任務。同時，機器人會觀測視覺系統數據如何映射到機械臂的電機信號，從而正確地完成任務。此外，機器人還會監督自己的學習過程。

而之所以要讓這14只機械臂日復一日地撿起不同的物品，就是為了讓它們能夠學習不同物品的不同經驗，從而將經驗用到其他的物品之上。Levine表示：

這是對機器自身行為的逆向工程。這樣，它就可以將學習到的知識應用到隨后的相關任務中，這樣機器人就會越來越聰明。

TR35 | Sergey Levine：提高機器人任務能力的關鍵，就是讓它成為“自學小能手” | 新智造

用卷積神經網絡“調教”機器人

其實，要教會機器人撿起不同的物體非常復雜，因為傳感器數據和實際行動之間沒有明顯的必然聯系，尤其是當大量傳感器數據一下子涌來時。

為了克服這一點，Sergey Levine團隊讓機械臂雜亂地使用單目視覺伺服、深度卷積神經網絡來撿起目標物（如杯子、膠帶座和玩具海豚），從而預測抓取的結果。機器人的度卷積神經網絡會不斷進行自我再訓練（起初有許多次失敗，但漸漸會開始好轉）。最開始，團隊所運用的機械臂并沒有那么多，后來為了加快這一進程，團隊并行投入了 14 只機械臂來研究這一問題。這一系列過程是完全自主的，人類所需要做的就是把箱子填滿然后打開電源等著機器人主動完成任務即可。

經過一年訓練后，手臂能夠自己抓取并撿起小物體。但是，機械臂的編程信息通常是用來識別物體并按照預定的程序做出反應，無法像人類一樣根據周圍的環境做出改變。那么問題就來了：對于可預測的物體和環境，機械臂可以輕松應對，但是它們可以抓取從來沒有見過的物體嗎？

為了探究這一點，Sergey Levine讓機器人手臂伸入隨機裝滿物體的盒子里，讓它們憑藉運氣隨機抓取物體。在一天之后，他收集機器人嘗試抓取物體的數據，然后用這些數據訓練神經網絡，讓抓取物體的結果更加理想。在80 萬次（相當于 3000 小時的機器人訓練）抓取行動之后，機械臂就可以自動糾正自己的行動了。很快，他們就可以更加順利地抓取物體了，甚至會采用某種策略，如推開一個物體去抓取另外一個物體，或者去抓取柔軟的物體而不是堅硬的物體等。

TR35 | Sergey Levine：提高機器人任務能力的關鍵，就是讓它成為“自學小能手” | 新智造

在機械臂完成所有這些任務的過程中，沒有程序員編寫系統告訴他們該怎么抓取物體，但它們可以從自己的經驗中學習。此外，它們還能使用反饋環路，將抓取物體的失敗率降低到18%。

現在，Sergey Levine研究的機器人已經練成了“抓物神功”，不過，要想從實驗室走到真實世界，并能輕松應對變化多端的環境、不同的目標物、不同的光照條件及不同程度的磨損，這些機械臂還需要很長一段時間的“調教期”。

目前，Sergey Levine打算將他們的研究擴展到更寬的領域中，然后在實驗室之外的其他多種真實環境中進行嘗試。我們期待這些機器人能夠“學有所成“，成為更加聰明、更有“靈魂”的機器人。

新智造為雷鋒網旗下專注于機器人的公眾號，我們關注機器人的現狀與未來，以及與機器人結合的相關產業。感興趣的朋友可添加微信號AIRobotics，或是直接掃描下方二維碼進行關注！

TR35 | Sergey Levine：提高機器人任務能力的關鍵，就是讓它成為“自學小能手” | 新智造

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

Misty

編輯

歡迎合作，歡迎來撩。微信號：Misty_Yoong

發私信

當月熱門文章