成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色

<small id="yyy08"></small><nav id="yyy08"><code id="yyy08"></code></nav>

<tfoot id="yyy08"><dd id="yyy08"></dd></tfoot>

<sup id="yyy08"><code id="yyy08"></code></sup>

<nav id="yyy08"><sup id="yyy08"></sup></nav>

<tr id="yyy08"></tr>

<nav id="yyy08"><cite id="yyy08"></cite></nav>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給高云河

發送

0

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

本文作者：高云河

編輯：楊曉凡

2017-07-22 21:13

導語：谷歌期望通過教會機器人理解語義概念，以使得機器人能夠從人類的示范中學習動作，以及理解物體的語義概念，完成抓取動作。

雷鋒網 AI 科技評論按：機器學習能讓機器人學會復雜的技能，例如抓住把手打開門。然而學習這些技能需要先人工編寫一個獎勵函數，然后才能讓機器人開始優化它。相比之下，人類可以通過觀察別人的做法來理解任務的目標，或者只是被告知目標是什么，就可以完成任務。目前，谷歌期望通過教會機器人理解語義概念，以使得機器人能夠從人類的示范中學習動作，以及理解物體的語義概念，完成抓取動作。

以下為雷鋒網 AI 科技評論編譯的這篇谷歌博客的部分內容。

問題的引入

人類與機器人不同，我們不需要編寫目標函數即可以完成許多復雜的任務。我們可以這樣做，是因為我們利用了自己對世界先驗知識：當我們看到有人切蘋果時，我們明白，目標是切出兩個蘋果片，不管它是什么類型的蘋果，還是用什么樣的工具來切蘋果。同樣，如果我們被告知拿起蘋果，我們明白我們要抓住特定的物體“蘋果”，而不是梨或者桃子，因為我們可以在環境中理解“蘋果”這個詞：我們知道這個詞的意思。

這些就是語義概念：例如切兩個蘋果切片為顯著事件，而“蘋果”這樣的詞就表示的物體類別。那么我們可以教導機器人來了解語義概念，讓它們通過物體類別標簽或用戶提供的示例來實現簡單命令嗎？在這篇文章中，谷歌的研究者討論了他們最近關于機器人學習的一些工作，它們結合了機器人自主收集的經驗和人工標注的數據，其中機器人的自主收集的數據很豐富，但缺乏人工提供的標注，而人工標注的數據能使機器人更好地理解語義。同時本文也描述了機器人如何使用它們的經驗來理解人工示范中的顯著事件，并且理解諸如“玩具”和“筆”之類的語義類別，以基于用戶命令拾取物體。

通過深度視覺特征理解人類示范

在第一組實驗中，研究者介紹了他們這篇論文中的內容：「Unsupervised Perceptual Rewards for Imitation Learning」。目標是使機器人能夠在只看到少量未標注的人類演示的情況下，理解一個任務，比如打開一扇門。通過分析這些演示，機器人必須理解執行哪些語義方面顯著的事件能夠使任務成功，然后使用強化學習來執行這些顯著事件。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

左圖：人類演示右圖：相應的機器人模擬

在非常小的數據集上使用無監督學習是機器學習中最具挑戰性的場景之一。為了使該方法可行，研究者使用了從ImageNet上進行圖像識別訓練的大型網絡的深度視覺特征。這種深度視覺特征對于語義概念是敏感的，能夠很好的提取語義概念，同時防止諸如外觀和照明等變量的干擾。研究者使用這些功能來解釋用戶提供的演示，結果顯示從幾個演示中就可以以無監督的方式學習到獎勵函數，而無需額外訓練。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

在從觀察中學習到獎勵函數之后，研究者用它來引導機器人學習開門任務，只使用圖像來評估獎勵函數。借助初始的動作演示，機器人有10%的時間能夠成功完成開門動作，而在機器人使用學習到的獎勵函數繼續學習之后，準確率則能夠提高到100%。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

學習過程

通過自我監督和模仿來模仿人的動作

在「Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation」這篇論文中，谷歌的研究者提出了一種從觀察中學習世界的新穎方法，并通過自我監督的姿態模擬實驗證明了該方法的可行性。該方法主要依靠的時間和空間的同時性進行監督：通過訓練區分視頻不同時期的幀，該方法學會將現實分解和組織成有用的抽象表示。

在例如姿態模擬的任務中，抽象表示的不同維度可能編碼了人或機器人身體的不同關節。研究者并沒有手動定義人與機器人關節之間的映射（這種映射通常由于人和機器人的生理差異而模糊不清），而是讓機器人以端到端的方式進行模仿學習。當模型同時接受人和機器人觀察的訓練時，即使沒有提供任何人與機器人的對應關系，模型也可以自然地發現兩者之間的對應關系。因此，該方法可以得到一種機器人，無需人與機器人之間的對應關系，即可模仿人的姿勢。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

機器人的自監督人類動作模擬

上面展示的多對一和高度非線性關節映射是端到端學習有點的有力證明。在這個例子中，人的上下運動涉及許多關節，而機器人只需要一個關節。結果顯示機器人并沒有使用任何明確的人類姿態信息，本身就發現了這種高度復雜的映射

通過物體語義類別進行抓取

上面的實驗展示了人類如何通過演示來制定機器人的目標，在這種情況下，機器人必須解釋任務的語義：顯著事件和姿勢的相關特征。如果不向機器人展示任務來制定目標，而是只是通過告訴機器人要做什么來制定目標，這該怎么辦呢？這就需要機器人理解語義，以便識別世界中哪些物體與用戶指定的語義類別相對應。在End-to-End Learning of Semantic Grasping這篇文章中，谷歌的研究者研究了人類手工標注的數據和機器人自動收集的數據的組合如何用于執行語義抓取的任務，機器人必須從與箱子中拾取用戶指定物體，例如“橡皮擦”或“玩具”。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

為了學習如何執行語義抓取，機器人首先通過自主地嘗試拾取各種各樣的物體，收集一個大量的抓取數據集。該數據本身可以使機器人拾取物體，但并不能使機器人理解如何將物體與其語義標簽相關聯。為了能夠理解語義，研究者再次使用了適度的人工監督。每次機器人成功抓住一個物體，機器人會對該物體進行拍照，如下圖所示。

看一遍人類動作就能模仿，能理解語義的谷歌機器人登上無監督學習的新高度

然后，這些圖像的中的一部分由人工進行標注。由于呈現的圖像展示了物體在抓取姿態下的標準外觀，因此很容易通過在標注的圖片上訓練分類器，將這些標簽傳遞給剩余的未標注的圖像。然后標注過的表示圖像即可以告訴機器人實際拾取了哪個物體。在此后機器人從箱子拾取物體時，可以將抓取時觀察到的圖像與標簽聯系到一起。

使用這個標記的數據集，谷歌的研究者訓練了一個雙流模型，該模型以當前獲得的圖像和機器人將要采取的動作為條件，預測應該抓取哪個物體。研究者采用的雙流模型靈感來源于人類視覺皮層中觀察到的dorsal-ventral分解，其中ventral流負責推理物體語義類別，而dorsal流負責推理抓取的幾何結構。關鍵的是，ventral流可以包含由物體（不一定來自機器人）的標記圖像組成的輔助數據，而dorsal流可以包含不具有語義標簽的輔助數據，從而允許整個系統更有效地使用更大量的不同類別的標簽數據。以這種方式，可以將有限數量的人工標記與大量自動收集的機器人數據結合在一起，以便根據所需的語義類別來抓取對象，如下面的視頻所示：

https://youtu.be/WR5WUKXUQ8U

未來的工作：

實驗顯示了有限的人工標注語義標簽數據可以與由機器人自動收集和標記的數據相結合，以使機器人能夠理解顯著事件，物體類別以及用戶的演示。將來，機器人系統可以通過用戶標注的數據和不斷增加自主收集的數據集的組合進行訓練，提高機器人能力，并減輕設計自主機器人的工程負擔。此外，隨著機器人系統在現實世界中收集越來越多的自動標記的數據，該數據不僅可以用于改進機器人系統，還可以用于改進計算機視覺，語音識別和自然語言處理系統等其他系統，這些系統都可以從這樣大的輔助數據中得到改進。

當然，這并不是研究者們第一次考慮機器人語義學。自然語言理解，機器人感知，抓取和模仿學習等的廣泛研究工作已經考慮了如何在機器人系統中結合語義和行為，然而，谷歌的研究者在上面討論的這些實驗可能指向未來在自主機器人系統結合自我監督和人工標注數據進行工作的一個可行方向。

致謝：本文中的實驗由下列人員進行Pierre Sermanet, Kelvin Xu, Corey Lynch, Jasmine Hsu, Eric Jang, Sudheendra Vijayanarasimhan, Peter Pastor, Julian Ibarz, 以及 Sergey Levine。同時也感謝Mrinal Kalakrishnan, Ali Yahya, and Yevgen Chebotar 在開門任務中開發的學習框架，以及 John-Michael Burke在語義抓取實驗中進行的實驗設計。

想要進一步了解的讀者可以閱讀原文：Google Blog，或者閱讀文中所提到的論文：

Unsupervised Perceptual Rewards for Imitation Learning

Time-Contrastive Networks: Self-supervised Learning from Multi-View Observation

更多人工智能學術新聞、近期各大學術會議全方位報道，請繼續關注雷鋒網 AI 科技評論。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

分享：

相關文章

高云河

知情人士

發私信

當月熱門文章

最新文章

熱門搜索

小米京東車聯網 4G AWS 創享會智駕 AI教育 Fitbit Echo PS4

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

<small id="yyyyy"></small>

<small id="yyyyy"><blockquote id="yyyyy"></blockquote></small><noscript id="yyyyy"></noscript>

<sup id="yyyyy"></sup>

<tfoot id="yyyyy"><dd id="yyyyy"></dd></tfoot>

<tfoot id="yyyyy"><noscript id="yyyyy"></noscript></tfoot>