人工智能下一個技術壁壘：理解周圍世界

本文作者：溫曉樺

2016-01-29 08:35

導語：未來，使用Visual Genome的案例訓練出來的算法不只是能夠識別物體，還應該擁有對更復雜視覺場景的分析能力。

人工智能下一個技術壁壘：理解周圍世界

幾年前，人工智能技術之機器學習有了一項重大的突破：能夠識別圖片中的事物，而且準確率極高。而目前該技術的瓶頸在于，機器能否理解圖片中事物蘊含的意義。

一個名叫Visual Genome的新圖像數據庫或將推動計算機實現此目標，并幫助測量計算機在理解真實世界進程中獲得的進步。教導計算機分析視覺場景是人工智能的根本。這不僅將產生更多有用的視覺算法，而且能夠幫助訓練計算機更有效地進行交流。因為，語言與物質世界的表現具有非常緊密的聯系。

Visual Genome由專門從事計算機視覺研究的教授以及斯坦福大學人工智能實驗室主任李菲菲（音譯）與幾位同事合作開發。“我們關注計算機視覺中最困難的問題，它們是連接從感知到認知的橋梁。”李菲菲表示，“不只是輸入像數數據然后識別顏色、陰影等這類要素，而是真正將其轉化成3D的認識，以及對完整的視覺語義世界的理解。”

人工智能下一個技術壁壘：理解周圍世界

李菲菲和同事曾創立ImageNet，一個包含了超過100萬張帶有內容標記的圖片的數據庫。每一年的ImageNet大型視覺識別挑戰賽，就是使用這個數據庫來測試計算機自動識別圖像內容的能力。最近一次ImageNet大賽是在2015年12月，微軟憑借多達152層的深層神經網絡獲勝。

計算機視覺革命是一場持久的斗爭。2012年，這項技術迎來了關鍵的轉折點，那時加拿大多倫多大學贏得了ImageNet比賽，他們使用非監督的逐層貪心訓練算法成功讓機器基于目前最大的圖像數據庫進行分類識別，而不是依靠人為制定的規則。多倫多團隊的成就標志著深度學習的繁榮以及更普遍人工智能的復興。深度學習已經在許多其它領域得到了應用，也讓計算機能更好地處理其它重要任務，比如音頻和文本處理。

多倫多大學團隊的成就標志著深度學習研究的熱潮興起，以及人工智能的復興。深度學習開始應用于多個領域，使得計算機在執行音頻和文本處理等任務時變得越來越能干。

Visual Genome圖像的標記比ImageNet更多，包括圖像中各種物體的名稱和細節、這些物體之間的關系以及正在發生的動作蘊含的信息等等。這些識別標記是使用眾包方式完成的，該技術由李菲菲的斯坦福同事Michael Bernstein開發。

未來，使用Visual Genome的案例訓練出來的算法不只是能夠識別物體，還應該擁有對更復雜視覺場景的分析能力。

何為場景分析？李菲菲說道：“一個人坐在一間辦公室內，但是什么樣的布局，里面的人是誰，他在做什么，周圍有什么擺設，當時正發生什么事？——我們需要將感知、認知與語言相連接。”

而這些技術最終可以應用中方方面面，比如除了在線圖片管理等較簡單的應用，它還可以用于幫助機器人或自動駕駛汽車更精確地識別周圍場景。它們可以指導計算機理解物質世界，從而獲得更多的常識。

機器學習專家兼人工智能初創公司MetaMind創始人Richard Sochar表示，語言很大程度上是關于描述視覺世界的。
Visual Genome并不是唯一一個面向人工智能研究的圖像數據庫。比如，微軟也有一個名叫Common Objects in Context的數據庫，同時，谷歌、Facebook和其它公司也在加強人工智能算法分析視覺場景的能力。

via technologyreview

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

溫曉樺

編輯

掃描關注作者微信

發私信

當月熱門文章