成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色

<nav id="24i0i"><sup id="24i0i"></sup></nav>

<tr id="24i0i"></tr>

<nav id="24i0i"><sup id="24i0i"></sup></nav>

<tfoot id="24i0i"><noscript id="24i0i"></noscript></tfoot>

<tr id="24i0i"><small id="24i0i"></small></tr>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給圖普科技

發送

0

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

本文作者：圖普科技

2016-09-29 18:39

導語：Google Brain宣布在TensorFlow 上開源了其最新版的自動圖像描述系統“Show and Tell”。

雷鋒網按：9月23日，Google Brain宣布在TensorFlow 上開源了其最新版的自動圖像描述系統“Show and Tell”，采用采用編碼器-解碼器神經網絡架構，可以根據新的場景生成準確的新圖說。作者系圖普科技工程師，本文將會解析機器如何“看圖說話”？以及，Google為什么要開源其系統？雷鋒網獨家文章。

| 機器的Image Captioning（自動圖像描述）能力

電影《HER》中的“薩曼莎”是一款基于AI的OS系統，基于對西奧多的手機信息和圖像內容的理解，“她”可以為他處理日常事物、可以陪他談心、甚至進行Virtural Sex，還可以讀懂所有的書、跟哲學家交流，“她”所做的一切儼然就是一個有血有肉的人類才能實現的。但薩曼莎還勝于人類，她能夠同時和8316個使用者聊天，和641個使用者in love，并且對每個人都是真情實感。

電影的“她”是人類想象中的強AI，“她”有思維，具備比人還強的智力以及運算能力，雖然目前的AI還不能完全做到“她”那樣強，但近年來人工智能技術的發展讓機器可以越來越像人類，計算機開始能夠理解更高層次的圖像內容，“看圖說話”似乎不再是專屬于人類的專利。

在人工智能領域，這是機器的 Image Captioning（自動圖像描述）能力。

從表現上看，機器不僅需要能夠知道圖像中包括哪些物體，同時還必須描述物體之間的聯系以及它們的屬性和參與的活動，這顯然是機器一種更加高級的智能形態。如下圖：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖1. Automatic image caption 的例子

從原理上看，這依賴于智能的兩個部分：“看”和“語言表達”，分別對應人工智能最重要的兩大子領域： 機器視覺和自然語言處理。

機器視覺和自然語言處理從來都不是相互割裂的，兩者技術上相互借鑒歷史由來已久，更重要的是，從一個完整的智能系統上看，無論是現在的人類智能還是終極機器的智能，多模態的融合是一項必然的要求，視覺和語言理解表達缺一不可，兩者相互協助，共同產生高級智能。

所以圖像自動描述能力作為兩個智能領域的關鍵性連接，必然是人工智能領域最頂尖的研究者最密切關注的任務之一。雖然圖像自動描述并不是一個新興的任務，在此領域中已經積累了大量的研究工作，但在2015年，此任務才得到了一個顛覆性的突破，機器自動描述圖像的能力在某些案例上的表現會讓人產生一種強人工智能即將要實現的錯覺。

9月23日，Google Brain宣布在TensorFlow 上開源了最新版的自動圖像描述系統“Show and Tell”，成功地將機器這方面的能力提高到一個新臺階。在這之前的版本，更多的是告訴大家圖像里面有什么或者總是重復使用人類在訓練模型時使用的描述語言，對于圖像中的物體之間以及物體和環境之間的關聯、意義并不能給出滿意的描述。

而“Show and Tell”在遇見全新的場景時，能夠基于圖像中物體和環境之間的交互聯系，自動生成更加準確的圖像描述，并且使用的自然語言更加流暢，與人類的表述差異無幾。

那么Google是如何做到這樣效果？要弄清其中的原理，我們需要先了解下在如今的深度學習時代，引領機器視覺和自然語言處理兩個領域取得突破的最重要的兩個技術，分別是：DCNN（Deep Convolutional Neural Network，深度卷積網絡）與LSTM（Long Short Term Memory，長短時記憶網絡）。

| DCNN與LSTM（深度卷積網絡與長短時記憶網絡）

在自然語言處理領域，許多高難度的任務都可以歸結進序列到序列（sequence to sequence）的框架中。

比如說，機器翻譯任務表面上是將一種語言轉換為另一種語言，本質上就是從一段不定長的序列轉換為另一段不定長的序列。如今實現seq2seq最有效的方法即為LSTM，一種帶門的RNN（Recurrent Neural Network，遞歸神經網絡)，它可以將源語言編碼為一個固定長度含豐富語義的向量，然后作為解碼網絡的隱藏狀態去生成目標語言。而Image Caption Generator（自動圖像生成器）方法正是受到機器翻譯中seq2seq進展的啟發：何不將源語言信號替換成圖像信號，這樣就能夠將機器翻譯的任務轉換也就是把圖像轉成自然語言，即圖像自然語言描述。

可是簡單地將圖像信號直接作為輸入是無法達到很好的效果，原因是原始的圖像信號并不是一個緊致的表示，含有太多的噪聲。所以需要引入DL（Deep Learning，深度學習）在機器視覺中最核心的部件：CNN（Convolutional Neural Network，卷積網絡）。

在DCNN的高層神經元輸出可以表示圖像的緊致的高層語義信息，如今眾多成功的機器視覺應用都得益于此，比如前段時間爆紅的Prisma（《AI修圖藝術：Prisma背后的奇妙算法》），其texture transfer（風格轉換）算法正是巧妙的利用了含有高層語義的圖像表示。

所以此圖像文字描述方法的基本思想就是利用了DCNN生成圖像的高層抽象語義向量，將其作為語言生成模型LSTM的輸入進行sequence to sequence的轉換，其結構圖如下：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖2. 系統結構

此方法的巧妙之處在于將視覺和自然語言處理領域中最先進的兩類網絡連著在一起，各自負責其擅長的部分，同時進行端到端的訓練學習。

Image Caption的神經網絡學習可以用數學公式概括為：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

其中I為圖片，S為生成的句子，θ為網絡需要學習的參數，這個公式的含義指的是：學習最佳的網絡參數θ最大化在給定圖片下其生成正確描述的概率。同時由于語言句子的長度是不定長的，所以一般將其概率用鏈式法則寫成：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

其中N為句子的長度，S_i為句子的每一個詞。更具體的網絡形式為下圖：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖2. 語言模型LSTM，圖像模型CNN和詞嵌入模型

上圖將LSTM的recurrent connection（復現連接）以更加直觀的展開形式畫出來，在網絡訓練過程中，目標可以寫為以下的損失函數：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

其目標是更新LSTM、CNN和詞嵌入模型的參數，使得每一個正確的詞出現的概率最大，也就是讓此loss函數越小。除了LSTM、CNN模型的選擇和詞嵌入模型都會極大影響最后的效果，此方法最早發明時，最好的DCNN是2014年ImageNet競賽的冠軍網絡GoogLeNet。而后，隨著更強的CNN網絡Inception V1到V3系列的出現，作者發現在此框架的Image Caption的效果也隨之變得更好。這也是必然的，因為更強的CNN網絡意味著輸出的向量表示可以做到更好的圖像高層語義表示。

作者在其開源的Tensorflow項目中號召大家去嘗試現在最強的CNN分類網絡Inception-Resnet-V2，看看是否會有效果的繼續提升。對于詞嵌入模型，最簡單的方式是 one-hot-encoding的方法（向量中代表詞的維度為1，其余為0），而此方法使用了一個更復雜的詞嵌入模型，使得詞嵌入模型也可以隨著其他兩個網絡一起訓練，訓練出來的詞嵌入模型表示被發現可以獲取到自然語言的一些統計特性，比如以下的詞在學習到的空間中是非常相近的，這符合自然語言中這些詞的距離。

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖4. 一些詞在嵌入空間中的相近詞

在最早的版本中，CNN模型使用的是在ImageNet數據庫上預訓練好的分類模型，在Image caption訓練過程中其參數是不做更新的。而在最新的方法中，作者稱在訓練過程中更新CNN最高層的權重可以產生更好的效果，不過這些參數的更新需要在LSTM更新穩定后才能進行，不然LSTM的噪聲會對CNN模型造成不可逆的影響。

視覺模型和語言生成模型進行端到端的聯合訓練有利于相互提升效果。例如在CNN模型中，可以將圖像中更有利于“描述”而不是用于“分類”的信息遷移給語言模型，由于ImageNet的訓練數據的類別空間中比較缺少顏色信息，所以在不使用聯合訓練的CNN模型的2015 CVPR版本中，并不會生成類似于“一輛藍色和黃色的火車”這樣的描述。當進行聯合訓練后，caption模型可以生成更精確、更細節化的句子，如下圖所示：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖5. 初始模型和最新模型生成句子的對比

這讓人會不禁產生一個疑問：現在的模型是否真的學會對圖片中未曾見過的情境和交互生成全新的描述，還是只是簡單的復述訓練數據中的句子？這個問題關乎到算法是否真正理解了物體及其交互這個核心問題。

科學家們給出了一個令人振奮的答案： Yes。

如今的圖像語言描述系統確實已經發展出自主產生全新的句子能力，例如下圖粗體的描述為不在數據庫中的標注句子：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖6. 生成的語言描述 (粗體的句子為不在訓練數據中的全新句子)

其生成全新描述過程可以用下圖進行很好的闡述：

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖7. 模型從訓練數據提供的概念中生成全新的描述

此領域的突破同時也得益于如今標注數據的增長，作者們通過實驗證明：越多的圖像描述樣本，越是可以極大地增強如今已經效果不錯的圖像描述算法。

圖像描述數據庫對比于如今最大的標注數據庫ImageNet還差幾個數量級，所以我們有理由期待，一旦具備更多的標注數據，圖像描述算法在如今的基礎上還可以得到大幅度的提升。

這也是Goolge的研究者開源其系統的原因，其希望讓更多人參與到此領域的研究中。

視覺信息約占人類從外界獲取信息的?，所以機器視覺的重要性自然不言而喻；語言作為人之所以為人的標志，因而自然語言處理被稱為人工智能皇冠上最亮的明珠。Image caption作為一個連接此兩個領域的問題，其突破性的進展更深層次的意義在于表明人工智能的全面進步。

俗話說「一圖勝千言」，長久以來計算機視覺領域比較關注一些基本的視覺任務，如分類，檢測，分割等。近期在image caption領域的突破使得計算機可以用自然語言去描述圖片，實現真正的“千言說圖”。也許我們真的在進入一個嶄新的智能時代，而當強人工智能真正出現之時，一切都將不可逆地去往技術奇點。

解析：Google開源的“Show and Tell”，是如何讓機器“看圖說話”的？

圖8. 取于《HER》影片末尾。

我想，如果有一天，“她”真的到來，看到此情此景。

“她”大概會說：天臺上一位穿著紅衣的女生依偎著白衣男生，眼前是鱗次櫛比的上海夜景，他們好像都有點心事重重。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

分享：

相關文章

圖普科技

專欄作者

基于圖像識別技術多維度解讀圖片和視頻

掃描關注作者微信

發私信

當月熱門文章

最新文章

熱門搜索

Google 可穿戴設備大數據 Android Wear Yann LeCun PYTHON saas 視頻商湯科技產品 Galaxy

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

<sup id="i04i4"></sup>

<nav id="i04i4"><cite id="i04i4"></cite></nav>

<sup id="i04i4"></sup>
<tr id="i04i4"></tr>