谷歌搜索也是拼了！為上馬神經網絡，百名 PhD人工處理數據

本文作者：三川

2016-11-30 16:46

導語：近日，谷歌把神經網絡算法加入手機端搜索。這背后有百名語言學博士，夜以繼日地給文本數據添加標簽。

編者按：近日，谷歌把神經網絡算法加入手機端搜索。為了讓搜索更智能，谷歌在全世界聘用了百名語言學博士，夜以繼日地標注文本數據，來訓練神經網絡。雖然無監督學習成為熱點已有些時日，谷歌還未能擺脫人工處理數據的困境。

搜索“世界上最快的鳥是什么？”

谷歌會告訴你：“游隼。根據 Youtube，游隼被記錄下最高 389 km/h 的時速。”

這的確是正確答案，但它并非來自于谷歌的數據庫。當你輸入這個問題的時候，谷歌搜索引擎找出了一個描述世界上五種最快鳥兒的 Youtube 視頻。然后它只把最快的“一種”鳥兒的信息提取出來，不提及另外四種。

這是谷歌搜索最新的技術進展。為了回答這些問題，谷歌需要借助深度神經網絡。作為 AI 技術之一，它不僅正在重塑谷歌搜索引擎，還在革新谷歌全套人工智能服務。其它互聯網巨頭當然也受到波及，例如 Facebook 和微軟。

深度神經網絡是一種模式識別系統。它能通過分析海量數據，學習如何處理特定任務。這個例子中，它學會了怎么在網絡上的長篇文字中找出相關的一句或一段話，然后提取其中的要點呈現給你。

移動端谷歌搜索剛剛上線這種“句子壓縮算法”（sentence compression algorithms）。這個對人類來說很簡單，但對傳統的機器來說很難的任務，終于能被 AI 系統完成。這說明，深度學習正在促進自然語言理解這門藝術（理解并回應人類語言）的發展。

谷歌研發產品經理 David Orr 說：“對于“句子壓縮”，你不得不使用神經網絡算法，因為這是目前我們發現的唯一方法。”

為了訓練神經網絡算法，谷歌在全世界聘用了約百名語言學博士處理數據，對它們人工篩選。事實上，谷歌的系統是從人類那里學習，怎么在大段文字中提取有用信息。而這過程需要一遍遍地重復——這是深度學習一個很大的限制。雇傭大批語言學家不停地篩選數據既麻煩又極其昂貴，但短期內谷歌沒有別的辦法。

谷歌搜索也是拼了！為上馬神經網絡，百名 PhD人工處理數據

“黃金數據”和“白銀數據”

谷歌也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解，新聞標題是如何對文章主體進行歸納的。但這并不意味著谷歌不需要成批語言學家了。他們不僅示范句子壓縮，還要對語句的不同部分做標記，以幫助神經網絡理解人類語言是如何工作的。David Orr 把谷歌語言學家團隊處理的數據稱為“黃金數據”，過期新聞則是“白銀數據”。“白銀數據”作用不小，因為它的體量很大。但價值最大的還是“黃金數據”，它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露，在可見的將來，語言學家隊伍仍會繼續擴大。

谷歌搜索也是拼了！為上馬神經網絡，百名 PhD人工處理數據

這類需要人工輔助的 AI 學習便是“監督學習”（supervised learning），目前，神經網絡都是這么運作的。有時候公司會把這個業務進行眾包，有時候它會自發地進行。比方說，全世界的網民已經為數百萬的貓咪照片添加了“貓咪”標簽，這會讓神經網絡學習識別貓咪變得很簡單——訓練數據已經處理好了。但很多情況下，研究人員們別無選擇，只能自己一次次為數據添加標簽。

深度學習初創公司Skymind 的創始人 Chris Nicholson 認為，長遠來看，人工標注數據是不可行的。他說：“將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。”

監督學習的缺陷遠不止如此：除非谷歌聘請所有語言的語言學家，否則這個系統無法在其他語言中運轉。現在，語言學家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天，采取更自動化的 AI 訓練方式，即“無監督學習”（unsupervised learning）。

到了那時，機器將能夠從未經人工標注的數據中學習。互聯網上海量的數字信息可以被直接用于神經網絡學習。 Google、Facebook 和 OpenAI這樣的巨頭們已經開始這個領域的研究，但它的實際應用仍然非常遙遠。現在，AI 學習仍然需要幕后的大批語言學家隊伍。

via wired

【招聘】雷鋒網堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力，翻譯及寫作能力優良的外翻編輯加入。工作地點深圳。簡歷投遞至 guoyixin@leiphone.com 。兼職及實習均可。

Facebook Yann LeCun一小時演講： AI 研究的下一站是無監督學習（附完整視頻）

專訪 Jeff Dean丨谷歌戰神談增強學習和無監督學習

AI 黑箱難題怎么破？基于神經網絡模型的算法使機器學習透明化

回顧Google神經網絡機器翻譯上線歷程 | 深度

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

三川

用愛救世界

發私信

當月熱門文章