在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

本文作者：亞萌

2016-07-19 20:10

導語：讓計算機理解我們，還有很長的一段路要走。

用戶: Siri，幫我叫救護車。
Siri: 好的，從現(xiàn)在開始我會叫你“救護車”。

在2011年Siri初次面世的時候，蘋果公司很快修復了這個錯誤。但是一個新的競賽顯示出，計算機仍然缺乏基本的常識來避免這種令人尷尬的混淆。

這個競賽名為“威諾格拉德模式挑戰(zhàn)賽”（Winograd Schema Challenge），是圖靈測試的一個變種，由加拿大多倫多大學的計算機科學家赫克托·萊維斯克（Hector Levesque）發(fā)起，挑戰(zhàn)賽的名字是為了向特里·威諾格拉德（Terry Winograd）教授致敬，他是斯坦福大學的一位教授，人工智能領域的開拓者。

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

左圖為：赫克托·萊維斯克，右圖為：特里·威諾格拉德

60多年來，研究人員一直使用圖靈測試來評估機器仿人思考的能力，但是這個針對人工智能的評判標準太老舊了，很多舊版圖靈測試的題目太過簡單，而不能真正測試出計算機的智能水平，急需更新?lián)Q代。始于2014年的“威諾格拉德模式挑戰(zhàn)賽”針對圖靈測試進行改進，要求人工智能回答關于語句理解的一些常識性問題。

比如挑戰(zhàn)賽中，有這么一道測試題“市議員們拒絕示威者的游行許可，因為他們害怕暴力”，普通人類一眼望去，就會根據(jù)上下文判斷出這句話清晰的邏輯，然而對于計算機來說，就很難弄清楚這里的“他們”指的是誰，是市議員們呢？還是示威者呢？

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

一個典型的“威諾格拉德模式挑戰(zhàn)賽”的題面包括以下幾個關鍵部分：

首先，具有同類語義的兩個名詞（本題里指的是：市議員們和示威者）
第二，有一個指代以上兩個名詞的模糊代詞（本題里指的是：他們）
第三，有一個特別的單詞，當這個單詞被換成另外一個單詞時，那么模糊代詞的意義就會改變（本題里，如果把“害怕”換成“主張”，那么句子里的“他們”的意思就會發(fā)生改變）

然后，計算機需要回答的問題就是：這個具有模糊含義的代詞指的是什么，并給出兩個選項讓計算機選擇。所以計算機面臨的就是一個二選一的問題。

按統(tǒng)計過的概率來說，就算胡亂選擇，答對題目的準確率是45%，然而這次計算機真實的比賽結(jié)果是：最好的成績是48%。所以，計算機經(jīng)過謹慎的“思考”得出的準確率，比人蒙著眼睛隨便選的準確率才高出那么一點點，這不得不令人唏噓。

成績最好的兩支隊伍，一個由來自中國科學技術大學的劉權帶領，另一支隊伍由塞浦路斯開放大學的Nicos Issak帶領。

這個挑戰(zhàn)賽的獎金高達25,000美金，但是要拿到這個獎金，準確率必須要達到90%以上。所以就算是成績最好的兩個隊伍也與獎金無緣了。

在難一點的圖靈測試面前，聊天機器人就開始自我暴露了

本次競賽的顧問之一，紐約大學的心理學家 Gary Marcus說：“機器的成績只比隨機選擇好一點點，這并不出乎我的預料。”那是因為，賦予計算機以常識極其困難。手動編碼輸入這些知識需要花費的時間不可想象，而且用數(shù)據(jù)統(tǒng)計的方法來學習真實世界的知識對于計算機來說也十分困難。這次挑戰(zhàn)賽的很多計算機，都是試圖將手動編碼的語法理解與基本的現(xiàn)實知識相結(jié)合。

另外，人們明顯發(fā)現(xiàn)，谷歌和Facebook并沒有參加這次的活動，而這些公司的研究人員已經(jīng)多次暗示了他們在自然語言理解方面已經(jīng)取得了非常大的進展。“這兩家公司本可以隨意跳著華爾茲進場，并取得100%正確率的成績，再得意地向世人炫耀。但如果是那樣的結(jié)果的話，我也會非常震驚的。”Marcus說道。

谷歌、Facebook、亞馬遜和微軟這些大公司的研究人員正在將他們的注意力轉(zhuǎn)向自然語言理解。他們使用最新的機器學習方法，尤其是“深度學習”神經(jīng)網(wǎng)絡來開發(fā)更加聰明、更加敏銳的聊天機器人和個人助手。實際上，隨著聊天機器人和語音助理變得越來越普遍，伴隨著在圖像和語言識別領域取得的巨大進展，人們很容易產(chǎn)生機器在理解語言方面已經(jīng)十分厲害的錯覺。然而真實的情況并不令人樂觀，至少這次比賽的結(jié)果并不令人滿意。

本次競賽最優(yōu)秀的兩支隊伍都使用了最前沿的機器學習方法。劉權的隊伍，囊括了來自多倫多紐約大學和加拿大國家研究院諸多的研究人員，使用深度學習來訓練計算機識別兩次事件之間的關系，例如，從幾千篇文章里學習“打籃球”、“游泳”和“受傷”之間的關系。賽后，劉權的隊伍聲稱在修補系統(tǒng)解析競賽問題的一個漏洞之后，準確率可以達到60%，而來自主辦方的 Leora Morgenstern表示，就算這一結(jié)果被證實，仍然比人類的準確率低很多。

這次競賽結(jié)果透露出來的訊息非常重要。“當人工智能開始支持對話的時候，這些問題就會暴露出來。比如，如果購物的時候我說，‘我想要給我的吉他買一個箱子，所以它必須得很結(jié)實’，那這里的‘它’指的是箱子呢，還是吉他呢？”，Charlie Ortiz說道，他是Nuance公司的高級研究員，這家公司專門從事語音識別軟件、圖像處理軟件的研發(fā)和銷售工作。

隨著智能家居設備和可穿戴產(chǎn)品會變得越來越普遍，常識推理將會變得越來越重要。Marcus說道：”當你詢問自己的手表時，你不希望這時它提供50個選項，讓你滑動屏幕進行選擇。而當你開始與你的車和手表展開對話時，你希望免去打字的繁瑣，得到一系列有內(nèi)在聯(lián)系的交流對話，人們會很自然地反復提及之前說到的內(nèi)容，就會經(jīng)常出現(xiàn)模糊指代，而這就是計算機亟待解決的問題。“

讓計算機理解我們，還有很長的一段路要走。

Via MIT Technology Review

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

亞萌

編輯

關注人工智能（AI）報道

掃描關注作者微信

發(fā)私信

當月熱門文章