驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

本文作者：張夢華

2017-07-11 12:06

專題：GAIR 2017

導語：這樣一個時代是機器逐步學習、模仿人，并最終超越人的時代。

雷鋒網注：2017 年 7 月 7 日至 9 日，由中國計算機學會（CCF）主辦、雷鋒網與香港中文大學（深圳）承辦的 CCF-GAIR 全球人工智能與機器人峰會在深圳如期落地。會議第一天，國內外頂尖學者和從業者各自帶來了豐富的行業干貨分享，隨后兩天，GAIR 的機器人、智能助手、金融科技、AI+、智能駕駛等各個專場又為各領域從業者提供了密切交流和學習的機會。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

驀然認知是近兩年在自然語言理解方面表現最為搶眼的公司之一，其扎實的語義理解技術已經為暴風 TV、上汽大通、VINCI 等企業提供了成熟的語音助手解決方案。創始人兼 CEO 戴帥湘曾在百度從事 9 年的自然語音理解，任百度 NLP 主任架構師，并曾帶領團隊獲得百度語義最高獎。

在 CCF-GAIR 大會智能助手專場，戴帥湘做了《對話即應用》的主題演講，雷鋒網對其內容進行了整理，以下為演講全文：

我今天分享的主題是“對話即應用”，很多人認為這是遙遠的未來，事實上它有可能就在我們眼前。

未來只存在于我們的腦海中，是虛構的，但是人天生向往未來。這是人的本性，寫在我們的基因里。

“人是為了想象而活著”，我覺得這句話沒有錯，但是“當未來已來，過去也沒有過去”的時候，在時空轉換的間隙里，我們的認知和想象怎么調整？

以互聯網發展為例，人機交互在互聯網發展中扮演了非常關鍵的角色。每一次人機交互的革新都必然帶來革命性的浪潮。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

20 年前，互聯網剛開始普及，我們使用鍵盤、鼠標來操作互聯網，這種應用形態很簡單，無非就是網頁。

大概 10 年以后，到 2007 年，喬布斯發布了具有劃時代意義的產品：第一代 iPhone。它完全摒棄了之前的鍵盤操作，使用了全觸摸屏的操作方式，這種轉變直接導致當時的兩大手機巨頭在此后短短幾年內迅速衰落，直至退出市場。

這種變化同時帶來了應用形態的變化——從之前的 Web 程序開發，迅速轉入 APP 程序開發，這種變化也導致互聯網時代幾大巨頭在此后 10 年間逐步衰落。

又過了 10 年，到今天，一個新的時代正在來臨。剛才幾位也講到，現在大大小小的公司都開始做音響，音響是否是很好的產品暫時還沒有定論，但我們卻可以感覺到身邊越來越多的硬件開始聯網，大家稱之為“萬物互聯”的時代。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

《人類簡史》里有一個觀點：人本身不具有大規模合作的基因，需要語言和文字來彌補。我們今天制造這么多設備，要想讓它們真正和人類大規模合作，對話式語音交互必不可少，也必定會成為主流。我相信在未來的 IoT 時代，語音交互將跨越軟件和硬件的邊界，在不同的場景下，呈現不同的應用和服務，也就是對話即應用。

即便很多人現在對這個東西還沒有概念，但是思考一下，你就會發現這是一個了不起的時代。我們不愿意錯過這個時代，所以成立了一家公司，叫做驀然認知。我們致力于讓機器認知世界，認知計算，以自然語言理解為核心，提供信號處理、語音、語義、服務自動對接、一站式自動交互的解決方案，更簡單地說，它就是以語義理解為核心的決策引擎，是搜索引擎的下一代。

作為一家創業公司，不管做什么，首先要有準確的市場定位和切入點。對于驀然來說，我們最先落地和打造的交互場景有家居和車載兩大類，這兩大類可以合為一個完整的整體。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

家居場景：以電視為切入口

為什么選擇家居場景？有幾個理由：

家是休閑和放松的場所，我們希望在家里享受后仰式服務，而不是前傾式服務；
家是吃飯，甚至購物的場所，越來越多的人不出家門，從網上購買生活用品。比如吃，你可以不會做飯，但你可能需要獲取做飯的信息，可能需要知道提供外賣、團購的餐廳信息。這些信息都可以通過更好的交互方式來提供；
家里的設備越來越多，除了傳統的幾件，現在又有音響、洗碗機、掃地機器人等，如果想要更好地了解、使用這些設備，需要集中式的交互入口，做集中式控制和使用，這是很自然的方式。

針對這三點，我們設計了三類交互方式：

基于視頻內容的交互，主要是針對電視。我們最先是和暴風 TV 合作，劉總（暴風 TV CEO 劉耀平）后面會做具體講解；
基于生活服務的交互，比如外賣、咖啡、電影票、火車票、飛機票等，都可以通過連續對話來解決；
智能設備控制的交互，這個在技術上比較簡單，主要問題在于現在各大廠商的協議不是那么統一。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

車載場景：最適合語音交互的場景

現在業界基本達成的一個共識是，車載是最適合對話式語音交互的場景，原因主要有兩點：

人開車時雙手、雙腳都是被占用的。可能大家經常在報道上看到，女司機怎樣怎樣......很多人容易被車駕馭，而不是駕馭車，這是很危險的行為；
人在車里的時間越來越長，可能有擁堵的原因，也可能因為人們更喜歡私密的自駕行為。這是完整、連續的時間，而不是碎片化的，充分利用這個時間，用合適的方式和車交互，會給用戶帶來完全不一樣的體驗。

車載場景里，交互設計有些差別，行車過程中需要考察路線規劃，自動導航，即時通訊，實時路況等，除此之外，我們會更關注行車目的，這對交互會有很大影響。比如你開車去餐廳，我們會給你提供餐廳信息查詢、訂座服務，如果去機場，就提供機場航班延誤信息，甚至可以買機票，如果去商場，就可以查詢附近停車位和停車預定服務，當然這些現在只有少數大城市才會有。總之，目的地在車載交互中非常重要。

這兩種場景是生活中非常重要的兩大場景，但可以通過我們整體的系統，成為一個 mall，從而融合成更大的場景。而要融合如此多功能的場景，需要各種場景間的自由切換，這個過程要有非常復雜的語音交互或者對話式語音交互才能完成。

對話式語音交互是多種技術融合的必然結果。下面我從不同角度來闡述涉及對話語音交互的各個層面：

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

VUI 和 GUI 融合

GUI 本身是一種確定的、簡單的、沒有后效性的操作；VUI 是發散的、跳躍的，相對模糊，但是可以完成復雜任務的操作。GUI 是讓我們適應機器，VUI 是讓機器適應我們。只有兩者有機結合在一起，對話式交互系統才能發揮作用。什么效率最高，我們就用什么，搖控器效率最高，就用搖控器，語音搜索最方便就用語音。下單和選擇過程，其實是非常融合的過程。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

多場景融合

大家多數時候聽到的是把垂直場景做深，我覺得這不是根本的。高頻場景的確可以快速覆蓋，但是真正有效的是長尾場景。對話過程中只滿足高頻沒有意義，只有長尾融合在一起，讓用戶感受到服務需求在各個地方得到滿足，才有可能成為很有效的交互方式。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

設備間的協同

剛才講到，單一設備里必須有多場景的融合，這之間的融合怎么做？例如，天氣很熱，我開車回家前，想把家里的空調調到 24 度，走廊的燈打開，這是日常生活中很自然的需求。按照現在的很多框架，實現這些會非常復雜，但是植入我們的系統以后，車機和家庭設備就可以自然融合，和一個設備一樣。我們要為用戶營造不同設備之間遷移、無縫連接、包裹式的經驗。這比多場景融合更容易實現。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

知識和服務的融合

大家看到我們談論多輪交互和單輪交互，但在我看來，并沒有什么單輪對話的存在。語音早期的應用集中在控制、開燈、關燈、調音量這些方面，它們的輸入方式不是對話，而是輸入法。真正有用的對話是雙向的，系統理解以后做適當的動作，不理解的話就做推薦動作或反問動作、澄清動作，這樣才能形成完整的、任務式的、有目的的、優化的對話，而不是隨意的。

比如，你今天晚上想看電影，可能會說今天要去的某個電影院、某場電影、某個名字，但這樣說的人太少，系統順利完成任務的概率很低。你有目標，但是不確定怎么達到這個目標，這時交互式對話會引導你到另外一步，比如電影系統會給出最近在上映的電影，然后基于個人愛好給出合適的推薦；等做完選擇后，你還得注意，電影院在哪里，自己在哪里，你們之間的關系是不是能讓你快速抵達電影院？所有這些完成以后，你還有一個步驟，就是決定要幾個人去，這個要定做，不是我們預先定義的。多輪對話的目的是目標不變，但可以打亂所有步驟，這是知識和服務的融合，是可以做到的。我們現在做得很好。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017

技術的融合

AI 本質上是技術的集合體，不是單一的模型，也不是單一的方法，而是多項關鍵技術的融合。

決策引擎中有三類，一是認知計算模型，主要針對知識推理建模。知識推理方面，機器在學術和工程上都可以做得比較好。二是正確理解，針對語義建模，還沒有定論，但是可以做，我們現在做得也比較好。三是內容學習，這是大家拼命想做的，深度學習和各種 DNN 結構等。

對對話式交互來說，你可能沒有大量數據，連數據的序列都沒有辦法定義。怎么拿到數據？學習很重要。對問題建模，提出自己的獨特方法，解決小數據建模的問題，這非常重要。當所有一切都可以運作的時候，再采用深度增強學習，我覺得這是可行的。AI 里面很早就提到增強學習是實現自主學習的有效途徑。

要打造完整的對話式語音交互系統，涉及到完整的環，最下層還會涉及到信號處理。陳總（聲智科技 CEO 陳孝良）講了很長時間信號處理和硬件、芯片的關系。上面一層是語音和文字之間怎么相互轉化，語音識別現在相對也已經比較成熟。再上面一層，現在簡稱為語義理解，但實際要比這個復雜很多，真的要打造這個系統還需要往前走很多步：語義理解，對話系統，學習系統，自動服務對接......自動服務對接的目的是使場景快速遷移，服務快速上線，作為一個實用系統來說，它非常重要，但很少被提及。

最后是語言的生成。

我們公司的核心業務是第三部分，但是我們和各個公司合作，對整個閉環都有完整的解決方案，包括和陳總在信號處理方面的合作。

驀然認知 CEO 戴帥湘：對話式語音交互將無處不在 | CCF-GAIR 2017