0

人工智能在傳統行業遍地開花已經不是新鮮事,但是進入地鐵這種人流量大且復雜、噪聲極強的環境中,似乎還是第一次。雷鋒網消息,昨日(12月5日),上海地鐵攜手阿里云,落地語音購票,打造首個 AI 地鐵城的消息刷了屏。
雷鋒網就此采訪了阿里云 iDST 智能語音交互團隊總監的鄢志杰,他也是該項目中語音購票技術的總負責人,聊了聊技術落地背后的故事。
大概半年前,擔任阿里云 iDST 智能語音交互團隊總監的鄢志杰,和同事參加某個機器人展會。在展會上,他們發現很多具有語音交互功能的機器人“聽力不好”,參展的觀眾需要抱著機器人的頭,幾乎貼在上面才能完成一兩句對話,主要原因就是環境噪音太強,導致機器人無法分辨“要聽什么”。
在語音交互領域,“抗噪”是個難點。市面上相對成熟的語音交互產品,幾乎全部集中在家庭、辦公等安靜場景中,通過麥克風陣列,可以讓機器輕易分辨“誰是說話人”,而類似機場、高鐵、咖啡廳、超市、展廳強噪音場景則沒有。
鄢志杰當下就想,如何才能突破舊有的使用場景,在強噪音的環境下讓人和機器進行語音交互。

面對這個具體的問題, iDST 的人工智能專家們想到了融合語音、視覺兩種模態的方法。具體來說,如果只通過擴大麥克風陣列,提升信噪比的單一方法,還是不夠,如果有了攝像頭之后,就可以通過視覺識別是否來人,來人是否講話,判斷之后用算法調整麥克風位置,進行定向增強。這樣,就可以讓一個強噪音環境變得和普通交互場景一樣了。
值得一提的是,采用視覺來確定目標說話人后,還帶來一個更大的驚喜。此前語音交互產品,都需要通過“喚醒詞”,讓用戶喚醒,但“誤喚醒率”是個問題。而采用視覺后,機器可以通過人臉、嘴巴來判斷說話人是否開口說話,從而徹底免去了“喚醒”這一步,從而也就解決了“誤喚醒率”的問題。
當然,實際工程化的過程并不像講起來這么簡單。鄢志杰坦陳,這種融合多模態的方式,學術界其實早有研究,但實際落地的產品似乎還沒見到。
技術的問題解決之后, iDST 在商店(嘈雜環境)里放了一臺可以使用語音來買咖啡的機器,用的就是語音+視覺的解決方案。這或許也是這種方案下,第一個落地的實際產品。
兩周之后,這個方案落地上海地鐵,咖啡機換成了購票機,乘客可以通過語音進行購票,掃碼支付,全程只需不到10秒。
口說有憑,自由通行
上海作為全球里程數最長的地鐵,共有 17 條線路,367個站點,以連接兩大機場、虹橋火車站、川沙、陸家嘴、龍陽路磁浮站、南京路、靜安寺,橫貫東西的2號線為例,全天都處在擁擠狀態,日客流量接近百萬。這條線路因為連接著交通樞紐和重要地標,充滿了來自全球各地不同語言的人,購票之難、時間之長可想而知。
采用阿里云 iDST 的語音購票方案后,每個人只需要走近售票機,對售票機說出你想要去的地方,售票機就能夠自動向乘客推薦線路和站點,乘客掃碼或刷臉即可購票,全程不過10秒。

舉例來說,在此之前如果想去東方明珠,需要先拿出手機,打開地圖應用,查詢公交線路,走進推薦的地鐵站,在售票機上通過點擊、投幣來買票,上地鐵。而現在,乘客可以直接進入最近的地鐵站,對售票機說“我要去東方明珠”,售票機將自動建議乘客坐到“陸家嘴站”,然后彈出二維碼進行支付。
鄢志杰向雷鋒網表示,試運行階段,目前該機器可以支持帶口音的普通話,但未來希望能夠覆蓋更多的語種和方言,滿足不同地方的乘客需求。
同時,該技術在強噪音環境下的通用性,也方便將此解決辦法復制到機場、高鐵、商店等更多場景中。
除了語音購票技術外,亮相上海地鐵的還有阿里云的“刷臉進站”、“智能客流監測”兩項技術。
雷鋒網了解到,正在研發中的新型進站閘機上,新增了一塊屏幕,用戶經過屏幕時,幾乎無需停留,屏幕就依托阿里云人臉識別技術,完成了人臉識別,開啟閘機,供乘客通過。

系統所采用的阿里云人臉識別算法具備業內領先的精度和效率,在國際公開的人臉比對評測LFW中,精度超過99.5%;在身份認證1:1比對場景,誤識率0.1%條件下,實測精度大于99%;1:3000身份識別場景,現場實測識別率>95%。
而智能客流分析技術則是基于視頻識別、數據分析機器學習和阿里云的數據可視化技術,替代肉眼,觀察車站的客流速度、密度、擁擠指數等,同時結合地鐵列車運營信息、外部天氣信息數據,對未來流量進行預測,幫助地鐵工作人員進行客流疏導、應急調度、危險防范等,保障乘客安全。

目前,這些技術已經完成實驗室測試,進入樣機研制階段,未來都將應用于上海地鐵。相信在不久之后,我們就可以享受更為智慧、方便的公共交通服務了。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。