只需一臺錄音機就可實現攻擊，阿湯哥是怎么做到的？

本文作者：宮雅卓

2015-09-30 08:30

導語：只需要一臺錄音機就能完成的攻擊手段，讓“語音識別技術”在黑科技云集的科幻大片中并不那么耀眼。

【編者按】雷鋒網專欄特約作者宮雅卓，聚虹光電創始人，上海交大博士，主攻生物識別領域，在虹膜識別領域有15年的專研。本文是《碟中諜5》背后的生物識別技術系列科普的下篇——語音識別篇。

電影中，伊森.亨特重復播放由若干單詞組成的一小段英國首相的錄音，就輕松騙過了語音識別系統。看似輕松的破解過程，只需要一臺錄音機就能完成的攻擊手段，讓“語音識別技術”在黑科技云集的科幻大片中并不那么耀眼。

日常生活中，我們也有接觸到各種形式的語音識別技術，用來取代鍵盤輸入，或者變身成Siri一般的智能小助手，與人類進行簡單的對話。

語音識別技術，到底在研究什么？能多大程度改變我們的生活？

我為各位一一道來。

只需一臺錄音機就可實現攻擊，阿湯哥是怎么做到的？

（“碟中諜5”中的語音識別系統）

語音識別的特點

語音識別，是一種結合了生理和行為兩種成分的生物認證技術。氣管、鼻腔、咽喉、舌頭等組織的相互配合，影響了聲音的音調、音強和音色，從而形成了每個人聲音的獨特性，這構成語音的生理基礎；而每個人不同的說話內容，則構成了語音的行為基礎。

因此，語音識別是一種很有趣的過程，既要知道你在說什么內容（行為特征），又要知道你在以什么樣的方式說（生理特征）。

語音識別，是成本最低的生物識別技術。

因為不需要依賴昂貴的成像芯片和光學鏡頭，也沒有臺式PC和移動終端的限制，只需要一枚麥克風即可采集語音，因此在各種身份認證產品中都可以集成該功能。用戶對著麥克風說出特定的短語，系統將用戶的語音樣本過濾后，與先前存儲的語音樣本比較，達到一定的近似度閾值，用戶就通過了身份認證。

語音識別的應用

語音識別技術，分為“語義識別”和“語音身份識別”兩大類應用模式。

語義識別，也被稱作話語識別、非特定人語音識別，其目的在于理解話語中的單詞和句子——也就是話語中的內容。

由于幾乎可以被任何人使用，語義識別技術的應用場景非常多樣化，被集成到各種設備上，已經成為智能硬件發展的主流趨勢。

手機的進化歷史，就是文本輸入技術的發展史，也是語義識別技術的革命史。最早的功能手機屏幕很小，帶有26鍵或9鍵實體鍵盤；隨著智能手機發展，實體按鍵越來越少，甚至整合進入屏幕成為虛擬鍵盤。實體鍵消失的大趨勢，讓文本輸入技術發生著改變，而手環、手表、眼鏡等小屏或無屏可穿戴式設備的興起，人們不得不尋找比鍵盤更有效的文本輸入方式。于是，語音識別技術，成為文本輸入的最輕松、最自然方式。

正如Siri為我們展示的那樣，我們已經習慣于通過語音撥打電話、打開應用、查詢天氣，也能不動一根手指，用語音輸入法發送消息，但這些語義應用，依然借助了屏幕這一載體。未來，智能設備幾乎是沒有屏幕可以觸摸，最終只能通過語音這種采集成本低、容易集成的方式來實現人機交互。

只需一臺錄音機就可實現攻擊，阿湯哥是怎么做到的？

（蘋果的Siri是語義識別技術的應用典范）

語音身份識別，也稱說話者識別，將語音作為一種穩定的生物特征來識別說話者的身份。

早期的身份識別精度很低，缺乏特定的語音處理和特征提取技術，只能判斷一個人的種族。二戰時，美日雙方經常夜戰，黑暗中無法判斷對方是敵是友。美國人根據“日本人對l，r發音不準確”這一聲音特性，制定了一個口令“lollapalooza（意為：非常出色的人）”，一旦對方發音不準確，就直接開火。

今天的語音識別精度，已經可以判斷一個人的身份。用戶對著麥克風說出特定的短語，系統將用戶的語音樣本進行背景噪音過濾、特征提取，再與先前存儲的語音樣本比較，達到一定的近似度閾值，用戶就通過了身份認證。

只需一臺錄音機就可實現攻擊，阿湯哥是怎么做到的？

（語音身份識別的流程）

語音識別的缺陷

語音的采集成本雖然低，但在身份識別中并未大規模應用。目前看來，主要是因為語音識別面臨著不易提取、不夠穩定、容易模仿三大問題。

缺乏多樣性和噪音影響，是語音特征不易提取的兩大原因。

語音是一維線性特征，與指紋、人臉、虹膜等二維圖像特征相比，信息量更少，精度也更低。此外，語音識別的性能，還會受到外界環境的影響，如同時有多個說話者，或者環境噪音嘈雜，也會導致語音識別精度降低。

語音會受時間、年齡、身體狀況影響而發生改變，是導致語音特征不穩定的重要原因。

每個人在青春期都會經歷“變聲”的過程，常見的感冒、鼻塞、咽喉炎、聲帶疲勞都會影響語音識別的性能。因此，語音識別的穩定性并不好。

語音是一種較易模仿的生物特征，如果口技演員改行做聲音竊取，破解成功率將非常驚人。錄音是攻破語音系統的另一種常用方法，“諜5”對此有準確描繪：伊森·亨特只用一臺錄音機就輕松竊取到英國首相的語音。為防止錄音攻擊，一些語音識別系統從較小的詞匯表中隨機產生一個變化的短語讓用戶朗讀。這種方式能夠阻擋一般的攻擊者，但經驗豐富和準備充分的老手僅需多花一點時間而已。

綜上所述，不易提取、不夠穩定、容易模仿這三大問題困擾著語音識別技術，難道它注定只能在低端徘徊，無法滿足更高安全等級、更高識別精度的要求嗎？

魚和熊掌：價格最低 & 性能最好

語音用于身份識別，無法回避識別精度過低的先天缺陷，但是將語音和其他高精確度、高穩定性的生物特征相結合，既保留語音的低成本優勢，又彌補其低精度的弱點，打造出一種“魚和熊掌”兼得的完美生物特征。

為了彌補語音的缺陷，我們選擇哪一種最高精確度、最高穩定性的生物特征呢？學術界早有結論：虹膜識別，在精確度和穩定性兩方面，是所有生物特征中最好的，目前最優秀的虹膜識別算法甚至將誤識率降低到1/500萬以下。

虹膜位于眼球前部，表面覆蓋角膜，是一種隱藏在身體內部的特征。虹膜是瞳孔周圍具有多種顏色的環狀組織，呈現出一種復雜的放射狀紋理。虹膜在出生之前隨機發育產生，因此所有的虹膜都是獨一無二的，從出生6個月直到死亡都保持不變。

將“價格最低廉的語音識別”與“識別精度最高的虹膜識別”組合，可以依據不同的需要進行精度調整，使系統安全等級具有更大的彈性。特別針對用戶規模達到數十萬、甚至上百萬的大型身份識別應用，“語音+虹膜”的組合已經成為最具競爭力的技術方案。

比如，國內已經推出集成虹膜和語音兩種識別技術的社保支付終端，用戶可以根據支付金額及環境情況，選擇更具靈活性的身份認證方式，如小額支付用語音識別，大額支付用虹膜識別；安靜環境使用語音識別，嘈雜環境使用虹膜識別。

“語音+虹膜”的組合，將兩者的優點（低成本、高精度）集于一身，正是《碟中諜5》啟發我們提出的最具技術前瞻性的身份識別方案。

作者系列科普文章參考：

1、《碟中諜5》背后的生物識別技術有哪些？（上）

2、碟5中讓阿湯哥頭疼的“步態分析”，究竟神在哪里？

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

宮雅卓

專欄作者

聚虹光電創始人，上海交大博士，虹膜識別領域深耕18年。微信號：jh-irisian

掃描關注作者微信

發私信

當月熱門文章