揭秘：搜狗語(yǔ)音實(shí)時(shí)翻譯是怎么煉成的

本文作者：張丹

2016-11-26 20:59

導(dǎo)語(yǔ)：新技術(shù)的突破總會(huì)讓人感到興奮。谷歌和訊飛對(duì)機(jī)器翻譯與語(yǔ)音翻譯新進(jìn)展的披露也是如此。搜狗語(yǔ)音交互中心技術(shù)負(fù)責(zé)人陳偉對(duì)搜狗語(yǔ)音實(shí)時(shí)翻譯進(jìn)行了揭秘。

今年的互聯(lián)網(wǎng)大會(huì)現(xiàn)場(chǎng)，搜狗 CEO 王小川將自己的演講內(nèi)容用搜狗語(yǔ)音實(shí)時(shí)翻譯成中英對(duì)照的形式，“技驚四座”的同時(shí)，也讓各位看官們覺(jué)得代替同傳的工具要來(lái)了。雖然搜狗語(yǔ)音實(shí)時(shí)翻譯將王小川說(shuō)的“搜索的未來(lái)就是人工智能時(shí)代的皇冠”準(zhǔn)確翻譯成了“In the future, search will be the Crown of the AI Era”，但王小川坦言，在演示之前沒(méi)做預(yù)先的試驗(yàn)，對(duì)效果并沒(méi)有把握，就連他也是捏著一把冷汗，也不認(rèn)為機(jī)器可以把人干掉。

然而，新技術(shù)的突破總會(huì)讓人感到興奮。谷歌和訊飛對(duì)機(jī)器翻譯與語(yǔ)音翻譯新進(jìn)展的披露也是如此。

近日，搜狗語(yǔ)音交互中心開(kāi)了一場(chǎng)媒體溝通會(huì)，向大家對(duì)搜狗語(yǔ)音翻譯技術(shù)進(jìn)行了解析。據(jù)搜狗語(yǔ)音交互中心技術(shù)負(fù)責(zé)人陳偉介紹，搜狗實(shí)時(shí)翻譯技術(shù)是搜狗知音引擎技術(shù)框架的新能力，按照量化的指標(biāo)，準(zhǔn)確率可以達(dá)到90%。此外，搜狗語(yǔ)音識(shí)別請(qǐng)求規(guī)模現(xiàn)在達(dá)到了1.9 億次左右，語(yǔ)料達(dá)到了16萬(wàn)小時(shí)，在使用場(chǎng)景方面，主要集中在車(chē)載、智能家居和可穿戴設(shè)備。

以下是陳偉對(duì)搜狗實(shí)時(shí)翻譯技術(shù)的講解，在不改變?cè)獾那闆r下對(duì)原文有刪減。

｜先判斷

8月3日發(fā)布搜狗知音引擎時(shí)，我們提出了一個(gè)口號(hào)，“更自然的語(yǔ)音交互”，包括從說(shuō)到聽(tīng)到理解三個(gè)過(guò)程，其中就涵蓋了語(yǔ)音識(shí)別。但現(xiàn)在三個(gè)月的時(shí)間過(guò)去了，知音引擎又具備了新的能力以及新進(jìn)展。今年下半年，基于已有的深度學(xué)習(xí)平臺(tái)和技術(shù)，搭建了我們自己語(yǔ)音翻譯技術(shù)，這是無(wú)到有的技術(shù)。在谷歌神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)刷屏之前，我們就已經(jīng)把這個(gè)技術(shù)用運(yùn)用在我們的后臺(tái)了，從口語(yǔ)來(lái)看，我們的技術(shù)比 Google 要強(qiáng)一些。

與以前語(yǔ)音識(shí)別相比，實(shí)時(shí)翻譯技術(shù)框包括了語(yǔ)音識(shí)別、機(jī)器翻譯兩個(gè)大的方向，其次是一些細(xì)節(jié)的優(yōu)化與系統(tǒng)的調(diào)優(yōu)。

從系統(tǒng)框架來(lái)看，第一步就是如何斷句。我們需要支持長(zhǎng)時(shí)間的語(yǔ)音識(shí)別，另外，還要做到實(shí)時(shí)。語(yǔ)音識(shí)別的反映時(shí)間是2秒，翻譯要盡量做到實(shí)時(shí)同步，要先根據(jù)聽(tīng)停頓一集其他的信息分成短的語(yǔ)音片段進(jìn)行識(shí)別斷句。

語(yǔ)音的時(shí)間概念是按幀來(lái)劃分的，一幀是 20-30 毫秒左右的一個(gè)小片段。人在發(fā)音的時(shí)候，小片段之間有協(xié)同發(fā)音的現(xiàn)象，幀與幀之間有重疊，我們稱(chēng)之為幀移。

揭秘：搜狗語(yǔ)音實(shí)時(shí)翻譯是怎么煉成的

當(dāng)有一個(gè)特別長(zhǎng)的語(yǔ)音信號(hào)的時(shí)候，系統(tǒng)要判斷什么時(shí)候是靜音，什么時(shí)候是有效的語(yǔ)音，通常用 0（非語(yǔ)音）、1（語(yǔ)音）來(lái)標(biāo)記。一般來(lái)說(shuō)，判斷的方法有兩種：第一是基于能量檢測(cè)的方式，能量小就是靜音，能量大就是語(yǔ)音；第二是基于深度學(xué)習(xí)模型的判斷，通過(guò)大量的數(shù)據(jù)進(jìn)行建模，建模之后可以通過(guò)模型自動(dòng)檢測(cè)，根據(jù)非語(yǔ)音概率的高低來(lái)判定是否為語(yǔ)音。根據(jù)以上判斷，我們就會(huì)得到一些語(yǔ)音序列。

對(duì)于判斷不準(zhǔn)的地方，我們要做平滑處理。按照規(guī)則，我們把出現(xiàn)一些比較奇異、不太正常的點(diǎn)去掉，生成一個(gè)看上去比較規(guī)整的結(jié)構(gòu)。

做語(yǔ)音斷句主要有兩個(gè)好處：省去靜音片段的語(yǔ)音識(shí)別，可提升整體識(shí)別效率；語(yǔ)音判斷可以區(qū)分成很多句送到框架下面，大大提高了語(yǔ)音識(shí)別的次數(shù)。

｜再識(shí)別

接下來(lái)是對(duì)判斷進(jìn)行語(yǔ)音識(shí)別。語(yǔ)音和文本之間的影射通過(guò)一種概率的目標(biāo)來(lái)描述，這個(gè)概率目標(biāo)希望給定當(dāng)前的語(yǔ)音信號(hào)，最大化輸出W的概率，輸出對(duì)應(yīng)的W區(qū)別就是我禎正想要的最優(yōu)語(yǔ)音識(shí)別結(jié)果，在語(yǔ)音識(shí)別框架下面，涉及到兩個(gè)非常重要的模型，一個(gè)是聲學(xué)模型，就是人在發(fā)音每個(gè)單元的時(shí)候這個(gè)模型和聲音信號(hào)之間的相似形，另一個(gè)是語(yǔ)言模型，描述的就是識(shí)別結(jié)果中詞和詞之間連接的可能性，從而更好地規(guī)范整個(gè)的輸出結(jié)果，更加通順、流暢。

兩種模型，共通輸出一個(gè)文本結(jié)果，叫做搜狗語(yǔ)音。

揭秘：搜狗語(yǔ)音實(shí)時(shí)翻譯是怎么煉成的

從2012年開(kāi)始，我們逐步開(kāi)始用這種系統(tǒng)框架后，做了非常多的思考和探索，目前比較穩(wěn)定的線上系統(tǒng)是 CLDNN 系統(tǒng)。集合了三種不同的機(jī)構(gòu) CNN（卷積神經(jīng)網(wǎng)絡(luò)層）、5LSTM（長(zhǎng)短記憶模型）與 DNN。CNN 可以對(duì)變換祈禱不變性的作用，5LSTM 能夠?qū)⒎浅ｉL(zhǎng)的上下文以及歷史或?qū)?lái)的信息融入到當(dāng)前的識(shí)別中來(lái)，DNN 可以提出非常深層的抽象特征。三層結(jié)構(gòu)融合在一起，形成了線上主流的機(jī)構(gòu)。但這只是線上的結(jié)構(gòu)，除此之外，我們也在探索一些新的結(jié)構(gòu)。

除了剛才說(shuō)的兩種模型，加上深度學(xué)習(xí)的整合，也就是神經(jīng)網(wǎng)絡(luò)技術(shù)。可以讓非常復(fù)雜的流程變換成一個(gè)非常清爽、單一的端到端的影射。我們認(rèn)為，端到端的技術(shù)可能是將來(lái)人工智能基于學(xué)習(xí)非常重要的發(fā)展趨勢(shì)。

語(yǔ)音信號(hào)處理的機(jī)構(gòu)是 CTC ，所以綜上，我們駐留在用的機(jī)構(gòu)就是 CTC＋ CLDNN。

｜做斷句

第三部分就是文本斷句，如何切分比較細(xì)的斷句呢？第一是內(nèi)容平滑，我想找你去吃飯，不知道你有沒(méi)有空？有幾個(gè)問(wèn)題，里面出現(xiàn)了很多的語(yǔ)氣詞，對(duì)后面的翻譯和用戶理解沒(méi)有太多的作用，我們需要把這種語(yǔ)氣詞去掉。還有一些重復(fù)詞也要去掉，內(nèi)容平滑以后，就會(huì)變成比較通順的話。

怎么切分成比較獨(dú)立的單句呢？解決方法是進(jìn)行詞序劃分、加標(biāo)點(diǎn)。方式有兩種，一種是基于規(guī)則的方式，即用戶在說(shuō)話時(shí)，一旦出現(xiàn)停頓，就判斷為前面比較完整的語(yǔ)音句子已經(jīng)說(shuō)完了；另一種是基于模型的方式，人在講話時(shí)，停頓點(diǎn)可能會(huì)是在句中，不一定是在句尾，這就需要用基于詞序模型進(jìn)行劃分。

在識(shí)別和翻譯之間最為關(guān)鍵的一個(gè)橋梁就是文本斷句，這個(gè)模塊是可以讓語(yǔ)音實(shí)時(shí)翻譯放到實(shí)際場(chǎng)景中進(jìn)行使用的重要原因。

｜要對(duì)齊

另外就是輸出判斷，用戶一直在說(shuō)話，我們是實(shí)時(shí)出結(jié)果，我怎么知道用戶這句話說(shuō)沒(méi)說(shuō)完？不知道你有沒(méi)有空、來(lái)找我吃飯？下一個(gè)語(yǔ)音過(guò)來(lái)的時(shí)候，可能是接著這個(gè)空來(lái)說(shuō)的，所以我們需要判定，在什么時(shí)候需要把這句話送給翻譯去翻譯，所以輸出判定決定輸出結(jié)果哪部分送給翻譯，哪一部分留下來(lái)再做決策之后送到翻譯模塊里，所以這塊也是我們?cè)诮窈笮枰貎?yōu)化和改善的功能。

以前的方法更多是把整個(gè)的翻譯切分成單詞、短語(yǔ)，把中文、英文短語(yǔ)之間的影射關(guān)系建立起來(lái)，解決的是對(duì)齊的問(wèn)題，會(huì)有一些對(duì)應(yīng)的關(guān)系，對(duì)應(yīng)的關(guān)系建立起來(lái)以后，使用語(yǔ)言模型把中文翻譯成英文以后的各種小短語(yǔ)，就是機(jī)器翻譯的技術(shù)。

最近機(jī)器翻譯逐漸遷移到了基于神經(jīng)網(wǎng)絡(luò)的技術(shù)，這個(gè)技術(shù)是非常清爽的結(jié)構(gòu)，是一個(gè)端到端的影射，我喜歡運(yùn)動(dòng)，進(jìn)入到一個(gè)編碼器，這個(gè)編碼器會(huì)把我喜歡運(yùn)動(dòng)進(jìn)行整句上面的翻譯，或者每一個(gè)單詞建立一個(gè)詞向量，這個(gè)已經(jīng)具備了語(yǔ)譯的能力，進(jìn)行進(jìn)一步的特征提取，就會(huì)得到編碼器的解釋。

之后是進(jìn)入對(duì)齊，現(xiàn)在完成交給模型去做，模型告訴你哪些詞和哪些詞可以對(duì)應(yīng)在一起，是自己學(xué)習(xí)出來(lái)的。當(dāng)把這些詞語(yǔ)的特征貢獻(xiàn)到解碼端以后就會(huì)出來(lái)文本，起到一個(gè)端到端的影射作用。

揭秘：搜狗語(yǔ)音實(shí)時(shí)翻譯是怎么煉成的

這個(gè)結(jié)構(gòu)是這樣的，這是更加詳細(xì)的結(jié)構(gòu)，第一部是編碼端的技術(shù)，最后是Decoder。準(zhǔn)確率上我們實(shí)際評(píng)測(cè)來(lái)看，GRU的結(jié)構(gòu)會(huì)更輕便，而且運(yùn)算的速度更快，目前的同傳技術(shù)里面，我們用到的是GRU結(jié)構(gòu)，使用雙向的GRU技術(shù)，共同構(gòu)建編碼端的結(jié)構(gòu)。解碼端共同抽象以后接入到Softmax里面輸出結(jié)果。

真正的模型是需要跟數(shù)據(jù)結(jié)合非常緊密，你只有有了大的數(shù)據(jù)才能學(xué)習(xí)出復(fù)雜的模型，剛才的模型結(jié)構(gòu)非常的復(fù)雜，我會(huì)覺(jué)得對(duì)目前機(jī)器翻譯而言，搜索公司在語(yǔ)料上面的積累，非常有助于我們?cè)诤芏囝I(lǐng)域完全機(jī)器翻譯比較好的產(chǎn)品。

｜后記

王小川在互聯(lián)網(wǎng)大會(huì)上說(shuō)，搜狗現(xiàn)在的語(yǔ)音識(shí)別準(zhǔn)確率在95%－97%之間，取決于語(yǔ)音環(huán)境。陳偉告訴雷鋒網(wǎng)，搜狗語(yǔ)音識(shí)別加機(jī)器翻譯的準(zhǔn)確率在90%，技術(shù)的研發(fā)只用了三個(gè)月左右的時(shí)間，語(yǔ)音翻譯的終極夢(mèng)想是能輸入一個(gè)語(yǔ)音后，可以直接出對(duì)應(yīng)的結(jié)果，中間所有的事情都交給模型去做。毫無(wú)疑問(wèn)，神經(jīng)網(wǎng)絡(luò)給翻譯行業(yè)帶來(lái)了一個(gè)新的質(zhì)變。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

張丹

編輯

如果你讀了我的文章，也想和我聊聊，歡迎加微信451766945

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章