成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    智能硬件 正文
    發私信給張丹
    發送

    2

    揭秘:搜狗語音實時翻譯是怎么煉成的

    本文作者: 張丹 2016-11-26 20:59
    導語:新技術的突破總會讓人感到興奮。谷歌和訊飛對機器翻譯與語音翻譯新進展的披露也是如此。搜狗語音交互中心技術負責人陳偉對搜狗語音實時翻譯進行了揭秘。

    今年的互聯網大會現場,搜狗 CEO 王小川將自己的演講內容用搜狗語音實時翻譯成中英對照的形式,“技驚四座”的同時,也讓各位看官們覺得代替同傳的工具要來了。雖然搜狗語音實時翻譯將王小川說的“搜索的未來就是人工智能時代的皇冠”準確翻譯成了“In the future, search will be the Crown of the AI Era”,但王小川坦言,在演示之前沒做預先的試驗,對效果并沒有把握,就連他也是捏著一把冷汗,也不認為機器可以把人干掉。

    然而,新技術的突破總會讓人感到興奮。谷歌和訊飛對機器翻譯與語音翻譯新進展的披露也是如此。

    近日,搜狗語音交互中心開了一場媒體溝通會,向大家對搜狗語音翻譯技術進行了解析。據搜狗語音交互中心技術負責人陳偉介紹,搜狗實時翻譯技術是搜狗知音引擎技術框架的新能力,按照量化的指標,準確率可以達到90%。此外,搜狗語音識別請求規模現在達到了1.9 億次左右,語料達到了16萬小時,在使用場景方面,主要集中在車載、智能家居和可穿戴設備。

    以下是陳偉對搜狗實時翻譯技術的講解,在不改變原意的情況下對原文有刪減。

    先判斷

    8月3日發布搜狗知音引擎時,我們提出了一個口號,“更自然的語音交互”,包括從說到聽到理解三個過程,其中就涵蓋了語音識別。但現在三個月的時間過去了,知音引擎又具備了新的能力以及新進展。今年下半年,基于已有的深度學習平臺和技術,搭建了我們自己語音翻譯技術,這是無到有的技術。在谷歌神經網絡翻譯技術刷屏之前,我們就已經把這個技術用運用在我們的后臺了,從口語來看,我們的技術比 Google 要強一些。

    與以前語音識別相比,實時翻譯技術框包括了語音識別、機器翻譯兩個大的方向,其次是一些細節的優化與系統的調優。

    從系統框架來看,第一步就是如何斷句。我們需要支持長時間的語音識別,另外,還要做到實時。語音識別的反映時間是2秒,翻譯要盡量做到實時同步,要先根據聽停頓一集其他的信息分成短的語音片段進行識別斷句。

    語音的時間概念是按幀來劃分的,一幀是 20-30 毫秒左右的一個小片段。人在發音的時候,小片段之間有協同發音的現象,幀與幀之間有重疊,我們稱之為幀移。

    揭秘:搜狗語音實時翻譯是怎么煉成的

    當有一個特別長的語音信號的時候,系統要判斷什么時候是靜音,什么時候是有效的語音,通常用 0(非語音)、1(語音)來標記。一般來說,判斷的方法有兩種:第一是基于能量檢測的方式,能量小就是靜音,能量大就是語音;第二是基于深度學習模型的判斷,通過大量的數據進行建模,建模之后可以通過模型自動檢測,根據非語音概率的高低來判定是否為語音。根據以上判斷,我們就會得到一些語音序列。

    對于判斷不準的地方,我們要做平滑處理。按照規則,我們把出現一些比較奇異、不太正常的點去掉,生成一個看上去比較規整的結構。

    做語音斷句主要有兩個好處:省去靜音片段的語音識別,可提升整體識別效率;語音判斷可以區分成很多句送到框架下面,大大提高了語音識別的次數。

    再識別

    接下來是對判斷進行語音識別。語音和文本之間的影射通過一種概率的目標來描述,這個概率目標希望給定當前的語音信號,最大化輸出W的概率,輸出對應的W區別就是我禎正想要的最優語音識別結果,在語音識別框架下面,涉及到兩個非常重要的模型,一個是聲學模型,就是人在發音每個單元的時候這個模型和聲音信號之間的相似形,另一個是語言模型,描述的就是識別結果中詞和詞之間連接的可能性,從而更好地規范整個的輸出結果,更加通順、流暢。

    兩種模型,共通輸出一個文本結果,叫做搜狗語音。

    揭秘:搜狗語音實時翻譯是怎么煉成的

    從2012年開始,我們逐步開始用這種系統框架后,做了非常多的思考和探索,目前比較穩定的線上系統是 CLDNN 系統。集合了三種不同的機構 CNN(卷積神經網絡層)、5LSTM(長短記憶模型) 與 DNN。CNN 可以對變換祈禱不變性的作用,5LSTM 能夠將非常長的上下文以及歷史或將來的信息融入到當前的識別中來,DNN 可以提出非常深層的抽象特征。三層結構融合在一起,形成了線上主流的機構。但這只是線上的結構,除此之外,我們也在探索一些新的結構。

    除了剛才說的兩種模型,加上深度學習的整合,也就是神經網絡技術。可以讓非常復雜的流程變換成一個非常清爽、單一的端到端的影射。我們認為,端到端的技術可能是將來人工智能基于學習非常重要的發展趨勢。

    語音信號處理的機構是 CTC ,所以綜上,我們駐留在用的機構就是 CTC+ CLDNN。

    做斷句

    第三部分就是文本斷句,如何切分比較細的斷句呢?第一是內容平滑,我想找你去吃飯,不知道你有沒有空?有幾個問題,里面出現了很多的語氣詞,對后面的翻譯和用戶理解沒有太多的作用,我們需要把這種語氣詞去掉。還有一些重復詞也要去掉,內容平滑以后,就會變成比較通順的話。

    怎么切分成比較獨立的單句呢?解決方法是進行詞序劃分、加標點。方式有兩種,一種是基于規則的方式,即用戶在說話時,一旦出現停頓,就判斷為前面比較完整的語音句子已經說完了;另一種是基于模型的方式,人在講話時,停頓點可能會是在句中,不一定是在句尾,這就需要用基于詞序模型進行劃分。

    在識別和翻譯之間最為關鍵的一個橋梁就是文本斷句,這個模塊是可以讓語音實時翻譯放到實際場景中進行使用的重要原因。

    要對齊

    另外就是輸出判斷,用戶一直在說話,我們是實時出結果,我怎么知道用戶這句話說沒說完?不知道你有沒有空、來找我吃飯?下一個語音過來的時候,可能是接著這個空來說的,所以我們需要判定,在什么時候需要把這句話送給翻譯去翻譯,所以輸出判定決定輸出結果哪部分送給翻譯,哪一部分留下來再做決策之后送到翻譯模塊里,所以這塊也是我們在今后需要著重優化和改善的功能。

    以前的方法更多是把整個的翻譯切分成單詞、短語,把中文、英文短語之間的影射關系建立起來,解決的是對齊的問題,會有一些對應的關系,對應的關系建立起來以后,使用語言模型把中文翻譯成英文以后的各種小短語,就是機器翻譯的技術。

    最近機器翻譯逐漸遷移到了基于神經網絡的技術,這個技術是非常清爽的結構,是一個端到端的影射,我喜歡運動,進入到一個編碼器,這個編碼器會把我喜歡運動進行整句上面的翻譯,或者每一個單詞建立一個詞向量,這個已經具備了語譯的能力,進行進一步的特征提取,就會得到編碼器的解釋。

     之后是進入對齊,現在完成交給模型去做,模型告訴你哪些詞和哪些詞可以對應在一起,是自己學習出來的。當把這些詞語的特征貢獻到解碼端以后就會出來文本,起到一個端到端的影射作用。

    揭秘:搜狗語音實時翻譯是怎么煉成的

    這個結構是這樣的,這是更加詳細的結構,第一部是編碼端的技術,最后是Decoder。準確率上我們實際評測來看,GRU的結構會更輕便,而且運算的速度更快,目前的同傳技術里面,我們用到的是GRU結構,使用雙向的GRU技術,共同構建編碼端的結構。解碼端共同抽象以后接入到Softmax里面輸出結果。

     真正的模型是需要跟數據結合非常緊密,你只有有了大的數據才能學習出復雜的模型,剛才的模型結構非常的復雜,我會覺得對目前機器翻譯而言,搜索公司在語料上面的積累,非常有助于我們在很多領域完全機器翻譯比較好的產品。

    后記

    王小川在互聯網大會上說,搜狗現在的語音識別準確率在95%-97%之間,取決于語音環境。陳偉告訴雷鋒網,搜狗語音識別加機器翻譯的準確率在90%,技術的研發只用了三個月左右的時間,語音翻譯的終極夢想是能輸入一個語音后,可以直接出對應的結果,中間所有的事情都交給模型去做。毫無疑問,神經網絡給翻譯行業帶來了一個新的質變。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章

    編輯

    如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說