成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    物聯(lián)網(wǎng) 正文
    發(fā)私信給王金旺
    發(fā)送

    0

    一幫不懂手語(yǔ)的工程師研發(fā)出了會(huì)比手語(yǔ)的AI主播

    本文作者: 王金旺 2021-05-20 19:47
    導(dǎo)語(yǔ):漢語(yǔ)是門“有聲語(yǔ)言”,手語(yǔ)是門“視覺(jué)語(yǔ)言”。

    一幫不懂手語(yǔ)的工程師研發(fā)出了會(huì)比手語(yǔ)的AI主播

    作者 | 王金旺

    出品 | 雷鋒網(wǎng)產(chǎn)業(yè)組

    雷鋒網(wǎng)消息,5月17日,搜狗CEO王小川在搜狐科技5G&AI峰會(huì)對(duì)外發(fā)布了新一代搜狗AI合成主播——手語(yǔ)AI合成主播“小聰”。

    作為搜狗AI合成主播經(jīng)過(guò)兩年多時(shí)間迭代后的新品,手語(yǔ)AI合成主播集成了超寫實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)技術(shù)。據(jù)搜狗官方信息顯示,在組織的聾人可懂度測(cè)評(píng)中,搜狗手語(yǔ)AI合成主播可懂度達(dá)到了85%以上。

    搜狗這款手語(yǔ)AI合成主播研發(fā)初衷是什么?

    為什么有了語(yǔ)音識(shí)別生成字幕技術(shù)后,還要做搜狗手語(yǔ)AI合成主播?

    搜狗手語(yǔ)AI合成主播與一脈相承的語(yǔ)音識(shí)別、AI分身在技術(shù)研發(fā)過(guò)程中又有何異同?

    ……

    這些問(wèn)題都在5月19日的媒體溝通會(huì)上由搜狗AI交互技術(shù)部總經(jīng)理陳偉及他的團(tuán)隊(duì)進(jìn)行了一一解答。

    研發(fā)初衷:聽(tīng)障人士看字幕如學(xué)外語(yǔ)般艱辛

    2018年11月,搜狗與新華社合作研發(fā)的AI合成主播正式問(wèn)世,幾經(jīng)迭代后,在2020年5月,又與新華社聯(lián)合推出了3D AI合成主播。

    當(dāng)時(shí)陳偉和他的團(tuán)隊(duì)在為搜狗為3D AI合成主播規(guī)劃未來(lái)發(fā)展方向時(shí),著重考慮了三個(gè)方面:

    第一,要把3D能力做好;

    第二,我們希望搜狗在“數(shù)字人”這個(gè)方向上有自己更高的技術(shù)壁壘;

    第三,我們要找到有強(qiáng)烈需求的場(chǎng)景。

    綜合考慮場(chǎng)景、渠道和技術(shù)迭代中的創(chuàng)新后,2020年5月,手語(yǔ)AI合成主播在搜狗內(nèi)部正式立項(xiàng)。

    既然有字幕了,還要手語(yǔ)干什么?

    這也是搜狗手語(yǔ)AI合成主播立項(xiàng)之初,陳偉當(dāng)時(shí)需要考慮的問(wèn)題。

    對(duì)此,陳偉總結(jié)了三方面原因:

    第一,并非所有聽(tīng)障人士能看懂字幕。

    在我國(guó)2700萬(wàn)聽(tīng)障人士中,整體受教育程度參差不齊,有高中、大學(xué)學(xué)歷的聽(tīng)障人士在這一群體中仍然只占非常小的比例,現(xiàn)在大家對(duì)字幕獲取的能力還在逐漸培養(yǎng)中,要想讓絕大部分聽(tīng)障人士看懂字幕還有很長(zhǎng)的路要走。

    第二,「有字幕」這件事兒和「做手語(yǔ)」不是必須二選一的。

    我們?cè)诹私庑畔ⅰ@取信息過(guò)程中必然會(huì)通過(guò)多種方式,我們自己在看電影的時(shí)候,有時(shí)候盡管中文的電影我們可能也會(huì)看字幕,大家本能的想法是我怎么能更快更高效的獲取信息,他能看懂字幕更好,如果看不懂,還有手語(yǔ)可以提供信息。

    第三,手語(yǔ)語(yǔ)言和有聲語(yǔ)言之間是完全不同的語(yǔ)言體系,聽(tīng)障人士對(duì)有聲語(yǔ)言的接受程度類似健聽(tīng)人對(duì)第二外語(yǔ)的接受程度。

    聽(tīng)障人士即便學(xué)習(xí)了漢語(yǔ),對(duì)他來(lái)說(shuō)也是第二語(yǔ)言,就像我們?cè)趯W(xué)習(xí)英語(yǔ)過(guò)程中,盡管我們學(xué)習(xí)了很長(zhǎng)時(shí)間,但還是很難產(chǎn)生熟悉的感覺(jué)。

    與此同時(shí),聽(tīng)障人士在學(xué)習(xí)漢語(yǔ)的過(guò)程中其實(shí)天生是有障礙的,因?yàn)闈h語(yǔ)或者普通話更多的是表音文字,每個(gè)字都有發(fā)音,我們之所以能夠快速學(xué)習(xí)語(yǔ)音,是因?yàn)橛姓Z(yǔ)境。我們跟別人溝通的時(shí)候,溝通的前提是眼睛看著大家,看到了唇形,同時(shí)聽(tīng)到了聲音,結(jié)合在一起是多模態(tài)的,但是聽(tīng)障人士在聽(tīng)力上天生有障礙,就少了一個(gè)因素讓他更快地學(xué)習(xí)有聲語(yǔ)言。他們之所以學(xué)手語(yǔ)學(xué)得快,是因?yàn)槭终Z(yǔ)是視覺(jué)語(yǔ)言,不需要輔以聲音進(jìn)行理解。從這個(gè)角度來(lái)看,手語(yǔ)短期內(nèi)不可能完全被字幕替換掉,它仍然是聽(tīng)障人士的主要學(xué)習(xí)方式,手語(yǔ)表達(dá)也更符合聽(tīng)障人士的習(xí)慣。

    就在搜狗手語(yǔ)AI合成主播發(fā)布的同時(shí),搜狗還對(duì)外發(fā)布了柳巖同款明星“數(shù)字人”。

    一幫不懂手語(yǔ)的工程師研發(fā)出了會(huì)比手語(yǔ)的AI主播

    據(jù)陳偉透露,柳巖同款明星“數(shù)字人”從錄制到上線用了有一個(gè)月的時(shí)間,其中錄制僅用了兩個(gè)半天(合計(jì)一天),數(shù)據(jù)標(biāo)注花了30%-40%的時(shí)間,剩下的則是技術(shù)研發(fā)和迭代用的時(shí)間。

    手語(yǔ)AI合成主播“小聰”的技術(shù)難度要遠(yuǎn)遠(yuǎn)大于明星“數(shù)字人”。

    研發(fā)歷路:手語(yǔ)是門“視覺(jué)語(yǔ)言”

    搜狗研發(fā)了多代AI合成主播,在語(yǔ)音識(shí)別技術(shù)上也積累頗豐。然而,手語(yǔ)AI合成主播對(duì)于搜狗而言,仍是一個(gè)全新的領(lǐng)域。

    據(jù)陳偉介紹,搜狗在做手語(yǔ)AI合成主播“小聰”時(shí),主要做了三方面工作:

    「語(yǔ)言側(cè)手語(yǔ)的研究」、「語(yǔ)言體系的翻譯」和「表征表達(dá)」。

    一幫不懂手語(yǔ)的工程師研發(fā)出了會(huì)比手語(yǔ)的AI主播

    首先,在研發(fā)“小聰”過(guò)程中,搜狗最先遇到的就是手語(yǔ)數(shù)據(jù)庫(kù)建立的問(wèn)題。

    搜狗開(kāi)始接觸手語(yǔ)發(fā)現(xiàn)了一個(gè)問(wèn)題:手語(yǔ)語(yǔ)言和所有其他(有聲)語(yǔ)言都不一樣,它是一個(gè)視覺(jué)語(yǔ)言。

    隨之而來(lái)的一個(gè)問(wèn)題是:“小聰”的訓(xùn)練數(shù)據(jù)從何而來(lái)?

    陳偉解釋稱,手語(yǔ)語(yǔ)言如何轉(zhuǎn)換成計(jì)算機(jī)語(yǔ)言,之前行業(yè)在做手語(yǔ)語(yǔ)言體系時(shí)并沒(méi)有特別明確的做法,要么是純語(yǔ)言學(xué),要么是計(jì)算機(jī)相關(guān)背景的人根據(jù)自己的想象做手語(yǔ)。

    在搜狗團(tuán)隊(duì)的認(rèn)知中,手語(yǔ)本身是沒(méi)有可記錄的文字信息的,因?yàn)樗旧砭褪且曈X(jué)信息。

    《國(guó)家通用手語(yǔ)詞典》一共8000多個(gè)詞,“小聰”基于《國(guó)家通用手語(yǔ)詞典》進(jìn)行健聽(tīng)人語(yǔ)言與聽(tīng)障者手語(yǔ)語(yǔ)言的機(jī)器翻譯,在這個(gè)過(guò)程中,為了構(gòu)建用于模型訓(xùn)練的數(shù)據(jù)庫(kù),搜狗做了三方面工作:

    第一,從語(yǔ)序到選詞,我們會(huì)考慮把健聽(tīng)人的語(yǔ)言和聽(tīng)障人士的語(yǔ)言做一個(gè)平行的翻譯,這樣就可以積累大量的資源,用這樣的資源作為翻譯系統(tǒng)的數(shù)據(jù);

    • 第一,將手語(yǔ)詞匯轉(zhuǎn)化成用文字方式或用技術(shù)方式標(biāo)注出來(lái);

    • 第二,構(gòu)建健聽(tīng)人和聽(tīng)障人士之間語(yǔ)序的平行翻譯語(yǔ)料,這需要大量的機(jī)器翻譯庫(kù);

    • 第三,通過(guò)預(yù)先捕捉大量真人動(dòng)作和表情數(shù)據(jù),對(duì)構(gòu)建起的3D模型進(jìn)行模型訓(xùn)練,因?yàn)樗压纷叩氖浅瑢憣?shí)模型,這件事情每個(gè)環(huán)節(jié)都有很大的資源和研發(fā)投入。

    據(jù)陳偉透露,從翻譯角度來(lái)講,現(xiàn)在初步建立起來(lái)的精標(biāo)數(shù)據(jù)達(dá)到幾萬(wàn)。

    其次,搜狗要考慮的第二個(gè)問(wèn)題是——語(yǔ)言體系如何構(gòu)建。

    手語(yǔ)和漢語(yǔ)本質(zhì)上不是一個(gè)語(yǔ)言體系,存在著諸多結(jié)構(gòu)、表達(dá)上的差異。在這之中,“小聰”研發(fā)團(tuán)隊(duì)特別提到三個(gè)難點(diǎn):

    • 第一,手語(yǔ)表達(dá)與漢語(yǔ)表達(dá)語(yǔ)序的不同。例如,漢語(yǔ)中的“開(kāi)車不許喝酒”,手語(yǔ)表達(dá)出的則是“開(kāi)車、喝酒、不準(zhǔn)”,包括像“北京常常堵車”會(huì)被翻譯成“北京、堵車、常常”。

    為此,搜狗建立了相應(yīng)的語(yǔ)言規(guī)則嘗試做相應(yīng)的語(yǔ)序轉(zhuǎn)化,通過(guò)搜狗構(gòu)建數(shù)據(jù)庫(kù)給算法進(jìn)行訓(xùn)練。

    • 第二,在詞匯上,手語(yǔ)中沒(méi)有虛詞和量詞。“我買兩只鉛筆、一本書”,手語(yǔ)表達(dá)出來(lái)的會(huì)是“我買鉛筆、二、書、一”;包括“在、的、了”等程度詞都會(huì)省略,“大雪紛飛”用手語(yǔ)表達(dá)也不會(huì)有一個(gè)詞表達(dá)“大”、一個(gè)詞表達(dá)“雪”,而是在“雪”的基礎(chǔ)上加大身體的擺動(dòng)來(lái)體現(xiàn)程度副詞。

    為此,搜狗建立了手語(yǔ)到漢語(yǔ)之間的映射辭典,嘗試去解決手語(yǔ)和漢語(yǔ)之間詞匯上的差異問(wèn)題。

    • 第三,手語(yǔ)里特有的非手控的信息,例如表情、口動(dòng)、身體的朝向,這部分是在漢語(yǔ)語(yǔ)言中所沒(méi)有的。例如同一個(gè)手勢(shì)表達(dá)“我做的好不好”,如果沒(méi)有表情的話,大家很難明白手語(yǔ)表達(dá)出來(lái)的意思,但是如果有皺眉,就是能表達(dá)出疑問(wèn)的語(yǔ)氣。

    表情、身體姿態(tài)、口動(dòng)等非手控信息是搜狗在做“小聰時(shí)”遇到最大的難題,目前也在嘗試通過(guò)一些建立一些表情庫(kù)或存在表情標(biāo)記的數(shù)據(jù)庫(kù)驅(qū)動(dòng)算法的設(shè)計(jì)等規(guī)則的方式來(lái)解決這一問(wèn)題。

    最后,搜狗還需要用這樣的語(yǔ)言體系驅(qū)動(dòng)“數(shù)字人”“小聰”完成自然連貫的手語(yǔ)動(dòng)作、面部表情表達(dá)。

    “手語(yǔ)翻譯是一個(gè)新的話題”

    這個(gè)事情的難點(diǎn)是我們一幫不懂手語(yǔ)的工程師在做事情,特別容易陷入到自己的煙囪里面。

    陳偉一語(yǔ)道破研發(fā)團(tuán)隊(duì)立項(xiàng)初期的窘境。

    在進(jìn)行過(guò)深入研究后,陳偉發(fā)現(xiàn),手語(yǔ)翻譯是一個(gè)新的話題。

    我們同傳上線了這么多年,原來(lái)做的中英翻譯、中日翻譯等結(jié)構(gòu)都是一樣的,但是放在手語(yǔ)上又不一樣了,它有一些新的話題。

    為此,陳偉請(qǐng)來(lái)了制定手語(yǔ)標(biāo)準(zhǔn)的殘聯(lián)及相關(guān)協(xié)會(huì)專家、教手語(yǔ)的手語(yǔ)老師、做手語(yǔ)推廣的專業(yè)人士,由這些人組成了搜狗手語(yǔ)AI合成主播語(yǔ)言體系、產(chǎn)品體系、研發(fā)體系之外的智囊團(tuán)作為顧問(wèn)團(tuán)隊(duì)。

    從立項(xiàng)之初,搜狗就一直與這一顧問(wèn)團(tuán)隊(duì)保持著緊密聯(lián)系,這也成為搜狗手語(yǔ)AI合成主播在技術(shù)迭代過(guò)程中不至于偏離最終用戶的一個(gè)保障。

    “數(shù)字人”的一個(gè)終極目標(biāo)是手、嘴、表情、姿態(tài)的實(shí)時(shí)聯(lián)動(dòng),完美復(fù)刻真人表達(dá)能力,這也正是手語(yǔ)對(duì)表達(dá)能力的需求。

    據(jù)搜狗官方信息顯示,“小聰”在測(cè)評(píng)中可懂度已經(jīng)可以達(dá)到85%以上,能夠進(jìn)行有效信息傳遞。

    對(duì)此,陳偉也向雷鋒網(wǎng)解釋:

    可懂度85%,跟(語(yǔ)音)識(shí)別準(zhǔn)確率98%是兩個(gè)概念。識(shí)別率是客觀指標(biāo),這個(gè)字到底對(duì)還是錯(cuò)的問(wèn)題;可懂度更強(qiáng)調(diào)聽(tīng)障人士的體驗(yàn),我在表達(dá)的時(shí)候,翻譯得準(zhǔn),“數(shù)字人”表達(dá)得準(zhǔn),這個(gè)鏈條太長(zhǎng)了,在這件事上每個(gè)環(huán)節(jié)都得做好,串聯(lián)起來(lái)才會(huì)得到一個(gè)比較滿意的效果。

    與此同時(shí),陳偉也指出:

    數(shù)據(jù)量足夠的話,提升讀懂度在技術(shù)上不是特別大的問(wèn)題,不過(guò),數(shù)據(jù)資源的積累需要比較長(zhǎng)的時(shí)間成本,我們?cè)诳焖偻七M(jìn),但還是需要有時(shí)間積累。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    分享:
    相關(guān)文章

    主編

    關(guān)注AIoT、機(jī)器人、智能硬件,新聞爆料、行業(yè)交流(注明公司、職位和名字)微信:18210039208
    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)