成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給任平
    發(fā)送

    0

    專訪上海大學(xué)方昱春教授:數(shù)據(jù)驅(qū)動的手語識別研究,如何破解數(shù)據(jù)之困?|GAIR live

    本文作者: 任平 2024-03-18 14:42 專題:AI for Science
    導(dǎo)語:CV學(xué)者如何破解手語識別領(lǐng)域的語言壁壘?

    在科技日新月異的今天,手語識別作為一種新興的跨學(xué)科研究領(lǐng)域,正逐漸走進公眾視野。

    近期,我們邀請了上海大學(xué)的方昱春教授,這位在計算機視覺和手語研究領(lǐng)域深耕多年的資深專家,與我們分享了她如何將計算機視覺技術(shù)與手語研究相融合,開辟出一片新的研究天地。

    方教授的研究重點在于利用計算機視覺技術(shù)(CV)探索手語識別,特別是通過深度學(xué)習(xí)方法來求解這一復(fù)雜而神奇的自然語言交流形式。目前她和團隊已經(jīng)在多模數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別以及人體姿態(tài)建模等四個方向上開展了研究。

    實際上,方教授的學(xué)術(shù)研究始于人臉識別,隨著時間的推移,她的研究興趣逐漸擴展到手語識別這一領(lǐng)域。

    2003年,她在中科院自動化所獲得博士學(xué)位,之后前往法國國立信息與自動化研究院做博士后,從事圖像檢索研究。雖然手語研究并非她最初的研究重點,但在2005年加入上海大學(xué)后,方教授逐漸將研究重心轉(zhuǎn)向了手語領(lǐng)域。

    特別是在2017年,她協(xié)助本校手語語言學(xué)專家倪蘭教授籌建面向人工智能研究的手語數(shù)據(jù)庫,并在2018年獲得上海市科委項目支持,正式開展手語識別研究。

    在方教授看來,手語研究不僅是技術(shù)探索的過程,更是深入理解人類認知智能機制的重要途徑。她指出:“手語作為一種自然語言,盡管其發(fā)展歷史相對較短,但它所蘊含的關(guān)于語言發(fā)展和認知機制的信息是極其珍貴的。”

    如今,方教授的研究不僅關(guān)注于手語的理論研究,更致力于解決手語在實際場景中的應(yīng)用問題,為聾人群體在應(yīng)急、醫(yī)療和購物等實際場景中提供數(shù)字化技術(shù)支持。方教授和團隊正在開發(fā)的應(yīng)用程序和小程序,正是這一目標的具體實踐。

    此外,她也指出,隨著大型語言模型等前沿科技的發(fā)展,手語識別研究將面臨新的機遇和挑戰(zhàn)。她的團隊正在積極探索結(jié)合計算機視覺和自然語言處理的方法,以期在手語研究領(lǐng)域取得更多突破。

    以下為對話(經(jīng)編輯):

    01  計算機視覺學(xué)者做起手語識別

    雷峰網(wǎng):方教授,我注意到您是計算機視覺(CV)出身,手語研究在您的研究工作中所占比重在逐年增加,能具體介紹下您是如何把兩者集合起來的嗎?

    方昱春:簡單來說,計算機視覺和手語的結(jié)合,形成了“手語識別”這一研究方向。

    手語識別研究是數(shù)據(jù)驅(qū)動的,而手語數(shù)據(jù)的獲取和標注相對復(fù)雜。之所以我涉足這一領(lǐng)域,是因為倪蘭老師參與了國家和上海的科研活動,希望將人工智能技術(shù)應(yīng)用于手語研究,這促使我開始著手語數(shù)據(jù)的采集和研究規(guī)劃。

    在搭建手語識別系統(tǒng)時,還有另一種技術(shù)路線--基于傳感設(shè)備(如數(shù)據(jù)手套和位置跟蹤器)的系統(tǒng)。穿戴式設(shè)備如數(shù)據(jù)手套也曾是主流手語識別研究方向。

    隨著深度學(xué)習(xí)在人臉識別應(yīng)用上的成功,手語識別研究也逐漸向機器學(xué)習(xí)和計算機視覺結(jié)合的方向發(fā)展。

    目前,我的研究小組跟蹤了計算機視覺領(lǐng)域的主流方法,正在以深度學(xué)習(xí)方法為主來處理手語識別問題,后續(xù)研究計劃更加關(guān)注手語語言學(xué)交叉學(xué)科問題的探索。

    我和團隊已經(jīng)探索了四個主要方向,包括多模態(tài)數(shù)據(jù)采集、孤立詞識別、連續(xù)手語識別,以及人體姿態(tài)建模和AI生成技術(shù)應(yīng)用于手語研究。

    在連續(xù)手語識別方面,我想強調(diào)的一點是,我們試圖建模手語運動的多模態(tài)特性,比如頭部、面部、雙手和軀干之間的空間關(guān)系和運動關(guān)系,以實現(xiàn)對手語更深入的理解。這是我們團隊過去幾年一直在努力的方向。

    隨著人工智能生成內(nèi)容技術(shù)的發(fā)展,我們開始嘗試了一些手語的計算生成研究,這部分工作還處于初級階段。

    雷峰網(wǎng):手語識別這一研究領(lǐng)域過去很少人關(guān)注,國內(nèi)在這方面大致經(jīng)歷了怎樣的發(fā)展階段?

    方昱春:計算機視覺的手語識別研究經(jīng)歷了20年左右的發(fā)展,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于機器學(xué)習(xí)和計算機視覺的手語識別才開始蓬勃發(fā)展,近兩年里手語識別研究的規(guī)模迅速增長。

    我是在2005年加入上海大學(xué),在2017年才開始規(guī)劃手語研究,2018年開始正式投入到手語研究中。2017年,我協(xié)助倪蘭老師籌備數(shù)據(jù)建設(shè),這年對上海大學(xué)手語研究來說是一個重要的里程碑,倪蘭教授建立了“中國手語及聾人研究中心”,非常有魄力。

    雷峰網(wǎng):您認為手語識別研究的長遠目標是什么?

    方昱春:手語作為一種自然語言,蘊含著人類的認知智能機制。與文字語言或口語相比,手語形成的歷史相對較短,這使得手語成為研究語言發(fā)展和認知機制的寶貴研究對象。

    從理論角度來看,我們希望能夠更深入地理解這些機制。

    而從應(yīng)用角度來說,我們的目標是解決手語在實際場景中的應(yīng)用問題,比如在應(yīng)急、醫(yī)療和購物等場景中,為聾人社區(qū)提供數(shù)字化的技術(shù)支持。我們正在嘗試開發(fā)應(yīng)用程序和小程序,來實現(xiàn)這些目標。

    雷峰網(wǎng):方教授,手語研究現(xiàn)在是您研究工作的主要部分嗎?對您招生方面有何影響?

    方昱春:手語研究是我目前研究的主要任務(wù)之一,自從開始著手語項目以來,我投入的精力和資源都在不斷增長。

    在招收研究生方面,我們也非常希望有跨學(xué)科背景的學(xué)生加入,比如語言學(xué)和機器學(xué)習(xí)的雙重背景,但找到這樣的綜合型人才非常困難。

    幸運的是,上海大學(xué)有倪老師這樣在手語語言學(xué)領(lǐng)域有著深厚積累的專家,未來,我和倪老師計劃合作指導(dǎo)學(xué)生,培養(yǎng)具有交叉學(xué)科背景的復(fù)合性人才,這一目標對學(xué)生的職業(yè)發(fā)展和人生規(guī)劃將非常有價值。

    02 數(shù)據(jù)是手語識別研究的最大瓶頸

    雷峰網(wǎng):我最近對田英利教授的手語研究進行了專訪,您可能已經(jīng)看過了。田教授的研究專注于美國手語,并開發(fā)了一個實時手語語法錯誤識別系統(tǒng)。這個系統(tǒng)旨在為手語學(xué)習(xí)者提供即時反饋,并有望在未來提高精確度后,集成到手機或電腦中,以便將聾啞人的手語翻譯給聽力正常的人。請問您在這方面的研究是否有相似之處或存在差異?

    方昱春:從我個人的角度來說,我對手語研究還是一個新手,我們實驗了從計算機視覺角度研究手語的基本方法,我認為這些方法在應(yīng)用上是具有實用價值的,對未來的理論研究也特別有幫助。

    我和倪老師在討論上海大學(xué)未來的手語研究規(guī)劃時,了解到田英利教授開展了手語研究,于是我決定聯(lián)系她,促進不同手語研究之間的交流。雖然我們研究的手語語種、可能不同,但背后的機理是可以互相借鑒的,我們可以通過比較美國手語和中國手語來互相驗證。

    實際上,我最初進行手語研究時,也是從孤立詞的識別開始,使用的是美國手語(ASL)的數(shù)據(jù)集。正如我之前提到的,數(shù)據(jù)驅(qū)動的研究離不開數(shù)據(jù)。在我們自己的數(shù)據(jù)準備就緒之前,我們主要依賴開源數(shù)據(jù)集。

    那么,無論是美國手語還是中國手語,實際上在不同地區(qū)之間,手語的表現(xiàn)形式還是有所不同的,就像方言一樣,會有變化。

    目前,中國科學(xué)技術(shù)大學(xué)、西安電子科技大學(xué)、中國科學(xué)院計算所和自動化所,是國內(nèi)開展手語識別非常有代表性的研究機構(gòu)。團隊之間的合作溝通一定是有益的,如推動數(shù)據(jù)庫共享等。

    雷峰網(wǎng):手語也有“方言”之分,目前您使用的手語數(shù)據(jù)集,是否主要來自于上海一帶所使用的?

    方昱春:我們目前在上海進行的手語研究還處于比較基礎(chǔ)的階段,比如數(shù)據(jù)的分割和預(yù)處理,還沒有深入到識別層面。

    我們算法研究使用的數(shù)據(jù)集叫做“中國手語識別數(shù)據(jù)集”(CSL),這是由中國科學(xué)技術(shù)大學(xué)的研究團隊建立的。

    目前國家層面和政策層面為了幫助聾人群體,做了很多語言推廣工作,通過制定新的標準來推廣手語。

    雖然對于我們這些不打手語的外行人來說,不能辨識不同地區(qū)的手語方言,但是關(guān)于手語的這種地域差異,還有很多問題需要研究。

    雷峰網(wǎng):國內(nèi)目前也有中科大、西電、中科院等幾支手語識別的領(lǐng)先團隊,所使用的手語數(shù)據(jù)是否針對特定地區(qū)?

    方昱春:是的,這幾所單位開展手語識別研究,都具備豐厚的積累。針對特定的手語方言的研究還非常少。

    上海的手語語言學(xué)發(fā)展較為先進,倪老師和上海的聾人群體建立了長期的聯(lián)系,并開展了實際合作。

    從計算機視覺研究的角度來看,我們更多地使用德國的鳳凰(PHOENIX)數(shù)據(jù)集,因為德國的手語數(shù)據(jù)集上做出來的標桿算法較多,我們希望了解自己的算法達到了什么程度。德國的標桿數(shù)據(jù)集開源較多,因此大家都愿意使用它來驗證自己方法的進步。

    雷峰網(wǎng):使用德國手語數(shù)據(jù)集進行研究會有語言不通的問題嗎?這對我們的研究方法有影響嗎?

    方昱春:從計算機視覺的角度來看,使用德國或其他國家手語數(shù)據(jù)集是沒有問題的,方法是有通用性的。視頻中包含的主要是上半身的多模態(tài)運動,這些信號對我們來說都是一樣的。盡管如此,從語言學(xué)的角度來看,不同語言的手語確實存在差異,因為它們屬于不同的語系。

    雷峰網(wǎng):在開發(fā)數(shù)字人進行手語應(yīng)用時,您是否遇到了一些挑戰(zhàn),比如聾人群體可能無法理解數(shù)字人使用的手語,或者不同企業(yè)開發(fā)的數(shù)字人在手語表達上可能出現(xiàn)同質(zhì)化的問題?

    方昱春:首先,我們面臨的最大挑戰(zhàn)是手語數(shù)據(jù)的缺乏。

    我們會選擇使用德國鳳凰(PHOENIX)數(shù)據(jù)集,因為它將場景限定在天氣預(yù)報上,問題因場景限定而簡化,他們提供公共研究的開源數(shù)據(jù)量很大,他們的團隊開展了語言學(xué)家和計算機科學(xué)專家的合作,是一個很好的模式。

    第二個挑戰(zhàn)是,手語語言學(xué)專家和語言學(xué)專業(yè)人員的缺乏。

    上大大學(xué)手語識別研究,有幸能獲得倪蘭老師的指導(dǎo)。

    如果僅從計算機視覺的角度解決手語識別問題,不了解手語語言的特點,不了解聾人的語言特點,所開發(fā)出來的算法或模型會脫離實際應(yīng)用的需求。

    田英利教授的工作就是一個跨學(xué)科合作的典范,她結(jié)合了語言學(xué)和計算機視覺技術(shù),我認為她的交叉應(yīng)用選點非常新穎。倪老師也非常贊賞田教授的工作,并特意推薦給我們上海大學(xué)團隊參考。

    雷峰網(wǎng)(公眾號:雷峰網(wǎng)):我們也非常關(guān)注前沿科技對您工作的影響,比如去年推出的ChatGPT和今年的Sora,它們在自然語言處理方面取得了顯著成就。這些模型背后的設(shè)計理念和技術(shù)路徑,對您做手語識別研究有何啟示?

    方昱春:我們團隊也一直在關(guān)注大語言模型的發(fā)展。我們正在計劃利用學(xué)校新建的大型GPU集群,開展更多大語言模型相關(guān)的研究。

    在結(jié)合計算機視覺(CV)和自然語言處理(NLP)方面,在中科大團隊將自然語言理解技術(shù)應(yīng)用于手語識別研究的啟發(fā),我們團隊近期也提出了一個解決方案,取得了顯著的效果。

    雷峰網(wǎng):我們注意到,大模型的出現(xiàn)讓很多人希望建立一個全球或國家通用的手語大模型。但這確實面臨挑戰(zhàn),尤其是數(shù)據(jù)獲取困難。手語數(shù)據(jù)通常包含上半身,涉及肖像權(quán)和隱私問題。您是否主要使用倪蘭教授收集的數(shù)據(jù)庫進行數(shù)據(jù)研究?

    方昱春:為了妥善使用數(shù)據(jù),確實需要健全隱私保護機制。我們團隊在數(shù)據(jù)采集和使用方面,都嚴格遵守隱私保護的約束。

    手語理解數(shù)據(jù)集面臨的最大的挑戰(zhàn)在于數(shù)據(jù)標注問題。當(dāng)采集到孤立詞或連續(xù)手語句的視頻后,可以進行什么程度的標注?目前,文字形式自然語言的自動分詞已非常成熟。但是,要將手語視頻分解成音韻要素,自動處理難度非常高,人工標注工作量會非常大。

    在接下來的線上圓桌討論中,我希望和大家一起探討手語識別領(lǐng)域的數(shù)據(jù)之困。


    本文作者吳彤,歡迎添加微信(icedaguniang),交流認知,互通有無。


    |GAIR live 圓桌預(yù)告

    3月18日,北京時間20:00-22:00,雷峰網(wǎng)將舉辦主題為「AI+手語識別,技術(shù)革新與應(yīng)用前景」的線上圓桌論壇。

    本次論壇嘉賓有,美國紐約城市大學(xué)田英利教授、上海交通大學(xué)自動化系蘇劍波教授、上海大學(xué)計算機工程與科學(xué)學(xué)院方昱春教授、上海大學(xué)文學(xué)院倪蘭教授,共同分享他們的見解和研究成果。

    “全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學(xué)會(CCF)合作創(chuàng)立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。

    經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

    GAIR Live 作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。

    專訪上海大學(xué)方昱春教授:數(shù)據(jù)驅(qū)動的手語識別研究,如何破解數(shù)據(jù)之困?|GAIR live

    |手語相關(guān)資料

    1,《專訪紐約城市大學(xué)田英利教授:用多通道、多模態(tài)的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

    2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017


    |IJAIRR正在邀約論文和專題

    《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學(xué)術(shù)期刊。

    作為全球首本專注于人工智能(AI)、機器人技術(shù)(Robotics)以及基礎(chǔ)科學(xué)交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領(lǐng)域研究的權(quán)威發(fā)布平臺。

    IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。

    我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。

    (1)“如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。

    (2)如果您領(lǐng)導(dǎo)的團隊在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。

    (3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細節(jié)。

    IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發(fā)展。

    聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg

    關(guān)于期刊創(chuàng)刊主編等更多信息,可點擊

    https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

    關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

    IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr


    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    專訪上海大學(xué)方昱春教授:數(shù)據(jù)驅(qū)動的手語識別研究,如何破解數(shù)據(jù)之困?|GAIR live

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說