成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給任平
    發送

    0

    專訪上海大學方昱春教授:數據驅動的手語識別研究,如何破解數據之困?|GAIR live

    本文作者: 任平 2024-03-18 14:42 專題:AI for Science
    導語:CV學者如何破解手語識別領域的語言壁壘?

    在科技日新月異的今天,手語識別作為一種新興的跨學科研究領域,正逐漸走進公眾視野。

    近期,我們邀請了上海大學的方昱春教授,這位在計算機視覺和手語研究領域深耕多年的資深專家,與我們分享了她如何將計算機視覺技術與手語研究相融合,開辟出一片新的研究天地。

    方教授的研究重點在于利用計算機視覺技術(CV)探索手語識別,特別是通過深度學習方法來求解這一復雜而神奇的自然語言交流形式。目前她和團隊已經在多模數據采集、孤立詞識別、連續手語識別以及人體姿態建模等四個方向上開展了研究。

    實際上,方教授的學術研究始于人臉識別,隨著時間的推移,她的研究興趣逐漸擴展到手語識別這一領域。

    2003年,她在中科院自動化所獲得博士學位,之后前往法國國立信息與自動化研究院做博士后,從事圖像檢索研究。雖然手語研究并非她最初的研究重點,但在2005年加入上海大學后,方教授逐漸將研究重心轉向了手語領域。

    特別是在2017年,她協助本校手語語言學專家倪蘭教授籌建面向人工智能研究的手語數據庫,并在2018年獲得上海市科委項目支持,正式開展手語識別研究。

    在方教授看來,手語研究不僅是技術探索的過程,更是深入理解人類認知智能機制的重要途徑。她指出:“手語作為一種自然語言,盡管其發展歷史相對較短,但它所蘊含的關于語言發展和認知機制的信息是極其珍貴的?!?/p>

    如今,方教授的研究不僅關注于手語的理論研究,更致力于解決手語在實際場景中的應用問題,為聾人群體在應急、醫療和購物等實際場景中提供數字化技術支持。方教授和團隊正在開發的應用程序和小程序,正是這一目標的具體實踐。

    此外,她也指出,隨著大型語言模型等前沿科技的發展,手語識別研究將面臨新的機遇和挑戰。她的團隊正在積極探索結合計算機視覺和自然語言處理的方法,以期在手語研究領域取得更多突破。

    以下為對話(經編輯):

    01  計算機視覺學者做起手語識別

    雷峰網:方教授,我注意到您是計算機視覺(CV)出身,手語研究在您的研究工作中所占比重在逐年增加,能具體介紹下您是如何把兩者集合起來的嗎?

    方昱春:簡單來說,計算機視覺和手語的結合,形成了“手語識別”這一研究方向。

    手語識別研究是數據驅動的,而手語數據的獲取和標注相對復雜。之所以我涉足這一領域,是因為倪蘭老師參與了國家和上海的科研活動,希望將人工智能技術應用于手語研究,這促使我開始著手語數據的采集和研究規劃。

    在搭建手語識別系統時,還有另一種技術路線--基于傳感設備(如數據手套和位置跟蹤器)的系統。穿戴式設備如數據手套也曾是主流手語識別研究方向。

    隨著深度學習在人臉識別應用上的成功,手語識別研究也逐漸向機器學習和計算機視覺結合的方向發展。

    目前,我的研究小組跟蹤了計算機視覺領域的主流方法,正在以深度學習方法為主來處理手語識別問題,后續研究計劃更加關注手語語言學交叉學科問題的探索。

    我和團隊已經探索了四個主要方向,包括多模態數據采集、孤立詞識別、連續手語識別,以及人體姿態建模和AI生成技術應用于手語研究。

    在連續手語識別方面,我想強調的一點是,我們試圖建模手語運動的多模態特性,比如頭部、面部、雙手和軀干之間的空間關系和運動關系,以實現對手語更深入的理解。這是我們團隊過去幾年一直在努力的方向。

    隨著人工智能生成內容技術的發展,我們開始嘗試了一些手語的計算生成研究,這部分工作還處于初級階段。

    雷峰網:手語識別這一研究領域過去很少人關注,國內在這方面大致經歷了怎樣的發展階段?

    方昱春:計算機視覺的手語識別研究經歷了20年左右的發展,隨著深度學習技術的發展,基于機器學習和計算機視覺的手語識別才開始蓬勃發展,近兩年里手語識別研究的規模迅速增長。

    我是在2005年加入上海大學,在2017年才開始規劃手語研究,2018年開始正式投入到手語研究中。2017年,我協助倪蘭老師籌備數據建設,這年對上海大學手語研究來說是一個重要的里程碑,倪蘭教授建立了“中國手語及聾人研究中心”,非常有魄力。

    雷峰網:您認為手語識別研究的長遠目標是什么?

    方昱春:手語作為一種自然語言,蘊含著人類的認知智能機制。與文字語言或口語相比,手語形成的歷史相對較短,這使得手語成為研究語言發展和認知機制的寶貴研究對象。

    從理論角度來看,我們希望能夠更深入地理解這些機制。

    而從應用角度來說,我們的目標是解決手語在實際場景中的應用問題,比如在應急、醫療和購物等場景中,為聾人社區提供數字化的技術支持。我們正在嘗試開發應用程序和小程序,來實現這些目標。

    雷峰網:方教授,手語研究現在是您研究工作的主要部分嗎?對您招生方面有何影響?

    方昱春:手語研究是我目前研究的主要任務之一,自從開始著手語項目以來,我投入的精力和資源都在不斷增長。

    在招收研究生方面,我們也非常希望有跨學科背景的學生加入,比如語言學和機器學習的雙重背景,但找到這樣的綜合型人才非常困難。

    幸運的是,上海大學有倪老師這樣在手語語言學領域有著深厚積累的專家,未來,我和倪老師計劃合作指導學生,培養具有交叉學科背景的復合性人才,這一目標對學生的職業發展和人生規劃將非常有價值。

    02 數據是手語識別研究的最大瓶頸

    雷峰網:我最近對田英利教授的手語研究進行了專訪,您可能已經看過了。田教授的研究專注于美國手語,并開發了一個實時手語語法錯誤識別系統。這個系統旨在為手語學習者提供即時反饋,并有望在未來提高精確度后,集成到手機或電腦中,以便將聾啞人的手語翻譯給聽力正常的人。請問您在這方面的研究是否有相似之處或存在差異?

    方昱春:從我個人的角度來說,我對手語研究還是一個新手,我們實驗了從計算機視覺角度研究手語的基本方法,我認為這些方法在應用上是具有實用價值的,對未來的理論研究也特別有幫助。

    我和倪老師在討論上海大學未來的手語研究規劃時,了解到田英利教授開展了手語研究,于是我決定聯系她,促進不同手語研究之間的交流。雖然我們研究的手語語種、可能不同,但背后的機理是可以互相借鑒的,我們可以通過比較美國手語和中國手語來互相驗證。

    實際上,我最初進行手語研究時,也是從孤立詞的識別開始,使用的是美國手語(ASL)的數據集。正如我之前提到的,數據驅動的研究離不開數據。在我們自己的數據準備就緒之前,我們主要依賴開源數據集。

    那么,無論是美國手語還是中國手語,實際上在不同地區之間,手語的表現形式還是有所不同的,就像方言一樣,會有變化。

    目前,中國科學技術大學、西安電子科技大學、中國科學院計算所和自動化所,是國內開展手語識別非常有代表性的研究機構。團隊之間的合作溝通一定是有益的,如推動數據庫共享等。

    雷峰網:手語也有“方言”之分,目前您使用的手語數據集,是否主要來自于上海一帶所使用的?

    方昱春:我們目前在上海進行的手語研究還處于比較基礎的階段,比如數據的分割和預處理,還沒有深入到識別層面。

    我們算法研究使用的數據集叫做“中國手語識別數據集”(CSL),這是由中國科學技術大學的研究團隊建立的。

    目前國家層面和政策層面為了幫助聾人群體,做了很多語言推廣工作,通過制定新的標準來推廣手語。

    雖然對于我們這些不打手語的外行人來說,不能辨識不同地區的手語方言,但是關于手語的這種地域差異,還有很多問題需要研究。

    雷峰網:國內目前也有中科大、西電、中科院等幾支手語識別的領先團隊,所使用的手語數據是否針對特定地區?

    方昱春:是的,這幾所單位開展手語識別研究,都具備豐厚的積累。針對特定的手語方言的研究還非常少。

    上海的手語語言學發展較為先進,倪老師和上海的聾人群體建立了長期的聯系,并開展了實際合作。

    從計算機視覺研究的角度來看,我們更多地使用德國的鳳凰(PHOENIX)數據集,因為德國的手語數據集上做出來的標桿算法較多,我們希望了解自己的算法達到了什么程度。德國的標桿數據集開源較多,因此大家都愿意使用它來驗證自己方法的進步。

    雷峰網:使用德國手語數據集進行研究會有語言不通的問題嗎?這對我們的研究方法有影響嗎?

    方昱春:從計算機視覺的角度來看,使用德國或其他國家手語數據集是沒有問題的,方法是有通用性的。視頻中包含的主要是上半身的多模態運動,這些信號對我們來說都是一樣的。盡管如此,從語言學的角度來看,不同語言的手語確實存在差異,因為它們屬于不同的語系。

    雷峰網(公眾號:雷峰網):在開發數字人進行手語應用時,您是否遇到了一些挑戰,比如聾人群體可能無法理解數字人使用的手語,或者不同企業開發的數字人在手語表達上可能出現同質化的問題?

    方昱春:首先,我們面臨的最大挑戰是手語數據的缺乏。

    我們會選擇使用德國鳳凰(PHOENIX)數據集,因為它將場景限定在天氣預報上,問題因場景限定而簡化,他們提供公共研究的開源數據量很大,他們的團隊開展了語言學家和計算機科學專家的合作,是一個很好的模式。

    第二個挑戰是,手語語言學專家和語言學專業人員的缺乏。

    上大大學手語識別研究,有幸能獲得倪蘭老師的指導。

    如果僅從計算機視覺的角度解決手語識別問題,不了解手語語言的特點,不了解聾人的語言特點,所開發出來的算法或模型會脫離實際應用的需求。

    田英利教授的工作就是一個跨學科合作的典范,她結合了語言學和計算機視覺技術,我認為她的交叉應用選點非常新穎。倪老師也非常贊賞田教授的工作,并特意推薦給我們上海大學團隊參考。

    雷峰網:我們也非常關注前沿科技對您工作的影響,比如去年推出的ChatGPT和今年的Sora,它們在自然語言處理方面取得了顯著成就。這些模型背后的設計理念和技術路徑,對您做手語識別研究有何啟示?

    方昱春:我們團隊也一直在關注大語言模型的發展。我們正在計劃利用學校新建的大型GPU集群,開展更多大語言模型相關的研究。

    在結合計算機視覺(CV)和自然語言處理(NLP)方面,在中科大團隊將自然語言理解技術應用于手語識別研究的啟發,我們團隊近期也提出了一個解決方案,取得了顯著的效果。

    雷峰網:我們注意到,大模型的出現讓很多人希望建立一個全球或國家通用的手語大模型。但這確實面臨挑戰,尤其是數據獲取困難。手語數據通常包含上半身,涉及肖像權和隱私問題。您是否主要使用倪蘭教授收集的數據庫進行數據研究?

    方昱春:為了妥善使用數據,確實需要健全隱私保護機制。我們團隊在數據采集和使用方面,都嚴格遵守隱私保護的約束。

    手語理解數據集面臨的最大的挑戰在于數據標注問題。當采集到孤立詞或連續手語句的視頻后,可以進行什么程度的標注?目前,文字形式自然語言的自動分詞已非常成熟。但是,要將手語視頻分解成音韻要素,自動處理難度非常高,人工標注工作量會非常大。

    在接下來的線上圓桌討論中,我希望和大家一起探討手語識別領域的數據之困。


    本文作者吳彤,歡迎添加微信(icedaguniang),交流認知,互通有無。


    |GAIR live 圓桌預告

    3月18日,北京時間20:00-22:00,雷峰網將舉辦主題為「AI+手語識別,技術革新與應用前景」的線上圓桌論壇。

    本次論壇嘉賓有,美國紐約城市大學田英利教授、上海交通大學自動化系蘇劍波教授、上海大學計算機工程與科學學院方昱春教授、上海大學文學院倪蘭教授,共同分享他們的見解和研究成果。

    “全球人工智能與機器人大會”(GAIR)始于2016年雷峰網與中國計算機學會(CCF)合作創立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學術界、產業界、投資界的新平臺,而雷峰網“連接三界”的全新定位也在此大會上得以確立。

    經過幾年發展,GAIR大會已成為行業標桿,是目前為止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。

    GAIR Live 作為雷峰網旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平臺。

    專訪上海大學方昱春教授:數據驅動的手語識別研究,如何破解數據之困?|GAIR live

    |手語相關資料

    1,《專訪紐約城市大學田英利教授:用多通道、多模態的方法「看懂」手語》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

    2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017


    |IJAIRR正在邀約論文和專題

    《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯合出版的國際學術期刊。

    作為全球首本專注于人工智能(AI)、機器人技術(Robotics)以及基礎科學交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領域研究的權威發布平臺。

    IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。

    我們特別關注那些在頂級AI會議上發表并現場展示,但缺乏長期沉淀平臺的優秀論文。為了給這些論文及其作者提供一個更廣泛的發表和推廣渠道,IJAIRR現正積極邀約相關論文投稿。

    (1)“如果您在本領域頂級會議上發表的文章(或即將發表)不超過一年,我們將協助您稍作修改后在IJAIRR期刊上發表。

    (2)如果您領導的團隊在頂級會議上有多篇論文發表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。

    (3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細節。

    IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發展。

    聯系人:IJAIRR創刊主編朱曉蕊博士,xiaorui_zhu@gair.sg

    關于期刊創刊主編等更多信息,可點擊

    https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

    關于雷峰網、GAIR大會、GAIR研究院(期刊和在線社區)的詳細介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

    IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr


    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

    專訪上海大學方昱春教授:數據驅動的手語識別研究,如何破解數據之困?|GAIR live

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說