AAAI-20 Opening Ceremony
AAAI Presidential Address
AAAI-20 Turing Award Winner Event
IAAI-20 Invited Talk:David Cox
AAAI-20 Invited Talk: Combining Machine Learning and Control for Reactive Robots- Aude Billard
Robert S. Engelmore Memorial Award Lecture: The Third AI Summer - Henry Kautz
AAAI-20 Oxford-Style Debate: Academic AI Research in an Age of Industry Labs
IAAI/AAAI Joint Invited Talk: AI and Security: Lessons, Challenges and Future Directions - Dawn Song
AAAI-20 Invited Talk: The Economic Value of Data for Targeted Pricing
AAAI-20 AI History Panel: Advancing AI by Playing Games
AAAI-20 Fireside Chat with Daniel Kahneman
AAAI-20 Invited Talk: How Not to Destroy the World with AI - Stuart Russell
目前神經機器翻譯模型主要基于編碼器-解碼器框架,他們分別對源語言和目標語言進行建模,然后使用注意力機制把雙語的表示進行橋接。
本文提出一種聯合表示,它同時對源語言和目標語言進行建模,以便更好的捕捉雙語直接的關系。在不同數據集上的實驗表明我們的方法能夠取得比Transformer基線更優秀的結果。
深度學習在人臉檢測任務上取得了非常優異的結果,通過設計具備特定感受野的檢測器搭配不同尺度特征的有效利用可以比較容易的獲得很好的性能。當前算法多為anchor-based的算法,需要一定的設計經驗,同時,對于圖像輸入尺度和模型參數規模也有著一定的要求,這就不可避免的會帶來一定的計算量負擔。
本文章針對通用人臉檢測問題重新探究了檢測器感受野和圖像輸入尺度之間的關系,提出了全新的KPNet人臉檢測框架,結合anchor-free的算法設計和bottom-up的檢測策略能夠讓人臉檢測器基于低尺度圖像輸入和輕量級網絡結構達到優異的性能,同時具備極快的模型推理速度。
盡管生成性對抗網絡(GANs)已經廣泛應用于各種圖像轉換的任務中,但由于其計算量大、存儲成本高,很難在移動設備上應用。傳統的網絡壓縮方法側重于視覺識別任務,而很少考慮生成任務的壓縮。
我們提出了一種基于知識蒸餾的生成對抗網絡的壓縮方法,并分別針對學生網絡的生成器和判別器分別設計了蒸餾的損失函數。通過學習教師生成器和判別器中蘊含的信息,學生網絡可以使用較少的參數取得和教師網絡相似的圖像轉換性能。
在各種計算機視覺任務中,深度神經網絡(尤其是卷積神經網絡(CNN))的優越性已得到充分證明。由于深層網絡經常被過度參數化以在訓練集上獲得更高的性能,避免過度擬合非常重要,因此我們提出了特征圖擾動方法(disout)來增強深度神經網絡的泛化能力,擾動。根據網絡中間層的Rademacher 復雜度,確定給定深度神經網絡的泛化誤差上界。將擾動引入特征圖來降低網絡的Rademacher復雜度,從而提高其泛化能力。
提出的特征圖擾動方法可以方便地應用于全連接層或者卷積層,在基準數據集CIFAR和大尺度數據集ImageNet的實驗結果表明,提出的特征圖擾動方法可以大幅提高網絡的準確率并優于SOTA。
隨著深度學習技術的發展,以及計算能力的進步(GPU等),現在基于視頻的研究領域越來越受到重視。視頻與圖片最大的不同在于視頻還包含了時序上的信息,此外需要的計算量通常也大很多。
目前主要在做視頻分析,視頻中動作定位相關的工作,視頻人類行為分析和視頻動作定位在智能監控,在線檢測和短視頻社交領域都會有相應的應用。
此次主要分享行為動作定位的整個算法流程介紹和相關工作,以及我去年ActivityNet Challenge 2019的技術方案。
另外,此論文已被AAAI 2020收錄。
研究面向海量無標注視頻人臉關鍵點定位與跟蹤的自監督時空關系推理方法。該方法力圖充分挖掘連續視頻中鄰近人臉關鍵點間的幾何相關性,以此推斷出關鍵點間具有較強判別力的時空關系線索以提高人臉關鍵點定位與跟蹤的穩定性。
具體通過設計一種高效推斷的模塊機制:在空間域上,算法從靜態視頻幀中解析人臉的幾何特征以對視頻人臉的全局結構化約束建模,進而保持不同人臉個體化的差異性;在時間域上,對時序上回環一致性約束,通過評價所追蹤定位的關鍵點能夠從未來幀回傳到原始幀位置形成自反饋的閉環,從而實現對原始人臉序列潛在的時空關系建模 。
深度學習在視覺定位方面取得了令人印象深刻的結果。然而基于圖像的定位方法普遍缺乏魯棒性,從而導致較大誤差。當前算法多通過圖像序列或添加幾何約束方法,迫使網絡在學習時拒絕動態目標和光照變化對定位的干擾,以獲得更好的性能。
本文提出了一種利用注意力機制使網絡自動關注并提取具有幾何意義的對象和特征,即使僅基于單張圖像,也可以實現優于利用圖像序列或幾何約束方法的定位結果。
通過室內和室外公開數據集上的定位結果和顯著圖,我們闡述了如何利用注意力機制提取環境中具有幾何意義的特征,從而實現最優的相機姿態回歸性能。算法細節和源代碼可訪問:https://github.com/BingCS/AtLoc
近年來,深度模型在計算機視覺任務上不斷刷新性能,已成為研究與應用熱點。然而由于參數量龐大、存儲和計算代價高,難以部署在資源受限的嵌入式端上。 深度模型壓縮技術是解決該問題的一個重要技術。本次分享將介紹外面提出的結合AutoML思想對深度模型進行自動結構化剪枝的AutoCompress算法框架。
二值網絡(BNN)由于其對于硬件非常友好,獲得了學術界和工業界的廣泛關注。雖然二值網絡執行效率非常高,但是相對于全精度浮點網絡,其精度損失嚴重。目前二值網絡普遍使用sign函數對網絡的權值和激活量化到-1和+1,對二值網絡的研究方向主要包括提高二值網絡的訓練技巧、修改網絡結構使得網絡結構對于二值量化不敏感等,然而二值表達形式卻被研究者忽略。在本文中,我們提出了稀疏量化,即對網絡激活量化到0和+1,而網絡權值依然量化到-1和+1。我們驗證了在使用0-1量化時,不會引入任何額外的計算量,但網絡性能卻獲得大幅度提升。同時,針對稀疏二值量化網絡中超參選擇問題,我們提出一種高效的自動化學習方法,進一步提升二值網絡性能。通過實驗發現,我們在沒有使用任何額外技巧的情況下,網絡精度能夠達到目前最高水平。
文章構建了一個基于司法考試的問答數據集,包含了大約26000道司法考試的選擇題。與傳統QA數據集不一樣的是,法律領域的問答依賴于大量專業知識的理解,和對大量參考資料的結合。本文分析了司法考試的難點,并通過一系列實驗證明了現有的模型即使是距離非專業人士的答題水平仍然有很大的差異,而非專業人士與專業人士之間的水平也相去甚遠,這也為該數據集的解決帶來了巨大的挑戰。數據集地址:http://jecqa.thunlp.org/
非自回歸神經機器翻譯模型(NAT)對目標詞的生成進行獨立的建模,從而顯著地提升了翻譯速度。然而,對非自回歸模型來說,詞級別的交叉熵損失函數不合理地要求模型輸出與參考譯文嚴格對齊,并且無法準確地建模目標端的序列依賴關系,從而導致其與模型翻譯質量的相關性較弱。在本文中,我們提出了基于模型與參考譯文間n元組袋差異的訓練目標,以該訓練目標來訓練非自回歸模型。我們克服了指數級搜索空間和n元組袋維度巨大的困難,給出了計算n元組袋差異的高效算法,使這個基于n元組袋的訓練目標具有可導、高效、易于實現的優點。我們在三個機器翻譯數據集上進行了實驗驗證,結果表明,我們的方法在WMT14英語-德語數據集上取得了約5.0個BLEU值的大幅提升,在另外兩個數據集上也有顯著提升。
神經機器翻譯模型通常采用Teacher Forcing策略來進行訓練,在該策略下,每個源句子都給定一個Ground Truth,在每個時間步翻譯模型都被強制生成一個0-1分布,0-1分布將所有的概率分布僅通過Ground Truth詞語進行梯度回傳,詞表中其他的詞語均被忽略,從而影響了參數訓練。為了解決這個問題,我們提出在神經機器翻譯模型中引入一個評估模塊,對生成的譯文從流利度和忠實度兩個方面進行評估,并用得到的評估分數用來指導訓練階段譯文的概率分布,而在測試的時候,可以完全拋棄該評估模塊,采用傳統的Transformer模型進行解碼。實驗中我們與Transformer模型、強化學習模型以及詞袋模型進行了比較,我們的方法在中-英、英-羅馬尼亞語言對上相比于所有的基線系統翻譯效果均取得了顯著提升。
序列文本分類旨在對一條序列文本片段進行標簽化。除各個片段內的文本內容以外,考慮文本片段間的上下文依賴依然是影響分類性能的關鍵因素。先前的文本序列標注技術自左向右地預測對應的文本標簽。然而,在決策過程中,不同的文本片段所需上下文依賴不同并且該些依賴并不一定嚴格按照自左向右地順序排放。因此,本文提出一種新的跳躍標注模式,先先打標那些需要更少上下文信息的文本片段再考慮那些需要更多上下文的部分。技術上,我們設計了一個輔助的棋盤游戲作為序列文本分類的問題映射。通過將序列文本特征注入到所定義的游戲規則和狀態評估策略之中,能有效地推動游戲玩家在每一步中最優化各自的招法,該博弈過程對應到跳躍地產生一段序列標簽,此外該棋盤游戲的終局狀態對應到最優的預測序列。在多個數據集上的實驗結果體現出提出方法的有效性。
Knowledge graphs typically undergo open-ended growth of new relations. This cannot be well handled by relation extraction that focuses on pre-defined relations with sufficient training data. To address new relations with few-shot instances, we propose a novel bootstrapping approach, Neural Snowball, to learn new relations by transferring semantic knowledge about existing relations. More specifically, we use Relational Siamese Networks (RSN) to learn the metric of relational similarities between instances based on existing relations and their labeled data. Afterwards, given a new relation and its few-shot instances, we use RSN to accumulate reliable instances from unlabeled corpora; these instances are used to train a relation classifier, which can further identify new facts of the new relation. The process is conducted iteratively like a snowball. Experiments show that our model can gather high-quality instances for better few-shot relation learning and achieves significant improvement compared to baselines.
以圖像類別標簽為監督信息的弱監督語義分割往往面臨目標區域估計不完整的問題。為了緩解這個問題,本文提出了一種對跨圖像間關系進行建模的方法。該方法在同類別不同圖像之間建立像素級的關系矩陣,并據此從不同的圖像間取得互相補充的信息,用以增廣原特征并獲取更加完整和魯棒的目標區域估計。實驗證明該方法可以有效學得相關目標間的關聯關系,輔助得到對整個目標更加完整魯棒的預測結果,并且在多種質量的初始估計下都能取得顯著的提升,具有很好的泛化性。在僅使用圖像類別標簽作為監督信息下,該方法在 VOC2012 數據集上取得了當時最好的 65.3% mIoU 的測試結果,證明了方法的有效性。
反向詞典以關于目標詞語義的描述為輸入,輸出目標詞以及其他相關詞。比如輸入“a road where cars go very quickly without stopping”,期望反向詞典輸出“expressway”、“freeway”、“motorway”等詞。反向詞典最主要的使用價值在于解決“舌尖現象”(話到嘴邊想不起來)。
現有的反向詞典模型很難解決高度變化的查詢輸入以及低頻目標詞這兩個問題。受到人的由描述到詞的推斷過程的啟發,我們提出了多通道反向詞典模型,可以同時解決以上兩個問題。
我們的模型包括一個句子編碼器和多個預測器,預測器可以通過給定的查詢文本預測目標詞的各種特征,進而幫助確定目標詞。我們在中文和英文數據集上評測了我們的模型,實驗結果表明我們的模型實現了當前最佳性能(state-of-the-art),甚至在人工真實查詢數據集上超過了最流行的商用反向詞典系統OneLook。此外我們也進行了定量實驗和案例分析來證明我們模型的有效性和魯棒性。
論文已經在arXiv公開:https://arxiv.org/pdf/1912.08441
大規模知識圖譜在當前的信息系統中具有非常重要的角色。為了擴充知識圖譜的規模,之前的工作需要對新增關系標注充足的訓練數據集,但這種方式成本昂貴不符合實際要求。本文考慮采用零樣本學習方式來解決這個問題。當給定一個新的關系類別,本文嘗試直接通過關系類別的文本描述編碼類別相關信息。為了完成這個目標,本文采用生成對抗學習思路完成文本信息和知識圖譜信息的知識轉換。具體來講,本文希望生成對抗網絡的生成器可以有效的通過關系類別文本描述生成關系類別向量表征。在這個前提下,對于新增關系類別的樣本預測就轉化為監督學習分類任務。
反向詞典以關于目標詞語義的描述為輸入,輸出目標詞以及其他相關詞。比如輸入“a road where cars go very quickly without stopping”,期望反向詞典輸出“expressway”、“freeway”、“motorway”等詞。反向詞典最主要的使用價值在于解決“舌尖現象”(話到嘴邊想不起來)。
現有的反向詞典模型很難解決高度變化的查詢輸入以及低頻目標詞這兩個問題。受到人的由描述到詞的推斷過程的啟發,我們提出了多通道反向詞典模型,可以同時解決以上兩個問題。
我們的模型包括一個句子編碼器和多個預測器,預測器可以通過給定的查詢文本預測目標詞的各種特征,進而幫助確定目標詞。我們在中文和英文數據集上評測了我們的模型,實驗結果表明我們的模型實現了當前最佳性能(state-of-the-art),甚至在人工真實查詢數據集上超過了最流行的商用反向詞典系統OneLook。此外我們也進行了定量實驗和案例分析來證明我們模型的有效性和魯棒性。
論文已經在arXiv公開:https://arxiv.org/pdf/1912.08441
基于skeleton數據的動作識別是計算機視覺領域中一個非常熱門的研究話題。使用圖卷積(GCN)來建模這種不規則的數據也取得了很好的效果。 但是這個任務中的GCN有兩個方面可以去改善。首先, 大部分GCN都提供一個單一的(各層share),固定的矩陣來編碼數據節點之間的鄰接關系。其次,大部分的GCN都是基于一階的切比雪夫多項式進行估計的。我們認為,將高層的特征表示限制是低層的拓撲結構當中是一種不合理的做法。此外,一階的多項式估計并不能很好的捕捉到高階的鄰接關系。本文提出一種基于NAS的GCN設計方案。文章通過多個Graph的功能模塊構建出一個搜索空間并且相應的提出一種高效的搜索策略。Searched GCN在兩個大規模的Skeleton-based動作識別任務上測試都達到最好的性能。
加入AAAI 頂會小組,第一時間獲得最新會議信息
如何讓你的優秀工作,以最短路徑,為更多人所了解?
AI 科技評論愿架起這座學者之間的橋梁
促進學術交流,讓知識真正流動!
1)稿件為個人原創作品
2)如果文章并非首發,請在投稿時提醒并附上已發布鏈接
請添加下方微信,備注:頂會投稿+姓名+單位