再突破！騰訊“混元”AI大模型登頂視覺常識推理VCR榜單

本文作者：嘉嘉

2022-05-31 16:26

導語：騰訊“混元”AI大模型登頂VCR榜單，多模態、跨模態理解能力行業第一

5月31日，騰訊"混元"AI大模型在多模態理解領域國際權威榜單VCR（視覺常識推理，Visual Commonsense Reasoning）中登頂，兩個單項成績和總成績均位列第一。

據了解，這是繼在跨模態檢索領域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后，"混元"AI大模型的又一重大突破，展現了其在多模態理解領域的強大實力。

與跨模態理解任務不同的是，多模態理解任務要求計算機除了做到識別層次的感知（如分類檢測等），還需要達到認知層次的感知（如判斷意圖、邏輯推理等），具備和人類一樣的思考能力。

視覺常識推理VCR（Visual Commonsense Reasoning）作為多模態理解核心任務之一，由華盛頓大學等研究機構于 2018 年發起，自舉辦以來吸引了眾多知名高校、企業和研究機構參加，已成為國際上最權威的多模態理解領域榜單。

此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發，同時借助騰訊太極機器學習平臺的GPU算力和訓練加速框架，該模型在預訓練任務、訓練方式上進行了諸多的創新改進和設計，有效提升了模型性能。

訓練任務方面，“混元”AI大模型基于視覺場景圖預測任務（VSGP）進行細粒度的建模學習，能夠獲取更豐富的視覺語義信息；交互層面，“混元”采用全局+局部注意力的方式，能夠在有限訓練成本的情況下達到最大化的學習效率。

在訓練方式上，“混元”AI大模型在預訓練階段、微調階段增加對抗訓練，提升模型的泛化性能，增強該模型在下游任務上的性能。基于此，“混元”多模態理解大模型在圖文跨模態檢索、視覺問答等多個理解任務上都取得了明顯的效果提升，并最終在VCR上登頂榜首。

截至目前，“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領域的AI權威榜單中取得第一名的成績，并刷新多項行業歷史紀錄。這意味著，“混元”在自然語言理解、多模態理解、跨模態理解等領域的技術實力已經得以驗證。

據悉，“混元”已應用到騰訊廣告業務中的多個場景，有效提升廣告推薦精準度，提升用戶體驗和推薦效果。未來騰訊“混元”AI大模型研發團隊也將持續加強對模型的性能優化及迭代，使其發揮更大的學術價值和社會價值。

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

嘉嘉

編輯

發私信

當月熱門文章