視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

本文作者：岑峰

2024-06-24 18:56

導語：CVPR 不再只是一個純粹的學術會議，也是產業發展的嗅覺源。

2024 年美國時間 6 月 17 日至 21 日，IEEE 國際計算機視覺與模式識別會議（CVPR）在美國西雅圖召開。

如大家預料，視覺 Foundation Model 成為今年 CVPR 除自動駕駛、3D 視覺等傳統研究課題以外的核心會議主題。

此外，由于會議召開前后，國內快手「可靈」開放圖生視頻功能火爆出圈、Runway 時隔一年推出新模型 Gen-3 Alpha，文生視頻也成為 CVPR 2024 的一大熱詞。

今年， CVPR 的兩篇最佳論文都頒給了 AIGC。從論文接收數量的角度看，圖像和視頻合成與生成（Image and video synthesis and generation）以329 篇論文成功占據榜首。而文生視頻也屬于視覺 Foundation Model 的研究討論范疇。

事實上，Foundation Model 在人工智能領域的最早出圈就是在計算機視覺領域。

2021 年 8 月，斯坦福大學百位學者聯名發表 Foundation Model 綜述，作者隊列里就有多位計算機視覺領域的翹楚，如李飛飛、Percy Liang 等。但OpenAI 憑借一己之力，在自然語言處理領域的 Foundation Model 上率先彎道超車，通過堆參數量與拼算力，將語言大模型做到極致，語言基座模型的風頭也在 2023 年一度蓋過了視覺基座模型。

然而，由于 Sora 與可靈等工作的炫麗效果，CV 領域內關于視覺「Foundation Model」的話題又重回牌桌。

在 CVPR 2024 的大會現場，AI 科技評論走訪了多位從事過視覺基座模型的研究者，試圖求解在現階段領域內的專家人士如何看待「Foundation Model」。

我們發現：

1.視覺 Foundation Model 的研究思路也借鑒 OpenAI 的路線，將下一步重要突破放在如預測下一個 visual token、擴大算力規模等思路上；

2.不止一位研究者認為，無論是語言還是視覺，Foundation Model 的概念崛起后，AI 已經從一個開放的研究問題變成了一條實實在在的「工業生產線」，研究員的目標只有兩個——「搞數據」與「搞算力」；

3.「多模態」成為視覺基礎模型研究的一門顯學，但視覺與語言兩派的合作通道仍未有效建立。

除了 Foundation Model，我們也訪談了自動駕駛、3D 視覺領域的相關人士。我們也發現，諸如 CVPR 等從論文接收截止到會議召開時間長度跨越半年的學術會議，或許已不再適用于跟蹤如今變化萬象、日新月異的研究成果。

當 AI 研究中工業界與產業界的隔閡越來越小、融合越來越多時，哪怕是一個傳統的學術會議也要有跟上時代潮流的意識。

「Foundation Model」的瓶頸與突破

事實上，基于 Transformer 開發通用的視覺基礎模型并不是 2023 年 ChatGPT 火起來后才有的研究思路。

國外從微軟 Swin Tranformer 到谷歌 ViT，再到國內上海人工智能實驗室的「書生」（Intern）系列，都很早開始了通用視覺智能的探索。只不過與 BERT 被 GPT-3 碾壓的命運一樣，它們都被后來出現的 Sora 光芒掩蓋；同時，由于 Sora 的技術路徑獨辟蹊徑，也開始學習 Sora、借鑒 Sora。

在今年的 CVPR 上，上海人工智能實驗室的通用視覺團隊（OpenGVLab）展示了他們最新的視覺多模態基礎模型研究成果 InternVL-1.5。該工作憑借強大的視覺編碼器 InternViT-6B、高動態分辨率，以及高質量雙語數據集，在業內廣受追捧。CMU、面壁智能等國內外的多個開源對比數據也表示，InternVL 的效果名列前茅：

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

上海人工智能實驗室OpenGVLab「書生」多模態大模型團隊認為，視覺基礎模型區別于以往工作的一個直接體現是多模態對話系統的構建。

InternVL-26B 的研究始于 2023 年 3 月。此前，視覺基礎模型的相關研究代表工作是 OpenAI 在 2021 年發表的CLIP?！窩LIP 作為古早的視覺基礎模型，通過與 BERT 對齊，使 ViT 獲得一定程度的語言表征對齊能力，但參數量只有 300 M 左右，規模太小，且對齊的對象不是 LLM。（多模態對話系統的構造）必須使用更多訓練數據才能進行表征對齊。」

這啟發了上海 AI Lab 團隊開始研究 InternVL。他們的目標是在保持基礎模型強大性和多功能性的前提下，將其作為對話系統的 backbone，既支持圖像檢測、分割，也能夠像 CLIP 支持多模態任務，例如圖文檢索。最開始是研究了一個 6+7 的 13B 模型（即 InternVL-Chat-V1.2），但由于在對話系統的實際應用中表現一般，又投入大量精力優化對話功能，又得出了一個 26B 模型，即風靡一時的 InternVL-Chat-V1.5。

從 InternVL-1.5 技術報告得知，視覺基礎模型研究的三個關鍵點是：

一，視覺模型必須接駁能力與之相媲美的語言模型。比如，他們一開始的 7B 語言模型無法充分發揮 6B 視覺模型的優勢，但在他們將語言模型的規模擴大到 20B 后，問題得到了大幅改善。InternVL-Chat-V1.5 采用的是書生·浦語的 20B 模型，使模型具備了強大的中文識別能力；二是要適配高分辨率；三是要采用高質量數據集。

在今年的 CVPR 上，GPT-4o 團隊作者首次公開分享了背后的技術路線：GPT-4o 的文字轉圖像采用了 DALL·E 路線，文字轉文字是 GPT，文字轉語音是 TTS。InternVL 研究員評價，GPT-4o 注重不同模型間的跨模態轉化，但 InternVL 的路線是專注于同一個模型上不同模態的輸入與文本理解的輸出。OpenAI 路線并不是所有視覺Foundation Model 研究的權威路線。

目前領域內有一種聲音認為，視覺基礎模型應具備更強的離散化特性，即各個模態（包括視覺、語音和3D輸入）都轉換為離散表示、而非高維向量，并將其存儲在同一框架下，解耦對外感知側模型和 LLM 大腦模型，如此一來，多模態更加統一，訓練更加獨立，不用再關注視覺模型是否傳梯度。

對此，研究員認為，「這是對原生多模態支持的一種嘗試，便于進行端到端的訓練和跨模態能力的支持。離散壓縮可能會損失一些細微但關鍵的信息，此技術路線還有很多關鍵問題有待探索?！?/p>

針對視覺基礎模型的瓶頸與突破方向，思謀科技研究員、香港中文大學 DV Lab 實驗室成員張岳晨也提出了相似的看法。

他認為，目前視覺基礎模型的難點主要在于大規模高質量數據如何收集和助力大規模的訓練。不僅如此，視覺基礎模型如何跳出模型輸出語言的限制，支持原生多模態（如GPT-4o）也是接下來值得思考與研究的問題。

據雷峰網了解，目前 DV Lab 自研的視覺基座 Mini-Gemini 在開源社區引起了廣泛的關注和反響，一度保持 SOTA 的位置，獲得了 3k+ 的 stars。在今年的 CVPR 上，賈佳亞 DV Lab 團隊的 LISA 模型、Video-P2P 等工作也獲得了高度評價。

而南洋理工大學副教授張含望則認為，在視覺基礎模型的研究中，大家經常忽視“理解任務”和“生成”任務本質是互斥的問題：前者是要讓大模型丟掉視覺信息，而后者是讓大模型盡可能保留視覺信息。然而，在語言大模型當中，這種互斥現象確從來沒存在過。

張教授認為，癥結就在于目前visual token 只是簡單地把視覺信號“分塊”，這種塊狀的空間序列和語言的“遞歸結構”是有本質區別?！溉绻话褕D片或是視頻變成遞歸序列 token 的話，是無法接入大語言模型的，而大語言模型是一個很重要的推理機器。但目前這一塊，從行業來看，還沒有特別好的研究成果出現，未來值得加大投入研究力度。」

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊圖注：「理解」與「生成」的區別，來自南洋理工大學張含望教授的分享

此外，不止一位研究者認為，無論是語言還是視覺，Foundation Model 的概念崛起后，AI 已經從一個開放的研究問題變成了一條實實在在的「工業生產線」，研究員的目標只有兩個——「搞數據」與「搞算力」。

接近 OpenAI 的知情人士也稱，一開始沖著OpenAI 的 AGI 光環加入的頂級高校博士畢業生在加入研究后，也發生自己在實際研究中也更多扮演著螺絲釘般的角色，比如花大量的時間處理數據。一句逐漸在 OpenAI 內部成為經典的 Slogan 是：

There is no magic。

自動駕駛、端側 AI

自動駕駛在今年的 CVPR 上占據了非常重要的位置，將語言大模型落地到自動駕駛是特色。

其中，核心就在于如何把大模型放到自動駕駛的場景中，因為駕駛需要理解環境、預測下一個時刻該如何前行，遇到邊緣場景(corner case）的時候能否確保安全性等，這些都是自動駕駛領域接下來要重點研究的方向。

今年自動駕駛的一個探索趨勢就是，大語言模型為自動駕駛端到端技術的算法和infra提供了新的思路和解決方案。以仿真平臺為例，之前的仿真平臺，多半是以計算機圖形學的能力去做固定引擎，從而生成仿真平臺，今年就有多家公司通過生成式AI的方式去做仿真平臺。

CVPR 2024 自動駕駛國際挑戰賽是業界和學界都關注的重要賽事。該比賽由上海人工智能實驗室聯合清華大學、圖賓根大學、美團等國內外高校和科技企業共同舉辦，圍繞當前自動駕駛領域的前沿技術、實踐落地場景難題等共設置了 7 大賽道，吸引了全球近 500 支隊伍參賽。

挑戰賽要求參賽者開發一個端到端的 AV 模型，使用 nuPlan 數據集進行訓練，根據傳感器數據生成行駛軌跡。據 AI 科技評論了解，端到端自動駕駛是今年 7 大賽道中競爭最為激烈的賽道之一，冠軍來自于英偉達聯合復旦大學的自動駕駛算法參賽團隊，亞軍則是來自中國的零一汽車自動駕駛研發團隊。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

英偉達的研究人員告訴雷峰網(公眾號：雷峰網)，L2++ 級別的端到端自動駕駛，其能力主要體現于兩大板塊，分別是 Planning 和 Percetion。

在自動駕駛領域中非常重要的多模態數據集 nuScenes，其中有 93% 的數據只是包含直行在內的簡單駕駛場景，天然無法實現工業界產品級別的自動駕駛。這些場景多為自動跟車、自動泊車，以及靜態環境信息，如交通標志、道路標示線、交通燈位置等。

Perception 是自動駕駛系統中的感知部分，負責通過各種傳感器來感知周圍環境的能力。它相當于自動駕駛車輛的“眼睛”，為系統提供關于道路、車輛、行人、障礙物等元素的信息。而 Planning 模塊相當于自動駕駛系統中的“大腦”，負責決策和規劃車輛的行駛路徑。它接收來自上游模塊（如地圖、導航、感知、預測）的信息，并在當前周期內進行思考并做出判斷。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

英偉達團隊告訴雷峰網，他們所作出的創新在于，在邊緣場景的數據量不足夠的情況下，使用基于規則的專家（rule-based expert）作為教師，將規則知識蒸餾給神經網絡規劃器。“我們認為，即便在數據量足夠多的情況下，這一方法也將使得神經網絡規劃器變得更具有解釋性?！?/p>

除了這些熱門話題，在 CVPR 現場，還有很多廠商帶來了亮眼的技術與產品，蘋果就是其中一家。

從去年開始，蘋果對大模型的投入力度肉眼可見地加大，尤其是生成式人工智能（GenAI）。雖然本身并不是一家 AI 能力特別強大的公司，但不懈的努力追趕后，蘋果已然成功從一個三流水平的 AI 玩家擠進了二流水平戰隊。

今年 3 月，蘋果正式發布多模態 LLM 系列模型，并在論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，通過構建大模型 MM1，闡述了多模態大模型預訓練的方法、分析和見解，引起大眾圍觀。

此次在 CVPR 大會上，論文的作者之一 Zhe Gan 現身大會論壇，系統介紹了蘋果在更好地進行多模態大模型預訓練所做的最新研究進展。他表示，大規模且與任務相關的數據對于訓練高性能模型非常重要，因此，著重分析了如何通過基于模型的過濾和更多樣化的數據源，來獲得高質量的預訓練數據。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

據 Zhe Gan 介紹，在實驗中，他們使用 45% 有字幕描述圖像、45% 交錯圖像文本和 10% 的純文本數據混合，作為預訓練的數據混合，并為了評估，在各種字幕和 VQA 數據集使用 zero-shot （0-shot）和 few-shot (4-shot 和 8-shot)。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

實驗結果表明，交錯數據對于 few-shot 和純文本性能至關重要，而字幕數據提高了 zero-shot 性能；純文本數據有助于提高 few-shot 和純文本性能；精心混合圖像和文本數據可以實現最佳多模態性能，同時保持強大的文本理解能力；合成數據有助于 few-shot 學習。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

另外，Zhe Gan 表示，對于當前熱門的 MoE 架構來說，可以在保持激活參數不變的情況下擴大模型總參數量，他們正在研究如何為多模態大模型設計更好的 MoE 架構。

視覺 AI 的「Foundation Model」，已經發展到哪一步？丨CVPR 2024 現場直擊

寫在最后

今年的 CVPR 是一場別開生面的盛會。

很多參會人員都向雷峰網表示，相較于往年，今年 CVPR 的 AIGC 元素異常濃厚，新技術、新產品接連涌現，讓人印象深刻。但也有一些學者認為，還應該有更多更新的技術出現。

香港中文大學深圳（CUHKSZ）助理教授韓曉光參加完此次 CVPR 之后，認為 CVPR 的論文投稿時可以考慮設置兩條軌道，一個是工程軌道，以效果作為動機驅動點，一個是研究軌道，專門以好奇心為驅動。兩條軌道都應該需要有最佳論文獎項，Sora 是他心里工程軌道的最佳研究，而今年的「Generative Image Dynamics」則滿足了他對最佳研究論文的想象。

「一直思考 CV 的未來是什么景象，斗膽預測（或者是一種希望）未來將 from ‘virtual’ to ‘physical’，可能以各種不同的形式?！鬼n曉光說道。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

岑峰

編輯

發私信

當月熱門文章