讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

本文作者：朱可軒

2024-08-07 09:42

導語：對標 GPT-4V，面壁讓實時視頻理解成功“跑”在端側(cè)。

真實世界的視覺信息是流動的，而在處理流動性的視覺信息上，端側(cè)視頻理解具有天然優(yōu)勢，手機、PC、AR、機器人、智能座駕等端側(cè)設備自帶的攝像頭，具有天然的多模態(tài)輸入能力。

與云端相比，端側(cè)離用戶更近，鏈路更短，效率更高，同時具有更強的信息安全優(yōu)勢。

今日，面壁正式發(fā)布了 MiniCPM-V 2.6，在端側(cè)性能實現(xiàn)全面對標 GPT-4V——

據(jù)介紹，MiniCPM-V 2.6 首次在端側(cè)實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V，三項能力均取得 20B 以下 SOTA 成績，單圖理解越級比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而類比知識密度來看，得益于視覺 token 相比上一代下降 30% ，比同類模型低 75%，MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度（token density）。

值得一提的是，面壁還將“實時”視頻理解、多圖聯(lián)合理解、多圖 ICL等能力首次搬上了端側(cè)。

量化后端側(cè)內(nèi)存僅占 6 GB，端側(cè)推理速度達 18 tokens/s，相比上代模型快 33%。并且發(fā)布即支持 llama.cpp、ollama、vllm 推理，且支持多種語言。

實時視頻、多圖聯(lián)合理解，首次上端

有了實時視頻理解功能，大模型猶如擁有一雙“眼睛”，能夠?qū)崟r看到真實世界，這是多模態(tài)大模型走向具身智能等更多實際領域，實現(xiàn) AGI 的必要條件之一，此外實時視頻理解功能提升人機交互的自然度。

此次，面壁新發(fā)布的 MiniCPM-V 2.6 讓實時視頻理解功能首次運行在了端側(cè)。

此外，對于「太長不看」的視頻，現(xiàn)在可以直接把文件拖進來，讓模型為你總結(jié)重點信息，不用看完、不用倍速、也不用快進。

這段 1 分鐘左右的天氣預報視頻，MiniCPM-V 2.6 能在沒有聽到任何語音的情況下，發(fā)揮強大的視頻OCR功能，識別出視頻畫面里密集的文字，給出不同視頻段落中不同城市的詳細天氣描述：

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

MiniCPM-V 2.6 的回答（注：該結(jié)果為代碼環(huán)境中復現(xiàn)）

除視頻多模態(tài)外，在多圖理解方面，最新發(fā)布的 MiniCPM-V 2.6 還首次將多圖聯(lián)合理解、多圖ICL（上下文少樣本學習）功能集成在端側(cè)模型，這也是此前 GPT-4V 引以為傲的能力。

在多圖聯(lián)合理解方面，面壁例舉了如下場景——記賬或報銷難題令人頭疼，小票上密密麻麻的數(shù)字難以辨別，更別提進行繁瑣的總賬計算。

此時，可以拍照全部甩給 MiniCPM-V 2.6，在 OCR 能力+CoT （思維鏈）能力的加持下，MiniCPM-V 2.6 可以找出每張小票的金額，并計算總賬。

不僅如此，在端側(cè)多模態(tài)推理能力方面，MiniCPM-V 2.6 也順利追趕 GPT-4V。

比如這道 GPT-4V 官方演示經(jīng)典命題：調(diào)整自行車車座。這個對人很簡單的問題對模型卻非常困難，它非常考驗多模態(tài)模型的復雜推理能力和對物理常識的掌握能力。

僅 8B 的 MiniCPM-V 2.6 展現(xiàn)出順利完成這項挑戰(zhàn)的潛力，通過和模型進行多圖多輪對話，它清晰地告知完成調(diào)低自行車車座的每一個詳細步驟，還能根據(jù)說明書和工具箱幫你找到合適的工具。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

MiniCPM-V 2.6 的“調(diào)整自行車車座”測試

值得一提的是，MiniCPM-V 2.6 的理解能力還不止步于表面，對于梗圖背后的槽點也能展開理解。

比如，讓 MiniCPM-V 2.6 解釋下面兩張圖背后的故事：

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

MiniCPM-V 2.6 能夠通過OCR識別到兩張圖片上的文字：“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”，并進一步推理出“WFH”居家辦公狀態(tài)。

隨后，結(jié)合兩張圖片的視覺信息聯(lián)合推理出“工作在家時，8:59還在床上睡覺，9點立馬出現(xiàn)在視頻會議上”的居家辦公的“抓狂”狀態(tài)。

當然，MiniCPM-V 2.6 的單圖理解能力也較為理想，其也能揣測出梗圖中很多未明顯露出的潛臺詞。

而就多圖 ICL 理解而言，上下文少樣本學習能讓模型無需 fine-tune，即可快速適配到特定領域和任務，提高模型的輸出穩(wěn)定性。對此，MiniCPM-V 2.6 也交出“答卷”：

提供給 MiniCPM-V 2.6 兩組神轉(zhuǎn)折畫面，以及對畫面中的“?！苯o出示意文字描述，例如一個戴著手套、重視衛(wèi)生的廚師，下一秒?yún)s用戴手套的手直接去拿實際有些骯臟的紙幣；一個看似熱衷環(huán)保的人，卻把塑料瓶裝水打開裝進環(huán)保水壺……

MiniCPM-V 2.6 能夠自動從前面兩組圖文關系，揣摩出題人的意圖，并自動學會“答題模版”，給出神轉(zhuǎn)折答案—— 一個人手握大量加密數(shù)字貨幣，可你猜怎么著，他出門購物，可是商店卻竟然只收現(xiàn)金！

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

性能全面對標 GPT-4V

以小博大，是端側(cè)模型的核心競爭力。

而面壁 MiniCPM-V 2.6 以 8B 參數(shù)，在綜合性能上追趕上 GPT-4V 的同時，首次作為端側(cè)模型，掀開單圖、多圖、視頻理解三項多模態(tài)核心能力全面趕超 GPT-4V 的新格局，且均實現(xiàn) 20B 參數(shù)以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知識壓縮率方面，我們發(fā)現(xiàn)，MiniCPM-V 2.6 體現(xiàn)出極致的高效，取得了兩倍于 GPT-4o 的最高多模態(tài)大模型像素密度（Token Density）。

Token Density = 編碼像素數(shù)量 / 視覺 token 數(shù)量，是指單個 token 承載的像素密度即圖像信息密度，直接決定了多模態(tài)模型實際的運行效率，數(shù)值越大，模型運行效率越高。

在面壁的測試中，閉源模型的 Token Density 由 API 收費方式估算得到。結(jié)果表明，MiniCPM-V 2.6 是所有多模態(tài)模型中 Token Density 最高的。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

Token Density 比較結(jié)果

單圖方面，在綜合評測權(quán)威平臺 OpenCompass 上，MiniCPM-V 2.6 的單圖理解能力越級超越 Gemini 1.5 Pro 和 GPT-4o mini ；多圖方面，在多圖評測權(quán)威平臺 Mantis-Eval 榜單上，MiniCPM-V 2.6 多圖聯(lián)合理解能力實現(xiàn)開源模型 SOTA ，且超越 GPT-4V；而在視頻方面，在視頻評測權(quán)威平臺 Video-MME 榜單上，MiniCPM-V 2.6 的視頻理解能力達到端側(cè) SOTA，超越GPT-4V。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

從左往右依次為 OpenCompass | Mantis-Eval | Video-MME

此外，在 OCRBench上，MiniCPM-V 2.6 OCR 性能實現(xiàn)開源+閉源模型 SOTA，而在幻覺評測榜單 Object HalBench 上，MiniCPM-V 2.6 的幻覺水平（幻覺率越低越好）也優(yōu)于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等眾多商用模型。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

Obiect HalBench（左） OCRBench（右）

面壁認為，MiniCPM-V 2.6 之所以能實現(xiàn)從單一到全面的優(yōu)勢躍進，除了 Qwen2-7B 基座模型的性能加持之外，也歸功于采用了統(tǒng)一高清視覺架構(gòu)，讓傳統(tǒng)單圖的多模態(tài)優(yōu)勢功能得以繼承，并實現(xiàn)了一通百通。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

統(tǒng)一高清視覺架構(gòu)

以 OCR SOTA 能力為例，它能夠?qū)?MiniCPM-V 單圖場景的“180萬高清圖像解析”進行能力遷移和知識共享，無縫拓展至多圖場景和視頻場景，并將這三種視覺理解場景統(tǒng)一形式化為圖文交替的語義建模問題，共享底層視覺表示機制，實現(xiàn)相比同類型模型，視覺 token 數(shù)量節(jié)省超過 75% 。

而在 OCR 信息提取的基礎上，MiniCPM-V 2.6 還能進一步對表格信息進行類似 CoT（思維鏈）的復雜推理。比如讓模型計算 2008 年奧運會獲得金牌數(shù)最多的 3 個國家一共獲得了多少枚金牌，CoT 的過程為，首先利用 OCR 能力識別并提取出獎牌榜中金牌數(shù)量的前三名國家；再將前三名國家的金牌總數(shù)相加。

讓「GPT-4V」跑在手機上，這家中國大模型公司做到了

8.2%的超低幻覺率，亦是發(fā)揮了小鋼炮系列AI可信方面的傳統(tǒng)優(yōu)勢。

此外，面壁還通過 Ultra 系列對齊技術，增強了MiniCPM-V 2.6 的復雜推理能力和通用域多圖聯(lián)合理解能力：

在多模態(tài)復雜推理能力對齊方面，MiniCPM-V 2.6 通過復雜題目的 CoT 解答數(shù)據(jù)，構(gòu)造高效對齊種子數(shù)據(jù)，并通過模型自迭代完成數(shù)據(jù)凈化和知識學習。

在多圖聯(lián)合理解方面，MiniCPM-V 2.6 從通用域自然網(wǎng)頁中結(jié)合文本線索挖掘多圖關聯(lián)語義，實現(xiàn)多圖聯(lián)合理解數(shù)據(jù)的高效構(gòu)造。

除面壁外，近來，國內(nèi)其他大模型團隊也都在多模態(tài)方面卯足全力。

7月，上海人工智能實驗室發(fā)布書生·浦語靈筆（InternLM-XComposer）多模態(tài)大模型的 2.5 版本，規(guī)模為7B。

官方介紹稱，IXC-2.5 可以支持 24K 多模態(tài)圖文上下文，超過 20 輪圖文交互，具備圖像視頻理解、網(wǎng)頁創(chuàng)作、圖文寫作等多項功能。

與前一版相比，IXC-2.5 在視覺語言理解方面主要進行了包括超過 4K 分辨率的圖像理解、多輪多圖超長對話、精細視頻內(nèi)容分析在內(nèi)的三項升級。

剛剛過去的世界人工智能大會（WAIC）期間，聯(lián)匯科技也帶來了第二代多模態(tài)智能體 OmAgent，相較于去年發(fā)布的第一代，OmChat V2 在感知模塊、思考決策能力等方面進行了提升，可以看準時序關系、多圖關系。

同樣在 WAIC 期間帶來多模態(tài)大模型最新升級產(chǎn)品的還有商湯科技，商湯將流式交互融入大模型，發(fā)布了國內(nèi)首個具備流式原生多模態(tài)交互能力大模型“日日新SenseNova 5.5”，綜合性能較 5.0 版本提升了 30%，交互效果和多項核心指標實現(xiàn)對標 GPT-4o。

此外，商湯升級版的端側(cè)模型“日日新 5.5 Lite”，相比 4 月的 5.0 版模型精度提升10%，推理效率提升15%，首包延遲降低40%。雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

朱可軒

編輯

發(fā)私信

當月熱門文章