成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給朱可軒
    發(fā)送

    0

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    本文作者: 朱可軒 2024-08-07 09:42
    導語:對標 GPT-4V,面壁讓實時視頻理解成功“跑”在端側(cè)。

    真實世界的視覺信息是流動的,而在處理流動性的視覺信息上,端側(cè)視頻理解具有天然優(yōu)勢,手機、PC、AR、機器人、智能座駕等端側(cè)設備自帶的攝像頭,具有天然的多模態(tài)輸入能力。

    與云端相比,端側(cè)離用戶更近,鏈路更短,效率更高,同時具有更強的信息安全優(yōu)勢。

    今日,面壁正式發(fā)布了 MiniCPM-V 2.6,在端側(cè)性能實現(xiàn)全面對標 GPT-4V——

    據(jù)介紹,MiniCPM-V 2.6 首次在端側(cè)實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V,三項能力均取得 20B 以下 SOTA 成績,單圖理解越級比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

    而類比知識密度來看,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%,MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)。

    值得一提的是,面壁還將“實時”視頻理解、多圖聯(lián)合理解、多圖 ICL等能力首次搬上了端側(cè)。

    量化后端側(cè)內(nèi)存僅占 6 GB,端側(cè)推理速度達 18 tokens/s,相比上代模型快 33%。并且發(fā)布即支持 llama.cpp、ollama、vllm 推理,且支持多種語言。

    實時視頻、多圖聯(lián)合理解,首次上端

    有了實時視頻理解功能,大模型猶如擁有一雙“眼睛”,能夠?qū)崟r看到真實世界,這是多模態(tài)大模型走向具身智能等更多實際領域,實現(xiàn) AGI 的必要條件之一,此外實時視頻理解功能提升人機交互的自然度。

    此次,面壁新發(fā)布的 MiniCPM-V 2.6 讓實時視頻理解功能首次運行在了端側(cè)。

    此外,對于「太長不看」的視頻,現(xiàn)在可以直接把文件拖進來,讓模型為你總結(jié)重點信息,不用看完、不用倍速、也不用快進。

    這段 1 分鐘左右的天氣預報視頻,MiniCPM-V 2.6 能在沒有聽到任何語音的情況下,發(fā)揮強大的視頻OCR功能,識別出視頻畫面里密集的文字,給出不同視頻段落中不同城市的詳細天氣描述:

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    MiniCPM-V 2.6 的回答(注:該結(jié)果為代碼環(huán)境中復現(xiàn))

    除視頻多模態(tài)外,在多圖理解方面,最新發(fā)布的 MiniCPM-V 2.6 還首次將多圖聯(lián)合理解、多圖ICL(上下文少樣本學習 )功能集成在端側(cè)模型,這也是此前 GPT-4V 引以為傲的能力。

    在多圖聯(lián)合理解方面,面壁例舉了如下場景——記賬或報銷難題令人頭疼,小票上密密麻麻的數(shù)字難以辨別,更別提進行繁瑣的總賬計算。

    此時,可以拍照全部甩給 MiniCPM-V 2.6,在 OCR 能力+CoT (思維鏈)能力的加持下,MiniCPM-V 2.6 可以找出每張小票的金額,并計算總賬。

    不僅如此,在端側(cè)多模態(tài)推理能力方面,MiniCPM-V 2.6 也順利追趕 GPT-4V。

    比如這道 GPT-4V 官方演示經(jīng)典命題:調(diào)整自行車車座。這個對人很簡單的問題對模型卻非常困難,它非常考驗多模態(tài)模型的復雜推理能力和對物理常識的掌握能力。

    僅 8B 的 MiniCPM-V 2.6 展現(xiàn)出順利完成這項挑戰(zhàn)的潛力,通過和模型進行多圖多輪對話,它清晰地告知完成調(diào)低自行車車座的每一個詳細步驟,還能根據(jù)說明書和工具箱幫你找到合適的工具。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    MiniCPM-V 2.6 的“調(diào)整自行車車座”測試

    值得一提的是,MiniCPM-V 2.6 的理解能力還不止步于表面,對于梗圖背后的槽點也能展開理解。

    比如,讓 MiniCPM-V 2.6 解釋下面兩張圖背后的故事:

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    MiniCPM-V 2.6 能夠通過OCR識別到兩張圖片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,并進一步推理出“WFH”居家辦公狀態(tài)。

    隨后,結(jié)合兩張圖片的視覺信息聯(lián)合推理出“工作在家時,8:59還在床上睡覺,9點立馬出現(xiàn)在視頻會議上”的居家辦公的“抓狂”狀態(tài)。

    當然,MiniCPM-V 2.6 的單圖理解能力也較為理想,其也能揣測出梗圖中很多未明顯露出的潛臺詞。

    而就多圖 ICL 理解而言,上下文少樣本學習能讓模型無需 fine-tune,即可快速適配到特定領域和任務,提高模型的輸出穩(wěn)定性。對此,MiniCPM-V 2.6 也交出“答卷”:

    提供給 MiniCPM-V 2.6 兩組神轉(zhuǎn)折畫面,以及對畫面中的“?!苯o出示意文字描述,例如一個戴著手套、重視衛(wèi)生的廚師,下一秒?yún)s用戴手套的手直接去拿實際有些骯臟的紙幣;一個看似熱衷環(huán)保的人,卻把塑料瓶裝水打開裝進環(huán)保水壺……

    MiniCPM-V 2.6 能夠自動從前面兩組圖文關系,揣摩出題人的意圖,并自動學會“答題模版”,給出神轉(zhuǎn)折答案—— 一個人手握大量加密數(shù)字貨幣,可你猜怎么著,他出門購物,可是商店卻竟然只收現(xiàn)金!

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了讓「GPT-4V」跑在手機上,這家中國大模型公司做到了讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    性能全面對標 GPT-4V 

    以小博大,是端側(cè)模型的核心競爭力。

    而面壁 MiniCPM-V 2.6 以 8B 參數(shù),在綜合性能上追趕上 GPT-4V 的同時,首次作為端側(cè)模型,掀開單圖、多圖、視頻理解三項多模態(tài)核心能力全面趕超 GPT-4V 的新格局,且均實現(xiàn) 20B 參數(shù)以下模型性能 SOTA。

    在 MiniCPM-V 2.6 的知識壓縮率方面,我們發(fā)現(xiàn),MiniCPM-V 2.6 體現(xiàn)出極致的高效,取得了兩倍于 GPT-4o 的最高多模態(tài)大模型像素密度(Token Density) 。

    Token Density = 編碼像素數(shù)量 / 視覺 token 數(shù)量,是指單個 token 承載的像素密度即圖像信息密度,直接決定了多模態(tài)模型實際的運行效率,數(shù)值越大,模型運行效率越高。

    在面壁的測試中,閉源模型的 Token Density 由 API 收費方式估算得到。結(jié)果表明,MiniCPM-V 2.6 是所有多模態(tài)模型中 Token Density 最高的。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    Token Density 比較結(jié)果

    單圖方面,在綜合評測權(quán)威平臺 OpenCompass 上,MiniCPM-V 2.6 的單圖理解能力越級超越 Gemini 1.5 Pro 和 GPT-4o mini ;多圖方面,在多圖評測權(quán)威平臺 Mantis-Eval 榜單上,MiniCPM-V 2.6 多圖聯(lián)合理解能力實現(xiàn)開源模型 SOTA ,且超越 GPT-4V;而在視頻方面,在視頻評測權(quán)威平臺 Video-MME 榜單上,MiniCPM-V 2.6 的視頻理解能力達到端側(cè) SOTA,超越GPT-4V。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    從左往右依次為 OpenCompass | Mantis-Eval | Video-MME 

    此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能實現(xiàn)開源+閉源模型 SOTA,而在幻覺評測榜單 Object HalBench 上,MiniCPM-V 2.6 的幻覺水平(幻覺率越低越好)也優(yōu)于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等眾多商用模型。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    Obiect HalBench(左) OCRBench(右)

    面壁認為,MiniCPM-V 2.6 之所以能實現(xiàn)從單一到全面的優(yōu)勢躍進,除了 Qwen2-7B 基座模型的性能加持之外,也歸功于采用了統(tǒng)一高清視覺架構(gòu),讓傳統(tǒng)單圖的多模態(tài)優(yōu)勢功能得以繼承,并實現(xiàn)了一通百通。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    統(tǒng)一高清視覺架構(gòu)

    以 OCR SOTA 能力為例,它能夠?qū)?MiniCPM-V 單圖場景的“180萬高清圖像解析”進行能力遷移和知識共享,無縫拓展至多圖場景和視頻場景,并將這三種視覺理解場景統(tǒng)一形式化為圖文交替的語義建模問題,共享底層視覺表示機制,實現(xiàn)相比同類型模型,視覺 token 數(shù)量節(jié)省超過 75% 。

    而在 OCR 信息提取的基礎上,MiniCPM-V 2.6 還能進一步對表格信息進行類似 CoT(思維鏈)的復雜推理。比如讓模型計算 2008 年奧運會獲得金牌數(shù)最多的 3 個國家一共獲得了多少枚金牌,CoT 的過程為,首先利用 OCR 能力識別并提取出獎牌榜中金牌數(shù)量的前三名國家;再將前三名國家的金牌總數(shù)相加。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    8.2%的超低幻覺率,亦是發(fā)揮了小鋼炮系列AI可信方面的傳統(tǒng)優(yōu)勢。

    此外,面壁還通過 Ultra 系列對齊技術,增強了MiniCPM-V 2.6 的復雜推理能力和通用域多圖聯(lián)合理解能力:

    在多模態(tài)復雜推理能力對齊方面,MiniCPM-V 2.6 通過復雜題目的 CoT 解答數(shù)據(jù),構(gòu)造高效對齊種子數(shù)據(jù),并通過模型自迭代完成數(shù)據(jù)凈化和知識學習。

    在多圖聯(lián)合理解方面,MiniCPM-V 2.6 從通用域自然網(wǎng)頁中結(jié)合文本線索挖掘多圖關聯(lián)語義,實現(xiàn)多圖聯(lián)合理解數(shù)據(jù)的高效構(gòu)造。

    除面壁外,近來,國內(nèi)其他大模型團隊也都在多模態(tài)方面卯足全力。

    7月,上海人工智能實驗室發(fā)布書生·浦語靈筆(InternLM-XComposer)多模態(tài)大模型的 2.5 版本,規(guī)模為7B。

    官方介紹稱,IXC-2.5 可以支持 24K 多模態(tài)圖文上下文,超過 20 輪圖文交互,具備圖像視頻理解、網(wǎng)頁創(chuàng)作、圖文寫作等多項功能。

    與前一版相比,IXC-2.5 在視覺語言理解方面主要進行了包括超過 4K 分辨率的圖像理解、多輪多圖超長對話、精細視頻內(nèi)容分析在內(nèi)的三項升級。

    剛剛過去的世界人工智能大會(WAIC)期間,聯(lián)匯科技也帶來了第二代多模態(tài)智能體 OmAgent,相較于去年發(fā)布的第一代,OmChat V2 在感知模塊、思考決策能力等方面進行了提升,可以看準時序關系、多圖關系。

    同樣在 WAIC 期間帶來多模態(tài)大模型最新升級產(chǎn)品的還有商湯科技,商湯將流式交互融入大模型,發(fā)布了國內(nèi)首個具備流式原生多模態(tài)交互能力大模型“日日新SenseNova 5.5”,綜合性能較 5.0 版本提升了 30%,交互效果和多項核心指標實現(xiàn)對標 GPT-4o。

    此外,商湯升級版的端側(cè)模型“日日新 5.5 Lite”,相比 4 月的 5.0 版模型精度提升10%,推理效率提升15%,首包延遲降低40%。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

    讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

    分享:
    相關文章
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說