成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給徐咪
    發送

    0

    從“數據融合”邁向“原生架構”:商湯發布 NEO 架構,重新定義多模態模型效能邊界

    本文作者: 徐咪   2025-12-01 20:04
    導語:商湯科技正式發布并開源了與南洋理工大學 S-Lab合作研發的全新多模態模型架構 —— NEO,為日日新 SenseNova 多模態

    商湯科技正式發布并開源了與南洋理工大學 S-Lab合作研發的全新多模態模型架構 —— NEO,為日日新 SenseNova 多模態模型奠定了新一代架構的基石。

    作為行業首個可用的、實現深層次融合的原生多模態架構(Native VLM),NEO 從底層原理出發,打破了傳統“模塊化”范式的桎梏,以“專為多模態而生”的創新設計,通過核心架構層面的多模態深層融合,實現了性能、效率和通用性的整體突破,重新定義了多模態模型的效能邊界,標志著人工智能多模態技術正式邁入“原生架構”的新時代。

    從“數據融合”邁向“原生架構”:商湯發布 NEO 架構,重新定義多模態模型效能邊界

    論文網址:https://arxiv.org/abs/2510.14979

    打破瓶頸:告別“拼湊”,擁抱“原生”

    從“數據融合”邁向“原生架構”:商湯發布 NEO 架構,重新定義多模態模型效能邊界

    當前,業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴展方式,雖然實現了圖像輸入的兼容,但本質上仍以語言為中心,圖像與語言的融合僅停留在數據層面。這種“拼湊”式的設計不僅學習效率低下,更限制了模型在復雜多模態場景下(比如涉及圖像細節捕捉或復雜空間結構理解)的處理能力。

    商湯 NEO 架構正是為了解決這一痛點而生。早在2024 年下半年,商湯便在國內率先突破多模態原生融合訓練技術,以單一模型在 SuperCLUE 語言評測 和 OpenCompass 多模態評測中奪冠,并基于這一核心技術打造了日日新 SenseNova 6.0,實現多模態推理能力領先。之后,在2025 年 7 月發布日日新 SenseNova 6.5 通過實現編碼器層面的早期融合,把多模態模型性價比提升 3 倍,并在國內率先推出商用級別的圖文交錯推理。商湯此次更進一步,徹底摒棄了傳統的模塊化結構,從底層原理出發,推出了從零設計的 NEO 原生架構。

    三大內核創新:實現視覺和語言的深層統一

    從“數據融合”邁向“原生架構”:商湯發布 NEO 架構,重新定義多模態模型效能邊界

    NEO 架構以極致效率和深度融合為核心理念,通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備了統一處理視覺與語言的能力:

    ● 原生圖塊嵌入 (Native Patch Embedding): 摒棄了離散的圖像 tokenizer,通過獨創的Patch Embedding Layer (PEL) 自底向上構建從像素到詞元的連續映射。這種設計能更精細地捕捉圖像細節,從根本上突破了主流模型的圖像建模瓶頸。

    ● 原生三維旋轉位置編碼 (Native-RoPE): 創新性地解耦了三維時空頻率分配,視覺維度采用高頻、文本維度采用低頻,完美適配兩種模態的自然結構。這使得 NEO 不僅能精準捕獲圖像的空間結構,更具備向視頻處理、跨幀建模等復雜場景無縫擴展的潛力。

    ● 原生多頭注意力 (Native Multi-Head Attention): 針對不同模態特點,NEO 在統一框架下實現了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設計極大地提升了模型對空間結構關聯的利用率,從而更好地支撐復雜的圖文混合理解與推理。

    此外,配合創新的 Pre-Buffer & Post-LLM 雙階段融合訓練策略,NEO 能夠在吸收原始 LLM 完整語言推理能力的同時,從零構建強大的視覺感知能力,徹底解決了傳統跨模態訓練中語言能力受損的難題。

    實測表現:十分之一的數據,追平旗艦級性能

    從“數據融合”邁向“原生架構”:商湯發布 NEO 架構,重新定義多模態模型效能邊界

    在架構創新的驅動下,NEO 展現出了驚人的數據效率與性能優勢:

    極高數據效率: 僅需業界同等性能模型 1/10 的數據量(3.9億圖像文本示例),NEO 便能開發出頂尖的視覺感知能力。無需依賴海量數據及額外視覺編碼器,其簡潔的架構便能在多項視覺理解任務中追平 Qwen2-VL、InternVL3 等頂級模塊化旗艦模型。

    性能卓越且均衡: 在 MMMU、MMB、MMStar、SEED-I、POPE 等多項公開權威評測中,NEO 架構均斬獲高分,展現出優于其他原生 VLM 的綜合性能,真正實現了原生架構的“精度無損”。

    極致推理性價比: 特別是在 0.6B-8B 的參數區間內,NEO 在邊緣部署方面優勢顯著。它不僅實現了精度與效率的雙重躍遷,更大幅降低了推理成本,將多模態視覺感知的“性價比”推向了極致。

    開源共建:構建下一代 AI 基礎設施

    架構是模型的“骨架”,只有骨架扎實,才能支撐起多模態技術的未來。NEO 架構的早期融合設計支持任意分辨率與長圖像輸入,能夠無縫擴展至視頻、具身智能等前沿領域,實現了從底層到頂層、端到端的真正融合。從應用角度,端到端的“原生一體化”設計,為機器人具身交互、智能終端多模態響應、視頻理解、3D交互及具身智能等多元化場景的應用,提供了堅實的技術支撐。

    目前,商湯已正式開源基于 NEO 架構的 2B 與 9B 兩種規格模型,以推動開源社區在原生多模態架構上的創新與應用。商湯科技表示,致力于通過開源協作與場景落地雙輪驅動,將 NEO 打造為可擴展、可復用的下一代 AI 基礎設施,推動原生多模態技術從實驗室走向廣泛的產業化應用,加速構建下一代產業級原生多模態技術標準。

    Github 開源網址:https://github.com/EvolvingLMMs-Lab/NEO

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說