開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放

本文作者：鄭佳美

2026-01-30 11:18

導語：SenseNova-MARS 雙版本開源，多模態(tài)搜索推理雙冠，開發(fā)者直接上手

今日，商湯正式開源多模態(tài)自主推理模型 SenseNova-MARS（8B/32B 雙版本），其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-3-Pro（69.06 分）、GPT-5.2（67.64 分）。

SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的 Agentic VLM 模型，它能自己規(guī)劃步驟、調(diào)用工具，輕松搞定各種復雜任務，讓AI真正具備“執(zhí)行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中，SenseNova-MARS取得開源模型中的 SOTA 成績，還超越Gemini-3.0-Pro、GPT-5.2等頂級閉源模型，在搜索推理和視覺理解兩大核心領域全面領跑。更多細節(jié)請參見技術報告（https://arxiv.org/abs/2512.24330），歡迎開發(fā)者、各行業(yè)用戶測試與體驗。

全能冠軍，自主解決復雜問題

SenseNova-MARS在多項多模態(tài)搜索評測中展現(xiàn)出明顯的領先優(yōu)勢，平均得分達到 69.74 分，成功超過了 Gemini-3-Pro 的 69.06 分與 GPT-5.2 的 67.64 分。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放在 MMSearch 榜單（圖文搜索核心評測）中，模型以 74.27 分登頂，超GPT-5.2（66.08 分）；HR-MMSearch（高清細節(jié)搜索評測）中以54.43 分領先，顯著拉開與閉源模型的差距。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放 HR-MMSearch的測試題目堪稱“AI界的奧林匹克”：采用305張2025年最新的4K超高清圖片，確保AI無法依賴舊知識“作弊”；所有問題都針對圖片中占比不到5%的細節(jié)，比如小標志、小字、微小物體，必須用圖像裁剪工具才能看清；覆蓋體育、娛樂文化、科學技術、商業(yè)金融、游戲、學術研究、地理旅行等八大領域，60%的問題都需要至少使用三種工具才能解答。

簡單說，無論是需要“查遍全網(wǎng)”的知識密集型任務，還是需要“火眼金睛”的細粒度視覺分析，它都是當前的“全能冠軍”。

用組合拳，解決真實場景問題

SenseNova-MARS還能實實在在落地到我們生活和工作的場景，解決需要“多步驟推理+多工具協(xié)作”的問題。

普通AI的工具調(diào)用，要么只能搜文字，要么只能看圖片，遇到需要“先放大細節(jié)、再識別物體、最后查背景”的復雜任務就束手無策。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放

面對識別賽車服微小 Logo + 查詢公司成立年份 + 匹配車手出生年月 + 計算差值’的復雜任務，SenseNova-MARS 可自主調(diào)用圖像裁剪、文本 / 圖像搜索工具，無需人工干預完成閉環(huán)解答。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放 SenseNova-MARS能從產(chǎn)品和行業(yè)峰會的照片中，識別企業(yè)的標志，快速搜集產(chǎn)品、企業(yè)的信息，以及時間、數(shù)量、參數(shù)等細節(jié)要素，輔助分析行業(yè)情況和格局。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放

SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息，追溯比賽或人員背景信息，

幫助快速補充重要細節(jié)。

開源新標桿！商湯 SenseNova-MARS超 Gemini-3-Pro，模型代碼數(shù)據(jù)全開放 SenseNova-MARS甚至能夠輕松處理，這類超長步驟的多模態(tài)推理，和超過三種工具調(diào)用，自動裁剪分析細節(jié)、搜索相關研究數(shù)據(jù)，快速驗證假設，得出關鍵判斷。

擁有這種“自主思考+多工具協(xié)作”的能力，SenseNova-MARS能夠自動解決“細節(jié)識別 + 信息檢索 + 邏輯推理”復雜任務，幫助實現(xiàn)工作效率提升。

l 圖像裁剪：能精準聚焦圖片上的微小細節(jié)，哪怕是占比不到5%的細節(jié)——比如賽車手衣服上的微小Logo、賽事照片里觀眾席的標語，都可通過裁剪放大清晰分析。

l 圖像搜索：能在看到物體、人物或場景，的瞬間自動匹配相關信息——比如識別出賽車手的身份，或是某款冷門設備的型號。

l 文本搜索：能快速抓取精準信息——無論是公司成立年份、人物出生年月，還是最新的行業(yè)數(shù)據(jù)，都能秒級獲取。

從練中學，形成"直覺"和"經(jīng)驗"

SenseNova-MARS采用了“因材施教”的訓練方法。

l 第一階段：打基礎。針對跨模態(tài)多跳搜索推理訓練數(shù)據(jù)稀缺的痛點，創(chuàng)新性的提出了基于多模智能體的自動化數(shù)據(jù)合成引擎，采用細粒度視覺錨點 + 多跳深度關聯(lián)檢索的機制，動態(tài)挖掘并關聯(lián)跨網(wǎng)頁實體的邏輯，自動化構建高復雜度的多跳推理鏈路，同時引入閉環(huán)自洽性校驗來去除幻覺數(shù)據(jù)，構造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數(shù)據(jù)。用精心篩選的“高難度案例”做教材，每個案例都標注了“該用什么工具、步驟是什么”，讓AI先學會基本的“破案邏輯”。這些案例都是從海量數(shù)據(jù)中挑出的“硬骨頭”，確保AI一開始就接觸真實復雜場景。

l 第二階段：練實戰(zhàn)。采用“強化學習”——就像偵探在一次次破案中積累經(jīng)驗，AI每做對一次決策（比如選對工具、步驟合理）就會獲得獎勵，做錯了就調(diào)整策略。為了避免AI“學偏”，研究團隊還加了個“穩(wěn)定器”——BN-GSPO算法，讓它在處理簡單題和復雜題時都能保持穩(wěn)定進步，不會出現(xiàn)“偏科”。這種基于雙階段歸一化的優(yōu)雅機制有效平滑了動態(tài)工具調(diào)用返回分布多樣性帶來的優(yōu)化波動并確保了學習信號分布的一致性，從而成功解決了跨模態(tài)多步多工具智能體訓練過程中的收斂性難題。

經(jīng)過這樣的訓練，AI不僅學會了用工具，更培養(yǎng)"工具使用直覺"——知道在什么情況下應該使用哪些工具，以及如何將不同工具的結果有機結合起來。

模型、代碼、數(shù)據(jù)全開源

商湯日日新SenseNova-MARS模型、代碼、數(shù)據(jù)集全開源，支持 Hugging Face 直接下載。

Github 倉庫：https://github.com/OpenSenseNova/SenseNova-MARS

模型倉庫：

32B：https://huggingface.co/sensenova/SenseNova-MARS-32B

8B：https://huggingface.co/sensenova/SenseNova-MARS-8B

技術報告：https://arxiv.org/abs/2512.24330

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。