0

人類獲取的信息83%來自視覺,圖文多模態大模型能感知更豐富和精確的真實世界信息,構建更全面的認知智能,從而向AGI(通用人工智能)邁出更大步伐。
元象今日發布多模態大模型 XVERSE-V ,支持任意寬高比圖像輸入,在主流評測中效果領先。
XVERSE-V 性能優異,在多項權威多模態評測中超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型,在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。

傳統的多模態模型的圖像表示只有整體,XVERSE-V 創新性地采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。


注:
這樣的處理方式使模型可以應用于廣泛的領域,包括全景圖識別、衛星圖像、古文物掃描分析等。
示例- 高清全景圖識別 、圖片細節文字識別


免費下載大模型
Hugging Face:
ModelScope魔搭:
Github:
問詢發送:
商業合作
微信添加:
元象持續打造國內開源標桿,在國內最早開源最大參數65B 、全球最早開源最長上下文256K 以及 國際前沿的MoE模型, 并在SuperCLUE測評全國領跑。
商業應用上,元象大模型是 廣東最早獲得國家備案的模型之一 ,可向全社會提供服務。

模型不僅在基礎能力上表現出色,在實際的應用場景中也有著出色的表現。
圖表理解
不論是復雜圖文結合的信息圖理解,還是單一圖表的分析與計算,模型都能夠自如應對。


視障真實場景
在真實視障場景測試集VizWiz中,XVERSE-V 表現出色,超過了InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模態大模型。

VizWiz測試示例
看圖內容創作
XVERSE-V 具備多模態能力的同時保持強大的文本生成能力,能夠很好勝任理解圖像后創造性文本生成的任務。
教育解題
模型具備了廣泛的知識儲備和邏輯推理能力,能夠識別圖像解答不同學科的問題。

百科解答
模型儲備了歷史、文化、科技、安全等各類主題的知識。

代碼撰寫

自動駕駛

情感理解與識別

一元復始,萬象更新。
元象創始人姚星是前騰訊副總裁和騰訊 AI Lab 創始人、國家科技部新一代人工智能戰略咨詢委員會成員。
元象獲國家“專精特新”、“高新技術企業”認證,團隊目前有75%為研發人員(60%為碩博學歷)。
元象已經為多家龍頭企業提供一站式技術與服務,包括:
公司注冊名:
官網:
官微:
Logo下載
鏈接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg
提取碼: rav0
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。