零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平

本文作者：我在思考中

2024-01-22 16:20

導語：中英文兩大權威榜單領先，更懂中國用戶

1月22日，零一萬物Yi系列模型家族迎來新成員，Yi Vision Language（Yi-VL）多模態語言大模型正式面向全球開源。憑借卓越的圖文理解和對話生成能力，Yi-VL模型在英文數據集MMMU和中文數據集CMMMU上取得了領先成績，展示了在復雜跨學科任務上的強大實力。

據悉，Yi-VL模型基于Yi 語言模型開發，包括Yi-VL-34B和Yi-VL-6B兩個版本。在全新多模態基準測試MMMU中，兩個版本均有不俗表現。

MMMU（全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模態理解和推理）數據集包含了11500個來自六大核心學科（藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程）的問題，涉及高度異構圖像類型和交織文本圖像信息，對模型的高級知覺和推理能力提出了極高要求。令人矚目的是，Yi-VL-34B在該測試集上以41.6%的準確率，成功超越了一系列多模態大模型，僅次于GPT-4V（55.7%），展現出強大的跨學科知識理解和應用能力。

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平來源：https://mmmu-benchmark.github.io

同樣，在針對中文場景打造的CMMMU數據集上，Yi-VL模型再次展現“更懂中國人”的獨特優勢。CMMMU包含了約12000道源自大學考試、測驗和教科書的中文多模態問題。其中，GPT-4V在該測試集上的準確率為43.7%， Yi-VL-34B以36.5%的準確率緊隨其后，領先于當前最前沿的開源多模態模型。

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平來源：https://cmmmu-benchmark.github.io/

Yi-VL模型在圖文對話等多元場景中的表現如何？我們先看兩個范例：

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平

可以看到，基于Yi語言模型的強大文本理解能力，只需對圖片進行對齊，就可以得到不錯的多模態視覺語言模型——這也是Yi-VL模型的核心亮點之一。

零一萬物Yi-VL多模態語言模型上線，躋身全球開源頂尖水平圖說：Yi-VL模型架構設計和訓練方法流程一覽。

在架構設計上，Yi-VL模型基于開源 LLaVA架構，包含三個主要模塊：

? Vision Transformer（簡稱ViT）用于圖像編碼，使用開源的OpenClip ViT-H/14模型初始化可訓練參數，通過學習從大規模"圖像-文本"對中提取特征，使模型具備處理和理解圖像的能力。

? Projection模塊為模型帶來了圖像特征與文本特征空間對齊的能力。該模塊由一個包含層歸一化（layer normalizations）的多層感知機（Multilayer Perceptron，簡稱MLP）構成。這一設計使得模型可以更有效地融合和處理視覺和文本信息，提高了多模態理解和生成的準確度。

? Yi-34B-Chat和Yi-6B-Chat 大規模語言模型的引入為 Yi-VL 提供了強大的語言理解和生成能力。該部分模型借助先進的自然語言處理技術，能夠幫助 Yi-VL 深入理解復雜的語言結構，并生成連貫、相關的文本輸出。

在訓練方法上，Yi-VL模型的訓練過程分為三個精心設計的階段，旨在全面提升模型的視覺和語言處理能力。

? 第一階段：零一萬物使用1億張的“圖像-文本”配對數據集訓練 ViT 和 Projection 模塊。在這一階段，圖像分辨率被設定為224x224，以增強 ViT 在特定架構中的知識獲取能力，同時實現與大型語言模型的高效對齊。

? 第二階段：零一萬物將 ViT 的圖像分辨率提升至448x448，這一提升讓模型更加擅長識別復雜的視覺細節。此階段使用了約2500萬“圖像-文本”對。

? 第三階段：零一萬物開放整個模型的參數進行訓練，目標是提高模型在多模態聊天互動中的表現。訓練數據涵蓋了多樣化的數據源，共約100萬“圖像-文本”對，確保了數據的廣泛性和平衡性。

零一萬物技術團隊同時也驗證了可以基于Yi 語言模型強大的語言理解和生成能力，用其他多模態訓練方法比如BLIP、Flamingo、EVA等快速訓練出能夠進行高效圖像理解和流暢圖文對話的多模態圖文模型。Yi系列模型可以作為多模態模型的基座語言模型，給開源社區提供一個新的選項。同時，零一萬物多模態團隊正在探索從頭開始進行多模態預訓練，更快接近、超過GPT-4V，達到世界第一梯隊水平。

目前，Yi-VL 模型已在Hugging Face、ModelScope等平臺上向公眾開放，用戶可通過以下鏈接親身體驗這款模型在圖文對話等多元場景中的優異表現。歡迎探索Yi-VL多模態語言模型的強大功能，體驗前沿的AI技術成果！

Yi-VL 模型地址：

https://huggingface.co/01-ai

https://www.modelscope.cn/organization/01ai

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章