實測豆包1.5后，看到了字節不走捷徑的底氣

本文作者：王悅

2025-01-31 23:16

導語：效果領先，豆包大模型1.5超越GPT-4o、Claude3.5。

2025 年 1 月，豆包大模型 1.5 全面上線火山方舟，其中豆包通用模型 pro 在多個權威測評集綜合得分優于GPT4o、Claude 3.5 Sonnet 等業界一流模型，模型效果達到全球領先水平。

通用模型 pro 實現了性能與推理成本極致平衡，采用高效的 MoE 模型結構，性能杠桿提升至 7 倍，更有自研的高性能推理系統，可以達到 10 毫秒級低延遲。并且，豆包大模型 1.5 建了高度自主的數據生產體系，未使用任何其他模型生成的數據。

除此之外，豆包通用模型 pro、豆包·視覺理解模型均有大幅增強，并發布豆包·實時語音模型。但豆包大模型 1.5 全產品，加量不加價，仍繼續保持原有模型價格不變。

本文實測了豆包大模型 1.5 產品家族后，看到了字節不走捷徑的底氣。

一、綜合能力優于業界一流模型

Doubao-1.5-pro 模型綜合能力顯著增強，在知識（MMLU_PRO、GPQA）、代碼（McEval、FullStackBench）、推理（DROP）、中文（CMMLU、C-Eval）權威測評基準上獲得最佳成績，綜合得分優于GPT-4o、Claude 3.5 Sonnet 等業界一流模型。

實測豆包1.5后，看到了字節不走捷徑的底氣

話不多說，先通過和其他行業內領先大模型的對比來直觀感受一下。針對推理能力，設置一個大約在初級和中級水平的代碼問題：問題：使用 Flask 框架創建一個簡單的 Web API，包含以下兩個端點：

/: 返回一個歡迎消息，例如 {"message": "Welcome to the API!"}。/add: 接受兩個整數參數 a 和 b（通過查詢參數傳遞），返回它們的和，例如 {"sum": 5}。

要求：

提供可運行的完整代碼。說明如何在本地運行此代碼并進行測試。

這一測試題所傳達的需求明確清晰且聚焦于核心功能，但并未說明如何處理錯誤邏輯或參數類型。先來看GPT-4o 將如何應對：

可以看到 GPT-4o 的答案相對中規中矩，并針對問題本身包含的漏洞，給出了一個錯誤處理示例。再來看看 Doubao-1.5-pro 給出的答案：

顯而易見，豆包關于代碼問題的輸出格式設置，會更貼近原生的編碼界面。相較于 GPT-4o ，能夠進行必要且詳細的代碼說明，并且在這一部分對參數類型問題就給出了預設和解答，即如果參數并不有效，狀態代碼就為400，然后才給出了運行代碼并進行測試的方法?？傮w而言，Doubao-1.5-pro 相較于 GPT-4o 輸出的代碼會更加精細一點。

針對“知識能力”一項，將 Doubao-1.5-pro 和同為主打中文語境的一個國產模型進行對比，提出的問題是：唐代有哪些古詩中包含“過年”這件事？國內某大模型產品給出的答案是：

給出的答案數量有十個之多，但每個答案的顆粒度不夠，僅包括作者和50字左右的大概介紹，于用戶而言可能無法對提出的問題有深入的了解。

Doubao-1.5-pro 則相對完美地規避掉了這一問題。先在邏輯上進行了清晰的劃分，給出了體現過年氛圍與習俗與抒發過年時情感思緒的兩個大方向，并且針對所給出的每一個答案的顆粒度也相對細些，包括了原文和解析，內容明顯更豐富。

實測豆包1.5后，看到了字節不走捷徑的底氣

針對復雜問題的推理能力，Doubao-1.5-pro 在現實的中文語境中展現出了明顯的優勢，所提出的問題是：2025年上半年，我有3萬元想進行理財，是選擇中國建設銀行還是選擇中國工商銀行?收益各是多少? Gemini 1.5 Flash 給出的回答如下：

實測豆包1.5后，看到了字節不走捷徑的底氣

也許是由于數據庫的問題，Gemini 推理出的結果會相對空泛，并沒有給出實質性的建議，也沒有給出題目中要求的大致收益。而 Doubao-1.5-pro 的回答則具有針對性，并能夠條理清晰、分門別類的給出針對活期類、定期類、特色理財產品的的不同收益，能夠滿足問題提出者對這一問題的基本需求。

實測豆包1.5后，看到了字節不走捷徑的底氣

中文能力方面，設置的問題是：請以愛情和輕舟已過萬重山為主題，寫一首七言律詩。Doubao-1.5-pro 的遣詞造句明顯優于 GPT-4o 等其他的模型，并能夠更進一步給出首聯、頷聯、頸聯、尾聯解析。

實測豆包1.5后，看到了字節不走捷徑的底氣

而 GPT-4o 的中文能力則稍遜一節，回答得相對簡單，詞藻也較為樸素。

實測豆包1.5后，看到了字節不走捷徑的底氣

除了 Doubao-1.5-pro ，本次也發布了更加輕量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具備極致的響應速度，適用于對時延有更高要求的場景，模型配合精調使用可以獲得更優質的效果，并且在輕量版語言模型中處于領先水平，在綜合（MMLU_pro）、推理（BBH）、數學（MATH）、專業知識（GPQA）權威測評指標持平或超越GPT-4omini，Cluade 3.5 Haiku。先來感受一下極致的推理和響應速度，提問一個中等難度的推理問題：有三個人分別穿著紅、藍、綠三種顏色的衣服，他們分別來自 A、B、C 三個城市。已知：穿紅衣服的人不是來自 A 城市；穿藍衣服的人來自 C 城市；來自 A 城市的人沒有穿綠衣服。請問，這三個人分別來自哪個城市，穿著什么顏色的衣服？

實測豆包1.5后，看到了字節不走捷徑的底氣

在不省略已知條件、推理過程的情況下， Doubao-1.5-lite 輸出答案僅用了 1.55 秒，這個推理時間確實極致。再提出一個更復雜的專業問題：請簡述股票估值的三種主要方法(市盈率法、現金流折現法、凈資產法)，并分析在不同市場環境下，哪種方法更適用？

實測豆包1.5后，看到了字節不走捷徑的底氣

這是一道金融行業的專業知識題目。Doubao-1.5-lite 的回答內容詳實，能夠 cover 住垂直領域的專業知識，并且在面對龐雜的、體量大的問題時，總輸出時長只有 6.77 秒，同樣在一個低時延的水平范圍內。

值得一提的是，Doubao-1.5-lite 模型效果比肩去年 9 月份發布的主力模型 Doubao-pro-32k-0828，這意味著用戶可以用 lite 模型的成本，獲得過去 pro 模型的效果。

無論是 Doubao-1.5-pro 還是 Doubao-1.5-lite，都是字節在追求模型性能與推理性能的極致平衡，也是字節一路積累下來的基本功的體現。

從訓練和推理效率的角度出發，Doubao-1.5-pro 使用稀疏 MoE 架構。在預訓練階段，僅用較小參數激活的 MoE 模型，性能即可超過 Llama3.1-405B 等超大稠密預訓練模型。豆包團隊通過對稀疏度 Scaling Law 的研究，確定了性能和效率比較平衡的稀疏比例，并根據 MoE Scaling Law 確定了小參數量激活的模型即可達到世界一流模型的性能，等效 7 倍激活參數的Dense模型性能，遠超業內 MoE 架構約 3 倍杠桿的常規效率。

實測豆包1.5后，看到了字節不走捷徑的底氣

基于 MoE 模型，豆包搭建了高性能推理系統，在 Prefill/Decode 與 Attention/FFN 構成的四個計算象限中，表現出顯著不同的計算與訪存特征。針對四個不同象限，采用異構硬件結合不同的低精度優化策略，在確保低延遲的同時大幅提升吞吐量，在降低總成本的同時兼顧 TTFT 和 TPOT 的最優化目標。

更重要的是，在 PostTraining 階段，豆包團隊構建了一套完全自主的數據生產體系，將標注團隊與模型 self play 技術相結合，提升數據標注多樣性和難度，確保數據來源的獨立性和可靠性。在豆包大模型1.5的訓練過程中，未使用任何其他模型生成的數據。這意味著，字節在踩踏實大模型訓練的基本功、加大基礎工程投入、放棄短期獲利，這已經區別于世界范圍內絕大多數不肯下“笨功夫”的大模型公司。

二、視覺推理、指令遵循達新高

本次發布中，豆包的視覺理解能力令人驚艷，具備市面上絕大多數 To C 的 AI Chatbot 并不具備精準的圖像理解、識別、問答能力。Doubao-1.5-vision-pro 在多模態數據合成、動態分辨率、多模態對齊、混合訓練上進行了全面的技術升級，進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循方面的能力，也擁有了更細膩的視覺描述能力。Doubao-1.5-vision-pro 的視覺能力在多個權威測評基準上取得了全球領先表現：

實測豆包1.5后，看到了字節不走捷徑的底氣

基于原生動態分辨率的架構設計，Doubao-1.5-vision-pro 能夠支持任意分辨率和極端長寬比圖像識別。因此，無論是高清大圖還是低分辨率的小圖，亦或是極端長寬比例的圖像，模型都能實現精準的特征提取和高效的計算性能。先來看一下針對復雜圖表的理解能力。給出如下圖表，并向 Doubao-1.5-vision-pro 提問：該圖表反映了什么內容？

實測豆包1.5后，看到了字節不走捷徑的底氣

從上述的回答中可以見得， Doubao-1.5-vision-pro 對圖表內數據內容的解讀是準確無誤的，并能針對某些數值給出基本的關于趨勢、顯著性的結論。

針對低清晰度問題，給出如下一張清晰度低、分辨率低的界面，進而考察模型對其中內容識別和理解的準確程度。

實測豆包1.5后，看到了字節不走捷徑的底氣

從上述的回答中可知，Doubao-1.5-vision-pro 同樣能夠準確識別模糊內容，并做出基礎的推理判斷：用戶正在為視頻應用創意外觀預設并進行色彩調整。再上一個難度，針對字跡潦草的手寫圖片，Doubao-1.5-vision-pro 能否準確識別？

實測豆包1.5后，看到了字節不走捷徑的底氣

不得不說，這個圖片如果不仔細看的話，人眼都不一定能看清，而豆包則能提取道其中 95% 的關鍵詞和主題，且識別出了部分關鍵詞用藍色筆標注來突出重點內容，并進一步總結該筆記聚焦于媒體研究領域。除了精準的識別能力，Doubao-1.5-vision-pro 也具備強大的多類型圖片內容提取能力。

實測豆包1.5后，看到了字節不走捷徑的底氣

上傳四張同一時期拍攝的照片，模型能在處理多張圖片時獲取關鍵要點，并總結出是“新年慶?！钡闹黝}。復雜指令遵循能力也是 Doubao-1.5-vision-pro 的亮點，通過系統性的原子能力拆解和多維度指令的邏輯組合，在后訓練階段引入了多樣化的視覺指令數據，從而激發模型的指令遵循能力，從容應對需要遵循更復雜指令的場景。

不僅視覺大模型的能力得到提升，本次豆包大模型1.5家族中還新推出了實時語音模型。該模型提出了新的 Speech2Speech 的端到端框架，不僅通過原生方法將語音和文本模態進行深度融合，同時還實現了語音對話中真正意義上的語音理解生成端到端，相比傳統的 ASR+LLM+TTS 的級聯方式，不僅擁有高理解力（高智商），還具備語音高表現力與高控制力，以及模型整體在回復內容和語音上的高情緒承接能力。

在語音多模態上，我們提出了新的 Speech2Speech 的端到端框架，不僅通過原生方法將語音和文本模態進行深度融合，同時還實現了語音對話中真正意義上的語音理解生成端到端，相比傳統的 ASR+LLM+TTS 的級聯方式，在對話效果上有質的飛躍。

可以說是一個情緒價值價值拉滿、表現能力生動，也不怕被打斷的豆包了。

三、豆包 1.5 發布后，AI 更普惠

2024 年 5 月，豆包主力模型就將推理輸入價格降至“厘時代”，12 月火山引擎又讓視覺理解模型價格進入“厘時代”。當下豆包大模型 1.5 繼續保持原有模型價格不變，加量不加價，也會給火山引擎進一步做大 B 端市場帶來更多可能性。

在這場曠日持久的大模型落地競賽中，字節給行業留下的印象是“從容”。支撐豆包大模型全產品價格普惠的原因，是推理成本持續優化、毛利率的逐漸增加。據了解，豆包大模型去年大幅降價后，毛利率依然為正。其中，字節跳動最新推出的豆包大模型 1.5，在推理成本優化上取得進一步突破，在火山引擎上售賣 API 的 Doubao-1.5-pro，毛利率仍能達到較為可觀的 50%。

不能只看到火山引擎中 API 價格下調的從容，更需要看到的是，豆包大模型團隊所打造的綜合高效模型架構、高性能推理體系、自建數據標注工程等深厚的技術優勢，以及對于大模型這條路不走捷徑的長期主義戰略。

更高性價比的服務也讓火山引擎在商業化落地的過程中跑在前列。2024 年，火山引擎在汽車行業與梅賽德斯-奔馳、廣汽集團、領克汽車等多家企業達成合作；在金融行業與招商銀行、華泰證券、國信證券等企業進行智能體創新探索；在教育行業和浙江大學、南京大學打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升級和火山引擎在 B 端市場的進一步拓展，二者生生相息、共同推進 AI 惠普。

雷峰網雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

王悅

主筆

發私信

當月熱門文章