成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給王悅
    發送

    0

    實測豆包1.5后,看到了字節不走捷徑的底氣

    本文作者: 王悅   2025-01-31 23:16
    導語:效果領先,豆包大模型1.5超越GPT-4o、Claude3.5。

    2025 年 1 月,豆包大模型 1.5 全面上線火山方舟,其中豆包通用模型 pro 在多個權威測評集綜合得分優于GPT4o、Claude 3.5 Sonnet 等業界一流模型,模型效果達到全球領先水平。

    通用模型 pro 實現了性能與推理成本極致平衡,采用高效的 MoE 模型結構,性能杠桿提升至 7 倍,更有自研的高性能推理系統,可以達到 10 毫秒級低延遲。并且,豆包大模型 1.5 建了高度自主的數據生產體系,未使用任何其他模型生成的數據。

    除此之外,豆包通用模型 pro、豆包·視覺理解模型均有大幅增強,并發布豆包·實時語音模型。但豆包大模型 1.5 全產品,加量不加價,仍繼續保持原有模型價格不變。

    本文實測了豆包大模型 1.5 產品家族后,看到了字節不走捷徑的底氣。

    一、綜合能力優于業界一流模型

    Doubao-1.5-pro 模型綜合能力顯著增強,在知識(MMLU_PRO、GPQA)、代碼(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)權威測評基準上獲得最佳成績,綜合得分優于GPT-4o、Claude 3.5 Sonnet 等業界一流模型。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    話不多說,先通過和其他行業內領先大模型的對比來直觀感受一下。針對推理能力,設置一個大約在初級和中級水平的代碼問題:問題:使用 Flask 框架創建一個簡單的 Web API,包含以下兩個端點:

    /: 返回一個歡迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受兩個整數參數 a 和 b(通過查詢參數傳遞),返回它們的和,例如 {"sum": 5}。

    要求:

    提供可運行的完整代碼。說明如何在本地運行此代碼并進行測試。

    這一測試題所傳達的需求明確清晰且聚焦于核心功能,但并未說明如何處理錯誤邏輯或參數類型。先來看GPT-4o 將如何應對:

    可以看到 GPT-4o 的答案相對中規中矩,并針對問題本身包含的漏洞,給出了一個錯誤處理示例。再來看看 Doubao-1.5-pro 給出的答案:

    顯而易見,豆包關于代碼問題的輸出格式設置,會更貼近原生的編碼界面。相較于 GPT-4o ,能夠進行必要且詳細的代碼說明,并且在這一部分對參數類型問題就給出了預設和解答,即如果參數并不有效,狀態代碼就為400,然后才給出了運行代碼并進行測試的方法??傮w而言,Doubao-1.5-pro  相較于 GPT-4o 輸出的代碼會更加精細一點。

    針對“知識能力”一項,將 Doubao-1.5-pro 和同為主打中文語境的一個國產模型進行對比,提出的問題是:唐代有哪些古詩中包含“過年”這件事?國內某大模型產品給出的答案是:

    給出的答案數量有十個之多,但每個答案的顆粒度不夠,僅包括作者和50字左右的大概介紹,于用戶而言可能無法對提出的問題有深入的了解。

    Doubao-1.5-pro  則相對完美地規避掉了這一問題。先在邏輯上進行了清晰的劃分,給出了體現過年氛圍與習俗與抒發過年時情感思緒的兩個大方向,并且針對所給出的每一個答案的顆粒度也相對細些,包括了原文和解析,內容明顯更豐富。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    針對復雜問題的推理能力,Doubao-1.5-pro  在現實的中文語境中展現出了明顯的優勢,所提出的問題是:2025年上半年,我有3萬元想進行理財,是選擇中國建設銀行還是選擇中國工商銀行?收益各是多少? Gemini  1.5 Flash 給出的回答如下:

    實測豆包1.5后,看到了字節不走捷徑的底氣

    也許是由于數據庫的問題,Gemini 推理出的結果會相對空泛,并沒有給出實質性的建議,也沒有給出題目中要求的大致收益。而 Doubao-1.5-pro  的回答則具有針對性,并能夠條理清晰、分門別類的給出針對活期類、定期類、特色理財產品的的不同收益,能夠滿足問題提出者對這一問題的基本需求。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    中文能力方面,設置的問題是:請以愛情和輕舟已過萬重山為主題,寫一首七言律詩。Doubao-1.5-pro 的遣詞造句明顯優于 GPT-4o 等其他的模型,并能夠更進一步給出首聯、頷聯、頸聯、尾聯解析。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    而 GPT-4o 的中文能力則稍遜一節,回答得相對簡單,詞藻也較為樸素。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    除了 Doubao-1.5-pro  ,本次也發布了更加輕量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具備極致的響應速度,適用于對時延有更高要求的場景,模型配合精調使用可以獲得更優質的效果,并且在輕量版語言模型中處于領先水平,在綜合(MMLU_pro)、推理(BBH)、數學(MATH)、專業知識(GPQA)權威測評指標持平或超越GPT-4omini,Cluade 3.5 Haiku。先來感受一下極致的推理和響應速度,提問一個中等難度的推理問題:有三個人分別穿著紅、藍、綠三種顏色的衣服,他們分別來自 A、B、C 三個城市。已知:穿紅衣服的人不是來自 A 城市;穿藍衣服的人來自 C 城市;來自 A 城市的人沒有穿綠衣服。請問,這三個人分別來自哪個城市,穿著什么顏色的衣服?

    實測豆包1.5后,看到了字節不走捷徑的底氣

    在不省略已知條件、推理過程的情況下, Doubao-1.5-lite 輸出答案僅用了 1.55 秒,這個推理時間確實極致。再提出一個更復雜的專業問題:請簡述股票估值的三種主要方法(市盈率法、現金流折現法、凈資產法),并分析在不同市場環境下,哪種方法更適用?

    實測豆包1.5后,看到了字節不走捷徑的底氣

    這是一道金融行業的專業知識題目。Doubao-1.5-lite 的回答內容詳實,能夠 cover 住垂直領域的專業知識,并且在面對龐雜的、體量大的問題時,總輸出時長只有 6.77 秒,同樣在一個低時延的水平范圍內。

    值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份發布的主力模型 Doubao-pro-32k-0828,這意味著用戶可以用 lite 模型的成本,獲得過去 pro 模型的效果。

    無論是 Doubao-1.5-pro 還是 Doubao-1.5-lite,都是字節在追求模型性能與推理性能的極致平衡,也是字節一路積累下來的基本功的體現。

    從訓練和推理效率的角度出發,Doubao-1.5-pro 使用稀疏 MoE 架構。在預訓練階段,僅用較小參數激活的 MoE 模型,性能即可超過 Llama3.1-405B 等超大稠密預訓練模型。豆包團隊通過對稀疏度 Scaling Law 的研究,確定了性能和效率比較平衡的稀疏比例,并根據 MoE Scaling Law 確定了小參數量激活的模型即可達到世界一流模型的性能,等效 7 倍激活參數的Dense模型性能,遠超業內 MoE 架構約 3 倍杠桿的常規效率。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    基于 MoE 模型,豆包搭建了高性能推理系統,在 Prefill/Decode 與 Attention/FFN 構成的四個計算象限中,表現出顯著不同的計算與訪存特征。針對四個不同象限,采用異構硬件結合不同的低精度優化策略,在確保低延遲的同時大幅提升吞吐量,在降低總成本的同時兼顧 TTFT 和 TPOT 的最優化目標。

    更重要的是,在 PostTraining 階段,豆包團隊構建了一套完全自主的數據生產體系,將標注團隊與模型 self play 技術相結合,提升數據標注多樣性和難度,確保數據來源的獨立性和可靠性。在豆包大模型1.5的訓練過程中,未使用任何其他模型生成的數據。這意味著,字節在踩踏實大模型訓練的基本功、加大基礎工程投入、放棄短期獲利,這已經區別于世界范圍內絕大多數不肯下“笨功夫”的大模型公司。

    二、視覺推理、指令遵循達新高

    本次發布中,豆包的視覺理解能力令人驚艷,具備市面上絕大多數 To C 的 AI Chatbot 并不具備精準的圖像理解、識別、問答能力。Doubao-1.5-vision-pro 在多模態數據合成、動態分辨率、多模態對齊、混合訓練上進行了全面的技術升級,進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循方面的能力,也擁有了更細膩的視覺描述能力。Doubao-1.5-vision-pro 的視覺能力在多個權威測評基準上取得了全球領先表現:

    實測豆包1.5后,看到了字節不走捷徑的底氣

    基于原生動態分辨率的架構設計,Doubao-1.5-vision-pro 能夠支持任意分辨率和極端長寬比圖像識別。因此,無論是高清大圖還是低分辨率的小圖,亦或是極端長寬比例的圖像,模型都能實現精準的特征提取和高效的計算性能。先來看一下針對復雜圖表的理解能力。給出如下圖表,并向 Doubao-1.5-vision-pro 提問:該圖表反映了什么內容?

    實測豆包1.5后,看到了字節不走捷徑的底氣

    從上述的回答中可以見得, Doubao-1.5-vision-pro 對圖表內數據內容的解讀是準確無誤的,并能針對某些數值給出基本的關于趨勢、顯著性的結論。

    針對低清晰度問題,給出如下一張清晰度低、分辨率低的界面,進而考察模型對其中內容識別和理解的準確程度。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    實測豆包1.5后,看到了字節不走捷徑的底氣

    從上述的回答中可知,Doubao-1.5-vision-pro 同樣能夠準確識別模糊內容,并做出基礎的推理判斷:用戶正在為視頻應用創意外觀預設并進行色彩調整。再上一個難度,針對字跡潦草的手寫圖片,Doubao-1.5-vision-pro 能否準確識別?

    實測豆包1.5后,看到了字節不走捷徑的底氣

    不得不說,這個圖片如果不仔細看的話,人眼都不一定能看清,而豆包則能提取道其中 95% 的關鍵詞和主題,且識別出了部分關鍵詞用藍色筆標注來突出重點內容,并進一步總結該筆記聚焦于媒體研究領域。除了精準的識別能力,Doubao-1.5-vision-pro 也具備強大的多類型圖片內容提取能力。

    實測豆包1.5后,看到了字節不走捷徑的底氣

    上傳四張同一時期拍攝的照片,模型能在處理多張圖片時獲取關鍵要點,并總結出是“新年慶?!钡闹黝}。復雜指令遵循能力也是 Doubao-1.5-vision-pro 的亮點,通過系統性的原子能力拆解和多維度指令的邏輯組合,在后訓練階段引入了多樣化的視覺指令數據,從而激發模型的指令遵循能力,從容應對需要遵循更復雜指令的場景。

    不僅視覺大模型的能力得到提升,本次豆包大模型1.5家族中還新推出了實時語音模型。該模型提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態進行深度融合,同時還實現了語音對話中真正意義上的語音理解生成端到端,相比傳統的 ASR+LLM+TTS 的級聯方式,不僅擁有高理解力(高智商),還具備語音高表現力與高控制力,以及模型整體在回復內容和語音上的高情緒承接能力。

    在語音多模態上,我們提出了新的 Speech2Speech 的端到端框架,不僅通過原生方法將語音和文本模態進行深度融合,同時還實現了語音對話中真正意義上的語音理解生成端到端,相比傳統的 ASR+LLM+TTS 的級聯方式,在對話效果上有質的飛躍。

    可以說是一個情緒價值價值拉滿、表現能力生動,也不怕被打斷的豆包了。

    三、豆包 1.5 發布后,AI 更普惠

    2024 年 5 月,豆包主力模型就將推理輸入價格降至“厘時代”,12 月火山引擎又讓視覺理解模型價格進入“厘時代”。當下豆包大模型 1.5 繼續保持原有模型價格不變,加量不加價,也會給火山引擎進一步做大 B 端市場帶來更多可能性。

    在這場曠日持久的大模型落地競賽中,字節給行業留下的印象是“從容”。支撐豆包大模型全產品價格普惠的原因,是推理成本持續優化、毛利率的逐漸增加。據了解,豆包大模型去年大幅降價后,毛利率依然為正。其中,字節跳動最新推出的豆包大模型 1.5,在推理成本優化上取得進一步突破,在火山引擎上售賣 API 的 Doubao-1.5-pro,毛利率仍能達到較為可觀的 50%。

    不能只看到火山引擎中 API 價格下調的從容,更需要看到的是,豆包大模型團隊所打造的綜合高效模型架構、高性能推理體系、自建數據標注工程等深厚的技術優勢,以及對于大模型這條路不走捷徑的長期主義戰略。

    更高性價比的服務也讓火山引擎在商業化落地的過程中跑在前列。2024 年,火山引擎在汽車行業與梅賽德斯-奔馳、廣汽集團、領克汽車等多家企業達成合作;在金融行業與招商銀行、華泰證券、國信證券等企業進行智能體創新探索;在教育行業和浙江大學、南京大學打造了 AI 教育示范合作案例。

    豆包大模型 1.5 的升級和火山引擎在 B 端市場的進一步拓展,二者生生相息、共同推進 AI 惠普。

    雷峰網雷峰網(公眾號:雷峰網)雷峰網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    實測豆包1.5后,看到了字節不走捷徑的底氣

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說