成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    AI+ 正文
    發私信給洪雨欣
    發送

    0

    OpenAI 推出 GPT-4.1,撞期智譜Z.ai

    本文作者: 洪雨欣   2025-05-06 17:11
    導語:OpenAI 推出 GPT-4.1,撞期智譜Z.ai

    就在今天,OpenAI API 中推出了三個新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的性能全面超越 GPT-4o 和 GPT-4o mini,在編碼和指令跟蹤方面均有顯著提升。除此之外,它們還擁有更大的上下文窗口,支持多達 100 萬個上下文tokens。

    GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ,比 GPT-4o提高了21.4% ,比 GPT-4.5 提高了 26.6%,使其成為領先的編碼模型。

    在衡量指令遵循能力的標準當中,GPT-4.1 得分為 38.3%,比 GPT-4o 提高了10.5%。

    在 Video-MME 多模態長上下文理解的基準中,GPT-4.1 創造了新的先進成果——在長篇無字幕類別中得分為 72.0%,比 GPT-4o 提高了6.7%。

    針對模型的優化,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。

    同日,智譜開源了其32B/9B 系列 GLM 模型,在代碼生成、指令遵循等方面與GPT4.1短兵相接。

    該批模型涵蓋基座、推理、沉思模型,現已通過全新平臺 Z.ai 免費開放體驗,并同步上線智譜 MaaS 平臺。

    此次開源,OpenAI和智譜均干勁十足。GPT-4.1在代碼任務、指令遵循、長上下文理解等多項領域均擊敗 GPT-4o。Z.ai 在指令微調和搜索代碼上的基準指標上已接近甚至超越 GPT-4o。

    代碼生成

    GPT-4.1 在各種代碼任務上都比 GPT-4o 表現得更好,包括代理解決編碼任務、前端編碼、減少無關編輯、遵循差異格式、確保一致的工具使用等等。

    在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o 的完成率為 33.2%。這反映了模型在探索代碼庫、完成任務以及生成可運行并通過測試的代碼方面的能力有所提升。

    對于需要編輯大型文件的 API 開發者來說,GPT-4.1 在跨多種格式的代碼差異分析方面更加準確。在Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 還高出 8%。OpenAI專門訓練了 GPT-4.1遵循差異格式的能力,開發人員無需重寫整個文件,從而節省成本和延遲。

    GPT-4.1 在前端代碼方面也比 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用。在我們的面對面對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。

    除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,準確性更高,并且減少了無關編輯的頻率。在OpenAI的內部評估中,代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

    指令遵循

    OpenAI開發了一個內部教學跟蹤評估系統,將每個類別分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優于 GPT-4o。

    GPT-4.1 能夠更好地從過往對話中識別信息,從而實現更自然的對話。在 MultiChallenge 的基準測試中,GPT-4.1 的表現比GPT-4o 提高 10.5%。

    GPT-4.1 在 IFEval 上的得分也為 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示(例如,指定內容長度或避免使用某些術語或格式)。

    智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現優異,以84.5%的分數和GPT o1-mini分庭抗禮。

    長上下文理解

    GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文tokens,而之前的 GPT-4o 型號最多可以處理 128,000 個。100 萬個tokens相當于整個 React 代碼庫的 8 個以上副本,因此長上下文非常適合處理大型代碼庫或大量長文檔。

    GPT-4.1 能夠準確地處理長達 100 萬個上下文中的信息。此外,它能比 GPT-4o 更準確地識別相關文本,并忽略長短上下文中的干擾項。長上下文理解是法律、編碼、客戶支持以及許多其他領域應用的關鍵能力。

    下圖是 GPT-4.1 檢索位于上下文窗口內各個位置的隱藏信息(“針”)的能力。GPT-4.1 能夠始終如一地準確檢索所有位置和所有上下文長度的針,最大檢索tokens數可達 100 萬個。無論這些tokens在輸入中的位置如何,它都能有效地提取與當前任務相關的細節。

    為了進一步展示信息理解的能力,OpenAI開源了一個新的評估平臺:OpenAI-MRCR(多輪共指,上下文中發現并區分隱藏的多個針頭的能力)。

    GPT-4.1 在上下文長度高達 128K 個 token 時的表現優于 GPT-4o,并且即使長度高達 100 萬個 token 時也能保持強勁的性能。

    在 Graphwalks (一個用于評估多跳長上下文推理的數據集)的基準測試中,GPT-4.1 達到了 61.7% 的準確率,與 o1 的性能相當,并輕松擊敗了 GPT-4o。

    值得注意的是,智譜此番在小模型性能上也有所突破。尺寸僅為9B的GLM-Z1-9B-0414雖然參數量更少,但在數學推理及通用任務上依然表現出色。在AIME的基準測試中,以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。

    圖像理解

    GPT-4.1 系列在圖像理解方面非常強大,尤其是 GPT-4.1 mini 代表了重大的飛躍,在圖像基準測試中經常擊敗 GPT-4o。

    在Video -MME(長篇無字幕)的測試中,模型會根據 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 的表現達到了最佳水平,得分為 72.0%,高于 GPT-4o 的 65.3%。

    定價

    GPT-4.1 的成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。除了標準per-token 的成本外,還提供了無需額外付費的長上下文請求。

    定價方面,智譜 Z.ai 整體低于GPT4.1。本次上線的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414兩個版本,其中后者完全免費。推理模型分為三個版本,分別滿足不同場景需求:

    GLM-Z1-AirX(極速版):定位國內最快推理模型,推理速度可達200 tokens/秒,比常規快 8 倍;

    GLM-Z1-Air(高性價比版):價格僅為DeepSeek-R1 的 1/30,適合高頻調用場景;

    GLM-Z1-Flash(免費版):支持免費使用,旨在進一步降低模型使用門檻。

    雷峰網(公眾號:雷峰網)

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說