OpenAI 推出 GPT-4.1，撞期智譜Z.ai

本文作者：洪雨欣

2025-05-06 17:11

導(dǎo)語(yǔ)：OpenAI 推出 GPT-4.1，撞期智譜Z.ai

就在今天，OpenAI API 中推出了三個(gè)新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的性能全面超越 GPT-4o 和 GPT-4o mini，在編碼和指令跟蹤方面均有顯著提升。除此之外，它們還擁有更大的上下文窗口，支持多達(dá) 100 萬(wàn)個(gè)上下文tokens。

GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ，比 GPT-4o提高了21.4% ，比 GPT-4.5 提高了 26.6%，使其成為領(lǐng)先的編碼模型。

在衡量指令遵循能力的標(biāo)準(zhǔn)當(dāng)中，GPT-4.1 得分為 38.3%，比 GPT-4o 提高了10.5%。

在 Video-MME 多模態(tài)長(zhǎng)上下文理解的基準(zhǔn)中，GPT-4.1 創(chuàng)造了新的先進(jìn)成果——在長(zhǎng)篇無(wú)字幕類別中得分為 72.0%，比 GPT-4o 提高了6.7%。

針對(duì)模型的優(yōu)化，GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個(gè)點(diǎn)上都實(shí)現(xiàn)了性能的提升。

同日，智譜開(kāi)源了其32B/9B 系列 GLM 模型，在代碼生成、指令遵循等方面與GPT4.1短兵相接。

該批模型涵蓋基座、推理、沉思模型，現(xiàn)已通過(guò)全新平臺(tái) Z.ai 免費(fèi)開(kāi)放體驗(yàn)，并同步上線智譜 MaaS 平臺(tái)。

此次開(kāi)源，OpenAI和智譜均干勁十足。GPT-4.1在代碼任務(wù)、指令遵循、長(zhǎng)上下文理解等多項(xiàng)領(lǐng)域均擊敗 GPT-4o。Z.ai 在指令微調(diào)和搜索代碼上的基準(zhǔn)指標(biāo)上已接近甚至超越 GPT-4o。

代碼生成

GPT-4.1 在各種代碼任務(wù)上都比 GPT-4o 表現(xiàn)得更好，包括代理解決編碼任務(wù)、前端編碼、減少無(wú)關(guān)編輯、遵循差異格式、確保一致的工具使用等等。

在衡量真實(shí)世界軟件工程技能的 SWE-bench Verified 測(cè)試中，GPT-4.1 完成了 54.6% 的任務(wù)，而 GPT-4o 的完成率為 33.2%。這反映了模型在探索代碼庫(kù)、完成任務(wù)以及生成可運(yùn)行并通過(guò)測(cè)試的代碼方面的能力有所提升。

對(duì)于需要編輯大型文件的 API 開(kāi)發(fā)者來(lái)說(shuō)，GPT-4.1 在跨多種格式的代碼差異分析方面更加準(zhǔn)確。在Aider 的多語(yǔ)言差異基準(zhǔn)測(cè)試中，GPT-4.1 的得分是 GPT-4o 的兩倍多，甚至比 GPT-4.5 還高出 8%。OpenAI專門訓(xùn)練了 GPT-4.1遵循差異格式的能力，開(kāi)發(fā)人員無(wú)需重寫整個(gè)文件，從而節(jié)省成本和延遲。

GPT-4.1 在前端代碼方面也比 GPT-4o 有了顯著提升，能夠創(chuàng)建功能更強(qiáng)大、更美觀的 Web 應(yīng)用。在我們的面對(duì)面對(duì)比中，付費(fèi)人工評(píng)分員 80% 的評(píng)分結(jié)果顯示，GPT-4.1 的網(wǎng)站比 GPT-4o 的網(wǎng)站更受歡迎。

除了上述基準(zhǔn)測(cè)試之外，GPT-4.1 在遵循格式方面表現(xiàn)更佳，準(zhǔn)確性更高，并且減少了無(wú)關(guān)編輯的頻率。在OpenAI的內(nèi)部評(píng)估中，代碼中的無(wú)關(guān)編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

OpenAI開(kāi)發(fā)了一個(gè)內(nèi)部教學(xué)跟蹤評(píng)估系統(tǒng)，將每個(gè)類別分為簡(jiǎn)單、中等和困難提示。GPT-4.1 在困難提示方面的表現(xiàn)尤其優(yōu)于 GPT-4o。

GPT-4.1 能夠更好地從過(guò)往對(duì)話中識(shí)別信息，從而實(shí)現(xiàn)更自然的對(duì)話。在 MultiChallenge 的基準(zhǔn)測(cè)試中，GPT-4.1 的表現(xiàn)比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也為 87.4%，而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗(yàn)證指令的提示（例如，指定內(nèi)容長(zhǎng)度或避免使用某些術(shù)語(yǔ)或格式）。

智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現(xiàn)優(yōu)異，以84.5%的分?jǐn)?shù)和GPT o1-mini分庭抗禮。

長(zhǎng)上下文理解

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬(wàn)個(gè)上下文tokens，而之前的 GPT-4o 型號(hào)最多可以處理 128,000 個(gè)。100 萬(wàn)個(gè)tokens相當(dāng)于整個(gè) React 代碼庫(kù)的 8 個(gè)以上副本，因此長(zhǎng)上下文非常適合處理大型代碼庫(kù)或大量長(zhǎng)文檔。

GPT-4.1 能夠準(zhǔn)確地處理長(zhǎng)達(dá) 100 萬(wàn)個(gè)上下文中的信息。此外，它能比 GPT-4o 更準(zhǔn)確地識(shí)別相關(guān)文本，并忽略長(zhǎng)短上下文中的干擾項(xiàng)。長(zhǎng)上下文理解是法律、編碼、客戶支持以及許多其他領(lǐng)域應(yīng)用的關(guān)鍵能力。

下圖是 GPT-4.1 檢索位于上下文窗口內(nèi)各個(gè)位置的隱藏信息（“針”）的能力。GPT-4.1 能夠始終如一地準(zhǔn)確檢索所有位置和所有上下文長(zhǎng)度的針，最大檢索tokens數(shù)可達(dá) 100 萬(wàn)個(gè)。無(wú)論這些tokens在輸入中的位置如何，它都能有效地提取與當(dāng)前任務(wù)相關(guān)的細(xì)節(jié)。

為了進(jìn)一步展示信息理解的能力，OpenAI開(kāi)源了一個(gè)新的評(píng)估平臺(tái)：OpenAI-MRCR（多輪共指，上下文中發(fā)現(xiàn)并區(qū)分隱藏的多個(gè)針頭的能力）。

GPT-4.1 在上下文長(zhǎng)度高達(dá) 128K 個(gè) token 時(shí)的表現(xiàn)優(yōu)于 GPT-4o，并且即使長(zhǎng)度高達(dá) 100 萬(wàn)個(gè) token 時(shí)也能保持強(qiáng)勁的性能。

在 Graphwalks （一個(gè)用于評(píng)估多跳長(zhǎng)上下文推理的數(shù)據(jù)集）的基準(zhǔn)測(cè)試中，GPT-4.1 達(dá)到了 61.7% 的準(zhǔn)確率，與 o1 的性能相當(dāng)，并輕松擊敗了 GPT-4o。

值得注意的是，智譜此番在小模型性能上也有所突破。尺寸僅為9B的GLM-Z1-9B-0414雖然參數(shù)量更少，但在數(shù)學(xué)推理及通用任務(wù)上依然表現(xiàn)出色。在AIME的基準(zhǔn)測(cè)試中，以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。

圖像理解

GPT-4.1 系列在圖像理解方面非常強(qiáng)大，尤其是 GPT-4.1 mini 代表了重大的飛躍，在圖像基準(zhǔn)測(cè)試中經(jīng)常擊敗 GPT-4o。

在Video -MME（長(zhǎng)篇無(wú)字幕）的測(cè)試中，模型會(huì)根據(jù) 30-60 分鐘長(zhǎng)的無(wú)字幕視頻回答多項(xiàng)選擇題。GPT-4.1 的表現(xiàn)達(dá)到了最佳水平，得分為 72.0%，高于 GPT-4o 的 65.3%。

定價(jià)

GPT-4.1 的成本比 GPT-4o 低 26%，而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。除了標(biāo)準(zhǔn)per-token 的成本外，還提供了無(wú)需額外付費(fèi)的長(zhǎng)上下文請(qǐng)求。

定價(jià)方面，智譜 Z.ai 整體低于GPT4.1。本次上線的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414兩個(gè)版本，其中后者完全免費(fèi)。推理模型分為三個(gè)版本，分別滿足不同場(chǎng)景需求：

GLM-Z1-AirX（極速版）：定位國(guó)內(nèi)最快推理模型，推理速度可達(dá)200 tokens/秒，比常規(guī)快 8 倍；

GLM-Z1-Air（高性價(jià)比版）：價(jià)格僅為DeepSeek-R1 的 1/30，適合高頻調(diào)用場(chǎng)景；

GLM-Z1-Flash（免費(fèi)版）：支持免費(fèi)使用，旨在進(jìn)一步降低模型使用門檻。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章