32B 模型橫掃 SWE 任務，這款代碼智能體模型有點東西

本文作者：二維馬曉寧

2025-06-23 16:11

導語：AI 不要只做簡單的代碼生成，還要做復雜的軟件工程。

（雷峰網(公眾號：雷峰網)文章）2025年不僅是智能體爆發元年，也是AI軟件工程的元年。以AI驅動的自動化軟件工程正加速重構開發范式。

今天昆侖萬維官宣，開源代碼智能體Skywork-SWE-32B今日全球上線，以“小參數”重寫倉庫級修復規則。

這是開源生態對抗閉源巨頭的關鍵一役——Skywork-SWE-32B讓企業用消費級顯卡部署AI工程師成為現實。

模型在SWE-bench-Verified上（OpenHands代碼輔助框架）將修復準確率拉升至47.0%，一舉超越了現有參數規模在32B以下的開源模型，直逼Claude v3.7（56.0%）的閉源神話。

掙脫了閉源的枷鎖，AI正從“工具”升級為“協作者”，軟件工程才能真正迎來智能體驅動的范式轉移。

現在，開發者可在Hugging Face領取這份“開源工程師”了。

技術報告：https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

博客：https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

模型權重：https://huggingface.co/Skywork/Skywork-SWE-32B

SWE任務：對智能體模型的終極試煉

經常寫代碼的人都知道，軟件工程（Software Engineering, SWE）任務，可以說是難度遠超一般的代碼生成任務。將大型語言模型驅動的智能體投入真實的軟件工程任務，絕非簡單的“寫代碼”指令所能涵蓋。

即使是人類工程師，處理陌生項目時首次修復正確率也不到70%。

現在，將一個SWE任務交給智能體模型，簡直像是要求一個“AI工程師”在極短的時間內，快速融入一個新團隊接手一個龐大且不熟悉的遺留系統，準確理解一個模糊的Bug報告，找到根本原因，設計出符合團隊規范且不會破壞任何其他功能的修復方案，并一次性提交正確的代碼變更。

這樣的“AI工程師”可真不好找。

超越傳統代碼生成的能力要求

和傳統的代碼生成相比，SWE的要求可謂是高得離譜。任何一個環節的薄弱，都可能導致智能體在復雜工程現實面前束手無策。

以上下文范圍問題為例吧。代碼生成關注語法和局部邏輯，就像只看見一棵樹；而軟件工程需要理解整片森林的生態系統。

說到修改某個函數時，普通生成器只看函數本身，工程師卻要考慮十處調用點和三年前留下的TODO注釋。非技術層面更關鍵，那些從未寫在代碼里的團隊規范要不要遵守？沒有寫在文檔里的性能底線，要不要了解？

這些可不是什么虛無縹緲的東西，做個“優化排序算法”吧，代碼生成給出快排實現就結束；而SWE要考慮：為什么前任用冒泡排序（歷史）？會不會破壞報表模塊的調用（依賴）？是否符合內存限制（約束）？

看似只是一個簡單的需求，實際上已經給智能體上了無數道枷鎖，對模型的能力要求也是高了不止一個level。

你以為這就完了嗎？

在SWE的開發中，每個決策都涉及多維度的取舍，需求、環境和工具鏈都在發生持續的變化，任何修改都會產生漣漪效應，智能體與開發者或者工程師進行多輪、深入、澄清性對話，最好還是能主動提問以消除需求歧義。

現在知道，昆侖萬維想要做倉庫級代碼修復能力的模型，有多不容易了吧。

現有SWE數據集的三大致命缺陷

這是對智能體模型的工程實踐水平與系統性思維能力的全面考驗，想要訓練出足夠優秀的模型，困難究竟卡在哪里了呢？

在大量的從業者看來，SWE模型訓練最大的bug，還是出在數據集上。宣稱能驅動智能體執行軟件工程任務的大模型，其能力基石在于訓練數據。

盡管已有不少工作聚焦于SWE任務并收集了相關的數據集，但當前的主流數據集仍存在三大核心問題，嚴重阻礙了該領域的進一步發展。它們如同沉重的鎖鏈，將模型的潛力死死禁錮在實驗室的牢籠中，使其難以突破理論演示的邊界，邁向真實的工程戰場。

第一大問題，缺乏可執行環境與驗證機制。

已有開源數據（如 SWE-bench-extra、SWE-Fixer）通常缺乏環境或單元測試來驗證數據正確性，導致生成的修復難以驗證。

第二大問題，高質量訓練數據稀缺。

盡管某些數據集規模較大（如 SWE-Dev、SWE-Gym），但缺乏經過嚴格驗證的訓練樣本，公開可用的高質量數據極為有限，導致開源模型在 SWE 任務上落后于閉源模型。

第三大問題：數據規模法則適用性不明確。

相較于自然語言領域中的任務，SWE任務現有的公開訓練數據體量較小，尚無法有效驗證數據擴展是否能帶來模型能力的持續增長。

唯有跨越這數據鴻溝，智能體才有望從“代碼補全工具”蛻變為值得信賴的“工程伙伴”。

誰能想到，這個眾多國內外公司都無法取得突破的問題，竟然就被昆侖萬維這家國內的AI公司給實現了呢？

Skywork-SWE-32B的破局之道

為什么是昆侖萬維？可能不少人會有這樣的疑問。

昆侖萬維作為中國AI開源領域的先行者，自2022年底發布并開源“昆侖天工”AIGC全系列算法模型以來，持續深耕AGI，既有著技術突破，又有全面前瞻的生態布局。

2023年昆侖萬維就開源了130億參數模型Skywork-13B系列，配套發布當時最大的中文數據集Skypile-150B（600GB），2024年開源全球首個支持單臺RTX 4090服務器推理的千億MoE稀疏模Skywork-MoE，推理成本降低3倍，性能接近70B稠密模型。前段時間中國大陸首個對標OpenAI deep research的天工超級智能體，也是昆侖萬維推出的agent產品。

既有技術能力，又有工程思維，能夠做出來倉庫級代碼修復能力的智能體模型，也是順理成章了。

為了Skywork-SWE-32B，昆侖萬維團隊構建了一套自動化、結構化、可復現的SWE數據收集與驗證流程，共分為3個階段、9個步驟，最終構建出超1萬條高質量任務實例、8千條多輪交互的軌跡，為模型訓練提供堅實基礎。

構建萬級可驗證閉環數據集

32B 模型橫掃 SWE 任務，這款代碼智能體模型有點東西

數據構建流程圖

圖中顯示，三個階段分別為，A.數據采集與預篩選、B.基于執行的驗證機制、C.智能體軌跡生成，每個階段又有主要的三個步驟。

數據采集與預篩選階段，先通過 GitHub API 抓取超過 15 萬個開源倉庫的元信息，處理后最終獲得 8,472 個有效倉庫的元信息，再通過收集與任務初篩構建出初始的146,568個任務樣本，最后安裝驗證保留23,389個任務樣本。

32B 模型橫掃 SWE 任務，這款代碼智能體模型有點東西

數據構建過程中各個階段數據樣本量變化圖

基于執行的驗證機制階段，統一命令生成，Docker環境構建，最后進行單元測試驗證。

最后一個智能體軌跡生成階段，首先要對每個任務執行最多100輪交互，完成智能體軌跡生成，Patch級驗證，最終累計收集8,209條高質量、長上下文、多輪交互的驗證通過軌跡，構建訓練樣本庫。

32B 模型橫掃 SWE 任務，這款代碼智能體模型有點東西

Skywork-SWE數據集的GitHub倉庫詞云圖

這樣構建的Skywork-SWE數據集，在任務數量與代碼覆蓋廣度上遠超現有同類數據集（如SWE-Gym Lite與SWE-bench Verified），不僅涵蓋如 Pydantic、SQLGlot、DVC 等主流開源GitHub項目，還包含大量中小型倉庫，為大模型提供了豐富、多樣且貼近實際的軟件工程任務樣本，持續推動智能體模型的能力演進。

系統性驗證軟件工程Scaling Law的機會

基于Skywork-SWE數據集的高質量智能體軌跡，選用目前最具自主性的開源OpenHands框架，昆侖萬維團隊訓練了Skywork-SWE-32B模型。看這款模型的參數和得分，真給開源界整了個大活兒。

Skywork-SWE-32B基于開源OpenHands Agent框架，實現了38.0% pass@1的準確率，在32B規模的開源代碼智能體中達到了當前最優水平。

這說明什么？同尺寸模型里最能打，沒有之一！

更為關鍵的是，實驗結果進一步表明：Scaling Law在SWE任務上也成了。

以前我們說，跟語言任務不一樣，SWE任務現有的公開訓練數據體量較小，尚無法有效驗證數據擴展是否能帶來模型能力的持續增長。

但是現在，這個論點被昆侖萬維證實了。

只要訓練數據規模能夠持續擴展，模型性能就能持續提升，在軟件工程任務中，這句話一樣有效，一樣有用。

32B 模型橫掃 SWE 任務，這款代碼智能體模型有點東西