螞蟻發(fā)布并開(kāi)源萬(wàn)億參數(shù)思考模型Ring-1T，綜合能力逼近GPT-5

本文作者：小七

2025-10-14 10:45

導(dǎo)語(yǔ)：螞蟻開(kāi)源萬(wàn)億思考模型Ring-1T，數(shù)學(xué)解題達(dá)奧賽銀牌水平。

10月14日凌晨，螞蟻集團(tuán)正式推出萬(wàn)億參數(shù)思考模型Ring-1T，并全面開(kāi)源模型權(quán)重、訓(xùn)練配方。Ring-1T在9月30日開(kāi)源的預(yù)覽版Ring-1T-preview基礎(chǔ)上，持續(xù)擴(kuò)展大規(guī)模可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）訓(xùn)練，進(jìn)一步激發(fā)萬(wàn)億基座的自然語(yǔ)言推理能力，并通過(guò) RLHF 訓(xùn)練完善模型通用能力，在各項(xiàng)任務(wù)榜單上表現(xiàn)更加均衡。

為了持續(xù)激發(fā)Ring-1T的數(shù)學(xué)等復(fù)雜推理能力，此次百靈團(tuán)隊(duì)挑戰(zhàn)了難度更高的IMO2025（國(guó)際數(shù)學(xué)奧利匹克）賽題，將Ring-1T接入多智能體框架AWorld，使用純自然語(yǔ)言推理進(jìn)行解題。實(shí)驗(yàn)結(jié)果顯示，Ring-1T僅用一次解出了第1、3、4、5題，相當(dāng)于IMO銀牌水平，成為首個(gè)能拿IMO國(guó)際奧數(shù)獎(jiǎng)的開(kāi)源系統(tǒng)。Ring-1T在第三次嘗試IMO時(shí)對(duì)第2題幾何證明也給出了接近滿分的證明過(guò)程，在頂流大模型幾乎全軍覆沒(méi)的第六題中將答案收斂到與Gemini 2.5 Pro 相同的“4048”（正確答案為2112）。作為一款思考模型，Ring-1T也表現(xiàn)出了極佳的通用能力，在“人類偏好對(duì)齊”測(cè)試Arena-Hard V2中，Ring-1T以81.59的成功率居于開(kāi)源模型榜首，逼近GPT-5-Thinking(High)82.91的成績(jī)。在面向嚴(yán)謹(jǐn)領(lǐng)域的醫(yī)療問(wèn)答HealthBench測(cè)評(píng)中，Ring-1T也以最高分取得開(kāi)源領(lǐng)域最佳。

螞蟻發(fā)布并開(kāi)源萬(wàn)億參數(shù)思考模型Ring-1T，綜合能力逼近GPT-5

（Ring-1T與業(yè)界代表性思考模型的性能橫評(píng)）

萬(wàn)億參數(shù)思考模型訓(xùn)練最大難題是訓(xùn)推精度差異，即訓(xùn)練階段與推理階段因?qū)崿F(xiàn)細(xì)節(jié)差異導(dǎo)致的訓(xùn)練和推理精度不一致，進(jìn)而導(dǎo)致訓(xùn)練崩潰。在Ring-1T模型中，螞蟻采用了自研的“棒冰（icepop）”算法來(lái)應(yīng)對(duì)這項(xiàng)行業(yè)難題，即用帶掩碼的雙向截?cái)嗉夹g(shù)把訓(xùn)練-推理分布差異凍結(jié)在低水位，確保長(zhǎng)序列、長(zhǎng)周期訓(xùn)練不崩。此外，應(yīng)對(duì)萬(wàn)億參數(shù)模型強(qiáng)化學(xué)習(xí)訓(xùn)練，螞蟻還自研了高性能強(qiáng)化學(xué)習(xí)系統(tǒng)ASystem(其中包含已開(kāi)源的高性能強(qiáng)化學(xué)習(xí)框架AReaL)，特別針對(duì)萬(wàn)億參數(shù)模型的顯存管理和訓(xùn)推權(quán)重交換問(wèn)題做了精細(xì)的優(yōu)化，實(shí)現(xiàn)了單機(jī)顯存碎片秒級(jí)回收、權(quán)重零冗余交換，把大規(guī)模RL訓(xùn)練穩(wěn)定跑成日常。

螞蟻發(fā)布并開(kāi)源萬(wàn)億參數(shù)思考模型Ring-1T，綜合能力逼近GPT-5

（圖左：GRPO訓(xùn)推差異隨著訓(xùn)練成指數(shù)上升，icepop較為平穩(wěn)；圖右：訓(xùn)推差異最大值，GRPO隨著訓(xùn)練上升非常明顯，icepop維持在較低水位）

此外，本次發(fā)布的Ring-1T模型繼續(xù)采用Ling 2.0架構(gòu)的1T base模型做后訓(xùn)練，Ling 2.0采用了包括高度稀疏的MoE架構(gòu)，1/32的專家激活比、FP8混合精度、MTP等諸多特性實(shí)現(xiàn)高效訓(xùn)練與推理。在后訓(xùn)練階段，螞蟻百靈團(tuán)隊(duì)通過(guò)LongCoT-SFT + RLVR + RLHF多階段訓(xùn)練，顯著提升了模型的復(fù)雜推理能力以及指令跟隨和創(chuàng)意寫作等通用能力。

據(jù)百靈團(tuán)隊(duì)透露，Ring-1T模型是其在萬(wàn)億思考模型上的首次嘗試，螞蟻百靈團(tuán)隊(duì)會(huì)在后續(xù)的版本中繼續(xù)完善模型性能。目前，用戶可通過(guò)HuggingFace、魔搭社區(qū)下載模型，并通過(guò)螞蟻百寶箱等平臺(tái)在線體驗(yàn)。

螞蟻發(fā)布并開(kāi)源萬(wàn)億參數(shù)思考模型Ring-1T，綜合能力逼近GPT-5

據(jù)了解，截止目前螞蟻百靈大模型已經(jīng)發(fā)布18款模型，已形成從160億總參數(shù)到1萬(wàn)億總參數(shù)的大語(yǔ)言模型產(chǎn)品矩陣，其中兩款萬(wàn)億參數(shù)模型—萬(wàn)億參數(shù)通用大語(yǔ)言模型Ling-1T、萬(wàn)億參數(shù)思考模型Ring-1T。隨著兩款萬(wàn)億參數(shù)模型的發(fā)布，百靈大模型也正式步入2.0階段。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

小七

編輯

發(fā)私信

當(dāng)月熱門文章