成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給徐咪
    發送

    0

    阿里千問最強模型重磅亮相!性能媲美GPT-5.2、Gemini 3 Pro

    本文作者: 徐咪   2026-01-26 23:36
    導語:1月26日,阿里正式發布千問旗艦推理模型Qwen3-Max-Thinking,創下數項權威評測全球新紀錄,性能媲美GPT-5.2、Gemini 3 Pro,成為

    1月26日,阿里正式發布千問旗艦推理模型Qwen3-Max-Thinking,創下數項權威評測全球新紀錄,性能媲美GPT-5.2、Gemini 3 Pro,成為迄今為止最接近國際頂尖模型的國內最強AI大模型。通過總參數、強化學習、推理計算的極致規模擴展,千問新模型實現了性能的大幅飛躍,刷新科學知識(GPQA Diamond)、數學推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項關鍵性能基準測試的全球紀錄。

     

    阿里千問最強模型重磅亮相!性能媲美GPT-5.2、Gemini 3 Pro

     

    Qwen3-Max-Thinking是目前阿里規模最大、能力最強的千問推理模型,其總參數量超萬億(1T),預訓練數據量高達36T Tokens。此前,預覽版Qwen3-Max-Thinking斬獲數學推理AIME 25和HMMT 25的國內首個雙滿分,推理性能已讓人驚艷;在此基礎上,阿里通義團隊進行了更大規模的強化學習后訓練,全面提升了正式版Qwen3-Max-Thinking性能:在涵蓋事實知識、復雜推理、指令遵循、人類偏好對齊、Agent能力等19個公認的大模型基準測試中,千問旗艦推理模型刷新了數項最佳表現(SOTA)紀錄,整體性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。

     

    在關鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴展(Test-time Scaling)機制,推理性能提升的同時還更經濟。業界普遍的推理時計算,只會簡單增加并行推理路徑,重復推導已知結論,造成冗余推理效率低下;而千問采用的這一新機制,可對此前推理的結果進行“經驗提取”式的提煉,并據此進行多輪自我迭代,在相同的上下文中實現更高效的推理計算,獲得更智能的推理結果。基于這一推理技術創新,千問推理性能和推理效率大為提升,比如在啟用工具的“人類最后的測試”HLE中,千問得分58.3,大幅超過GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,錄得當前所有模型的最高分。

     

    面向即將到來的智能體Agent時代,Qwen3-Max-Thinking還大幅增強了自主調用工具的原生Agent能力。具體而言,在完成初步的工具使用微調后,通義團隊對模型進一步在大量多樣化任務上進行了基于規則獎勵與模型獎勵的聯合強化學習訓練,使得Qwen3-Max-Thinking擁有更智能結合工具進行思考的能力。這種自適應的工具調用能力可在QwenChat上完整體驗,模型自主選用搜索、個性化記憶和代碼解釋器等三個核心的Agent工具功能,提供專業人士一樣水平的回答,更合用戶心意、更智能、更流暢;同時,模型幻覺也大為降低,為解決真實復雜任務打下基礎。

     

    目前,開發者可在QwenChat上免費體驗Qwen3-Max-Thinking模型,企業可通過阿里云百煉獲取新模型API服務,普通用戶也可通過千問PC端和網頁端試用模型。據了解,千問APP也即將接入新模型,所有用戶都可免費體驗千問最強模型。


    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說