成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給朱可軒
    發送

    0

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    本文作者: 朱可軒 2024-09-13 11:58
    導語:元象XVERSE發布中國最大MoE開源模型。

    元象XVERSE發布中國最大MoE開源模型:XVERSE-MoE-A36B,加速AI應用低成本部署,將國產開源提升至國際領先水平。該模型總參數255B,激活參數36B,達到100B模型性能的「跨級」躍升,同時訓練時間減少30%,推理性能提升100%,使每token成本大幅下降。

    元象「高性能全家桶」系列全部開源,無條件免費商用,讓海量中小企業、研究者和開發者能按需選擇。

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜 MoE(Mixture of Experts)是業界最前沿的混合專家模型架構 ,將多個細分領域的專家模型組合成一個超級模型,打破了傳統擴展定律(Scaling Law)的局限,可在擴大模型規模時,不顯著增加訓練和推理的計算成本,保持模型性能最大化。出于這個原因,行業前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、馬斯克旗下xAI公司的Grok等大模型都使用了 MoE。

    在多個權威評測中,元象MoE效果大幅超越多個同類模型,包括國內千億MoE模型 Skywork-MoE、傳統MoE霸主Mixtral-8x22B 以及3140億參數的MoE開源模型Grok-1-A86B等。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜 

    免費下載大模型

    Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

    魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

    Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

    官網:chat.xverse.cn

     

    落地應用好且省 登頂港臺娛樂應用榜


    元象此次開源,不僅填補國內空白,也在商業應用上更進一步。

    元象基于MoE模型自主研發的AI角色扮演與互動網文APP Saylo,通過逼真的AI角色扮演和有趣的開放劇情,火遍港臺,下載量在中國臺灣和香港娛樂榜分別位列第一和第三。

    MoE訓練范式具有「更高性能、更低成本」優勢,元象在通用預訓練基礎上,使用海量劇本數據「繼續預訓練」(Continue Pre-training),并與傳統SFT(監督微調)或RLHF(基于人類反饋的強化學習)不同,采用了大規模語料知識注入,讓模型既保持了強大的通用語言理解能力,又大幅提升「劇本」這一特定應用領域的表現。  元象發布中國最大MoE開源大模型 落地應用登頂港臺榜


    高性能「開源標桿」

     

    元象是國內領先的AI與3D公司,秉持「通用人工智能 AGI」信仰,持續打造「高性能開源全家桶」,不僅填補國產開源空白,更將其推向了國際領先水平。

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    2023年11月,此前國內大部分開源參數多在7B到13B,而行業共識是模型達到50到60B參數門檻,大模型才能“智能涌現”,生態亟需“大”模型時,元象率先開源了XVERSE-65B,是當時中國最大參數開源。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    2024年1月,元象又開源全球最長上下文窗口大模型,支持輸入25萬漢字,還附手把手訓練教程,讓大模型應用一舉進入“長文本時代”。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    此次國內最大參數MoE開源,又是給生態貢獻了一個助推低成本AI應用利器。

     

    引領文娛應用

     

    借助在AI和3D領域的客戶積累,元象也迅速將大模型推向商用。

    2023年11月,元象成為全國最早一批、廣東省前五獲得《生成式人工智能服務管理暫行辦法》國家備案的大模型,具備向全社會開放的產品能力。 

    而在更早的10月,元象與騰訊音樂聯合推出lyraXVERSE加速大模型,并借助該技術全面升級音樂助手“AI小琴”的問答、聊天與創作能力,讓她情商與智商雙高,為用戶提供個性化、更深入、陪伴感十足的音樂互動體驗。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    元象大模型陸續與QQ音樂、虎牙直播、全民K歌、騰訊云等深度合作與應用探索,為文化、娛樂、旅游、金融領域打造創新領先的用戶體驗。  元象發布中國最大MoE開源大模型 落地應用登頂港臺榜


    MoE技術自研與創新

     

    MoE是目前業界最前沿的模型框架,由于技術較新,國內開源模型或學術研究尚未普及。元象自研MoE的高效訓練和推理框架,并持續推動技術創新。

    2024年4月推出的XVERSE-MoE-A4.2B中,元象推動MoE專家架構革新。與傳統MoE(如Mixtral 8x7B)將每個專家大小等同于標準FFN不同,元象采用更細粒度的專家設計,每個專家大小僅為標準FFN的四分之一,提高了模型靈活性與性能;還將專家分為共享專家(Shared Expert)和非共享專家(Non-shared Expert)兩類。共享專家在計算過程中始終保持激活狀態,而非共享專家則根據需要選擇性激活。這種設計有利于將通用知識壓縮至共享專家參數中,減少非共享專家參數間的知識冗余。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    此次推出XVERSE-MoE-A36B,繼續在MoE效率和效果方面進行技術創新。

    (1)效率方面

    MoE架構與4D拓撲設計:MoE架構的關鍵特性是由多個專家組成。由于專家之間需要大量的信息交換,通信負擔極重。為了解決這個問題,我們采用了4D拓撲架構,平衡了通信、顯存和計算資源的分配。這種設計優化了計算節點之間的通信路徑,提高了整體計算效率。

    專家路由與預丟棄策略:MoE的另一個特點是“專家路由機制”,即需要對不同的輸入進行分配,并丟棄一些超出專家計算容量的冗余數據。為此團隊設計一套預丟棄策略,減少不必要的計算和傳輸。同時在計算流程中實現了高效的算子融合,進一步提升模型的訓練性能。

    通信與計算重疊:由于MoE架構的專家之間需要大量通信,會影響整體計算效率。為此團隊設計了“多維度的通信與計算重疊”機制,即在進行參數通信的同時,最大比例并行地執行計算任務,從而減少通信等待時間。

    (2)效果方面

    專家權重:MoE 中的專家總數為 N ,每個 token 會選擇 topK 個專家參與后續的計算,由于專家容量的限制,每個 token 實際選擇到的專家數為 M,M<=K<N。被選擇到的專家計算完之后,會通過加權平均的方式匯總得到每個 token 的計算結果。這里專家的權重如何設置是一個問題,我們通過對比實驗的方式來進行選擇。根據對比實驗的效果,我們選擇實驗2的設置進行正式實驗。

    實驗1:權重在 topM 范圍內歸一化

    實驗2:權重在 topK 范圍內歸一化

    實驗3:權重在 topN 范圍內歸一化

    實驗4:權重都為 1 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    對比實驗結果

    舉例說明,假設N=8,K=4,M=3(2號專家上token被丟棄),不同專家權重的計算方式所得的權重如下圖: 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    數據動態切換:元象以往開源的模型,往往在訓練前就鎖定了訓練數據集,并在整個訓練過程中保持不變。這種做法雖然簡單,但會受制于初始數據的質量和覆蓋面。此次MoE模型的訓練借鑒了"課程學習"理念,在訓練過程中實現了動態數據切換,在不同階段多次引入新處理的高質量數據,并動態調整數據采樣比例。

    這讓模型不再被初始語料集所限制,而是能夠持續學習新引入的高質量數據,提升了語料覆蓋面和泛化能力。同時通過調整采樣比例,也有助于平衡不同數據源對模型性能的影響。 

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    不同數據版本的效果曲線圖

    學習率調度策略(LR Scheduler):在訓練過程中動態切換數據集,雖有助于持續引入新知識,但也給模型帶來了新的適應挑戰。為了確保模型能快速且充分地學習新進數據,團隊對學習率調度器進行了優化調整,在每次數據切換時會根據模型收斂狀態,相應調整學習率。實驗表明,這一策略有效提升了模型在數據切換后的學習速度和整體訓練效果。

    下圖是整個訓練過程中 MMLU、HumanEval 兩個評測數據集的效果曲線圖。

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    訓練過程中MMLU、HumanEval的性能曲線持續拔高

    通過設計與優化,元象MoE模型與其Dense模型XVERSE-65B-2相比,訓練時間減少30%、推理性能提升100%,模型效果更佳。雷峰網(公眾號:雷峰網)雷峰網




    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    元象發布中國最大MoE開源大模型 落地應用登頂港臺榜

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說