從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

本文作者：張進

2024-04-22 10:57

導語：第一個國產音樂AIGC SOTA模型。

【雷峰網(公眾號：雷峰網)】雨果曾經說過：“開啟人類智慧寶庫的三把鑰匙，即數字、字母、音符。”

音樂早已成為人類表達情感的最佳載體。

但音樂創作是一件門檻很高的事情，因為音樂創作不是某一個人的獨角戲，而一個團隊高度協作的過程。從作詞、作曲到編曲、混音，再到歌曲錄制，每個環節都需要專業音樂人付出努力，并伴隨著高昂的成本投入。

但試想一下，如果有一天，我們只需手指點一點就能創作歌曲，那將會發生什么？

這種猜想在2023年，隨著大模型爆火一步步發酵：

2023年，一場由“AI歌手”引領的翻唱熱潮席卷網絡，諸如孫燕姿、陳奕迅、林俊杰等眾多華語樂壇巨星紛紛擁有了屬于自己的AI替身，各個網絡平臺變成“AI歌手復出演唱會”的現場。這一切的背后，是So-vits Svc AI音樂生成技術的應用。這項技術通過解析少量音頻片段，就能精確模擬目標歌手的獨特音色，盡管在捕捉歌手的個性化唱腔特點、演唱技法及個人風格等方面尚存差距，但它近乎實現1:1的音色還原，也激發了一場全民音樂創作浪潮。

自今年3月以來，隨著Suno V3和Udio發布，這股音樂創作熱潮被再次點燃。這次我們不僅可以翻唱某位歌手的歌曲，還可以通過輸入幾句歌詞和音樂風格，就能獲得兩首時長約兩分鐘的完整歌曲。這種突破性的技術創新，被業界視為真正意義上拉低了音樂創作門檻，讓更多人能夠參與到音樂創作中。

短短一年多時間，從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen，再到SunoV3和Udio，大模型技術不斷重塑音樂創作領域。

可以看到，從克隆音色的“AI歌手”，到生成完整歌曲的Suno，AI音樂生成技術正在不斷飛躍。只可惜，這些產品距離生成高品質且類型豐富的歌曲還有段距離。特別在中文歌曲領域，一直沒有一款符合中國人音樂審美的AI音樂生成大模型。

直到昨天，昆侖萬維發布全球最大規模的開源MOE大模型「天工3.0」，并基于它打造了國內目前唯一公開可用的AI音樂生成大模型「天工SkyMusic」。這款音樂大模型在人聲&BGM音質、人聲自然度、發音可懂度等性能方面，以6.65分的綜合得分超越Suno V3，成為中國首個音樂AIGC SOTA（state of the art，領域最佳水準）模型。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

那么天工SkyMusic是如何成為中國首個音樂AIGC SOTA模型？它的實際體驗如何呢？下面我們一起來看一下。

1
中國首個音樂AIGC SOTA模型

打開天工 APP，點擊音樂板塊，輸入歌名和歌詞，選擇你想要參考的歌曲，再點擊生成音樂，即可獲得由你創作的歌曲。這就是「天工SkyMusic」簡化而高效的音樂創作全過程。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

這種參考音樂生成能力，也是「天工SkyMusic」的一大亮點。用戶既可以上傳自己喜歡的歌曲作為模板，也可以從「天工SkyMusic」龐大的數據庫中挑選合適的參照曲目，系統將據此生成風格相近、嗓音神似的全新作品。這一特性顯著降低了音樂創作的技術門檻，使得即便是缺乏專業音樂素養的普通用戶也能參與音樂創作，享受創作音樂的樂趣。

利用「天工SkyMusic」，我們制作了兩首風格迥異的《乘鶴》：

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

再輸入一首耳熟能詳的英文童謠《小星星》，將它改編成搖滾風格和抒情男聲版本，也算是對童年的獨特回憶：

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

在創作中我們發現，「天工SkyMusic」涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步，團隊還計劃讓用戶根據哼出來的旋律生成歌曲。同時相比SunoV3等海外同類產品，「天工SkyMusic」創作的歌曲在中文人聲細膩度和可識別度上表現更優秀，還能運用顫音、吟唱、男女對唱、自動和聲等技巧。

再來一首《明天不上班》，慶祝一下即將到來的星期五。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗優勢——方言歌曲生成能力，即讓用戶能自如地利用四川話、粵語、北京話等多種方言演唱歌曲，極大豐富了用戶的音樂創作空間。

如此卓越的AI音樂生成模型，為什么才出現呢？究其原因，是因為處理音樂數據比處理圖像和視頻數據更復雜。音樂作為一種長時序的技術形式，每秒內包含數萬個相互緊密關聯的采樣點，這種內在的復雜性使它成為最復雜的模態之一。加之音樂中融合了歌詞、人聲及旋律等多種信息層次，每層之下又包含海量的信息，這意味在處理音樂時，不僅要構建精確的時間序列模型，還要綜合考慮聲波形態、頻率特性、節奏結構等諸多要素。

不過隨著AI大模型技術的不斷演進，已經找到兩種駕馭音樂復雜性質的有效策略，這也構成了AI音樂生成大模型的兩大技術路徑：符號音樂生成路線、大模型音樂音頻生成路線。

符號音樂生成路線，是通過標注大量樂譜數據再訓練模型，這條路線在學術界已有廣泛研究，但它最終生成的是樂譜，借助其他程序或工具轉化成可播放的音樂，而且實際效果并不盡如人意。

大模型音樂音頻生成路線則是涵蓋樂器、人聲、旋律、音量和音符等音樂元素的端到端一體化生成，最終生成的是可聽的音頻文件。但代價是需要巨大的研發資源投入和對大規模訓練數據集的依賴。即便如Google、OpenAI等行業巨頭，也尚未取得重大突破。

此外，AI對人聲演唱真實感的模擬也是至關重要的研究課題。但過去的AI音樂技術主要聚焦于無人聲演唱的背景音樂（BGM）創作，對人聲演唱的Song領域一直缺少有效的解決方案。

「天工SkyMusic」在立項之初，昆侖萬維就面臨著這兩項艱難的選擇。最終，研發團隊一致決定選擇大模型音樂音頻生成路線并攻堅人聲Song領域。這意味著昆侖萬維將在幾乎沒有任何開源可借鑒的情況下，正式挺進AI音樂生成技術的兩個無人區，難度可想而知。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

經歷多次實驗探索，研發團隊意識到DiT結構與AI音樂生成大模型的深度兼容性，并堅定地朝這個方向投入，最終自主研發出適用于音樂音頻領域的類Sora模型架構，填補了行業在技術路線以及人聲演唱領域的技術空白。這套架構包含三大核心模塊——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer 負責譜曲，學習 Music Patches 的上下文依賴關系，同時完成音樂可控性；Diffusion Transformer 負責演唱，通過LDM讓Music Patches被還原成高質量音頻。

同時為訓練「天工SkyMusic」，昆侖萬維建立了迄今為止全球最大的音樂數據集，包含了兩千余萬首歌曲樣本，確保了「天工SkyMusic」在音樂風格上精準可控和廣泛適用。

如此，「天工SkyMusic」降低了音樂創作的準入門檻，讓音樂創作不再存在專業壁壘。真正意義上拉近了音樂創作與普通大眾的距離，推動了AIGC產業向前邁進了。同時昆侖萬維還主動公開了「天工SkyMusic」的技術原理圖，為全球開源社區和開發者提供了可參考的案例，促進全球AIGC技術生態的共建共享。

2
能獨立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背后的技術底座「天工 3.0」。昆侖萬維董事長兼CEO方漢表示：“文本大模型是所有AIGC堅實的基礎。所有的社交、游戲、音樂專屬模型都是需要文本大模型去支撐的。”當前，無論是GPT模型、GLM模型還是Baichuan模型，都是采用底層文本大模型與專業細分大模型相結合的方式。

昆侖萬維發布的「天工 3.0」擁有高達4000億參數，性能全面超越3140億參數的MoE大模型Grok1（xAI），是迄今全球最大規模的開源MoE大模型，也是昆侖萬維旗下所有AI技術應用模型的基石。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

相較于上一代，「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的性能提升，其技術知識能力提升超過20%，數學 / 推理 / 代碼 / 文創能力提升超過 30%。

同時作為多模態大模型，「天工 3.0」集成了AI搜索、AI寫作、AI長文本閱讀、AI圖片生成、AI音樂生成等功能。在權威評測MMBench-CN的評估中，「天工3.0」的AR（屬性推理）、RR（關系推理）、FP-C（細粒度感知-交叉實例）、CP（粗略感知）四項性能均位列榜首，整體綜合成績更超越GPT-4V，穩居全球多模態大模型首位。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

基于性能與能力的全方位躍升，「天工3.0」還掌握了至關重要的獨立思考能力。這使得它能夠在多輪搜索與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項能力上，為用戶提供前所未有的AI應用體驗。

「天工3.0」擁有很強的邏輯推理能力：

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」還能夠更好地理解和處理用戶自然語言Query中的復雜語義信息，包括隱喻、多義詞等。例如最近爆火的“成都迪士尼”，我們問了天工大模型，它不僅可以精確地解釋這一網絡熱梗。還會通過追問，為我們規劃行程或給到近期的游客反饋。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

在面對產業研究、產品橫評、信息分析、圖片生成、圖表繪制等復雜需求時，「天工3.0」能同時展示多種能力，控制模型去完成任務。

在執行“查詢南非國家2023年的人均GDP，并制作成柱狀圖”一任務過程中，「天工3.0」率先調用了搜索功能，再調用python工具繪制柱狀圖，最后加以解讀和總結，給出了正確的答案和全面分析：

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」先通過語義理解對用戶需求進行深度理解，再通過邏輯推理能力將復雜的任務拆解成細分環節，最后通過獨立規劃以及調用、組合外部工具及信息，將細分環節發到不同模型，從而精準高效的完成這類復雜需求。

內容創作能力一直是「天工」系列大模型的強項，在上一代「天工2.0」大模型的基礎上，「天工3.0」更是進行了全面的內容創作能力升級，其不僅能實現AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的內容創作能力，更是通過專項Agent訓練實現了在對話中結合文本需求實時生成圖片、結合文本需求實時內容分析及圖表構建等能力。

讓「天工3.0」分析小米SU7跟蔚來ET5哪款車更好：

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

可以看到在如上述這種產品對比的復雜需求中，「天工3.0」可以根據需求，實時內容分析并構建圖表來讓結果呈現更明晰。

3
后記

通過「天工3.0」和「天工SkyMusic」的發布，我們可以看到，昆侖萬維“All in AGI 與 AIGC”的戰略并不是停留于理論的口號，而是真切指引著昆侖萬維在技術和商業模式上的每一處布局。依托“天工大模型”這一技術基石，昆侖萬維已規劃出包含AI大模型、AI搜索、AI音樂、AI社交、AI游戲和AI視頻在內的六大AI業務矩陣，并著力整合這六大板塊，構筑一個集成式的AI UGC平臺。

“昆侖萬維認為下一代的AI巨頭一定是C端加上免費，因為互聯網時代和移動互聯網時代的成功企業均采用免費加C端模式，而在AI時代，我們同樣堅信這一邏輯。”方漢表示。

由于大模型每次提供服務都需要耗費推理資源，為了實現免費toC模式，方漢總結出產業的三條路徑：“第一條，通過持續優化，將推理成本降低至用戶創造的廣告價值之下；第二條，通過AI手機實現端側推理，將推理成本分攤至終端硬件中。第三條，建立AI UGC平臺，由1%的用戶創造內容，99%的用戶消費內容。”

這三條路徑并不互相矛盾，只是分屬于產業的不同階段。比如，方漢判斷，在AI終端硬件大面積普及之前，AI UGC平臺落地會更快速形成商業閉環，但大模型的終局一定是終端AI。

不論是「天工SkyMusic」，還是其他核心AI業務，皆遵循這一商業邏輯。即通過AI技術賦能，降低創作門檻，持續擴大內容創作者群體，以此提升個性化內容的生產量與豐富度，從而滿足了大眾對于優質內容的消費需求，形成正向投資回報率的良性循環。

同時昆侖萬維也將運用AI技術打破傳統內容創作壁壘，讓不同文化和語言群體都能夠在這一AI UGC平臺上輕松傳達自身的故事與情感，促進全球范圍內實現文化平權。

在推進AI UGC平臺建設的過程中，昆侖萬維堅持技術創新與商業模式創新相結合，積極探索適合當下及未來市場的增長路徑。昆侖萬維正全力踐行“All in AGI 與 AIGC”，力爭在全球范圍內構建一個包容性強、參與度廣、創新能力出眾的AI內容生態，引領行業邁向一個嶄新的時代。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

張進

主筆

發私信

當月熱門文章

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

1中國首個音樂AIGC SOTA模型

2能獨立思考的天工3.0大模型

3后記

1
中國首個音樂AIGC SOTA模型

2
能獨立思考的天工3.0大模型

3
后記