0
【雷峰網(公眾號:雷峰網)】雨果曾經說過:“開啟人類智慧寶庫的三把鑰匙,即數字、字母、音符。”
音樂早已成為人類表達情感的最佳載體。
但音樂創作是一件門檻很高的事情,因為音樂創作不是某一個人的獨角戲,而一個團隊高度協作的過程。從作詞、作曲到編曲、混音,再到歌曲錄制,每個環節都需要專業音樂人付出努力,并伴隨著高昂的成本投入。
但試想一下,如果有一天,我們只需手指點一點就能創作歌曲,那將會發生什么?
這種猜想在2023年,隨著大模型爆火一步步發酵:
2023年,一場由“AI歌手”引領的翻唱熱潮席卷網絡,諸如孫燕姿、陳奕迅、林俊杰等眾多華語樂壇巨星紛紛擁有了屬于自己的AI替身,各個網絡平臺變成“AI歌手復出演唱會”的現場。這一切的背后,是So-vits Svc AI音樂生成技術的應用。這項技術通過解析少量音頻片段,就能精確模擬目標歌手的獨特音色,盡管在捕捉歌手的個性化唱腔特點、演唱技法及個人風格等方面尚存差距,但它近乎實現1:1的音色還原,也激發了一場全民音樂創作浪潮。
自今年3月以來,隨著Suno V3和Udio發布,這股音樂創作熱潮被再次點燃。這次我們不僅可以翻唱某位歌手的歌曲,還可以通過輸入幾句歌詞和音樂風格,就能獲得兩首時長約兩分鐘的完整歌曲。這種突破性的技術創新,被業界視為真正意義上拉低了音樂創作門檻,讓更多人能夠參與到音樂創作中。
短短一年多時間,從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen,再到SunoV3和Udio,大模型技術不斷重塑音樂創作領域。
可以看到,從克隆音色的“AI歌手”,到生成完整歌曲的Suno,AI音樂生成技術正在不斷飛躍。只可惜,這些產品距離生成高品質且類型豐富的歌曲還有段距離。特別在中文歌曲領域,一直沒有一款符合中國人音樂審美的AI音樂生成大模型。
直到昨天,昆侖萬維發布全球最大規模的開源MOE大模型「天工3.0」,并基于它打造了國內目前唯一公開可用的AI音樂生成大模型「天工SkyMusic」。這款音樂大模型在人聲&BGM音質、人聲自然度、發音可懂度等性能方面,以6.65分的綜合得分超越Suno V3,成為中國首個音樂AIGC SOTA(state of the art,領域最佳水準)模型。

那么天工SkyMusic是如何成為中國首個音樂AIGC SOTA模型?它的實際體驗如何呢?下面我們一起來看一下。
打開天工 APP,點擊音樂板塊,輸入歌名和歌詞,選擇你想要參考的歌曲,再點擊生成音樂,即可獲得由你創作的歌曲。這就是「天工SkyMusic」簡化而高效的音樂創作全過程。

這種參考音樂生成能力,也是「天工SkyMusic」的一大亮點。用戶既可以上傳自己喜歡的歌曲作為模板,也可以從「天工SkyMusic」龐大的數據庫中挑選合適的參照曲目,系統將據此生成風格相近、嗓音神似的全新作品。這一特性顯著降低了音樂創作的技術門檻,使得即便是缺乏專業音樂素養的普通用戶也能參與音樂創作,享受創作音樂的樂趣。
利用「天工SkyMusic」,我們制作了兩首風格迥異的《乘鶴》:


再輸入一首耳熟能詳的英文童謠《小星星》,將它改編成搖滾風格和抒情男聲版本,也算是對童年的獨特回憶:


在創作中我們發現,「天工SkyMusic」涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲。同時相比SunoV3等海外同類產品,「天工SkyMusic」創作的歌曲在中文人聲細膩度和可識別度上表現更優秀,還能運用顫音、吟唱、男女對唱、自動和聲等技巧。
再來一首《明天不上班》,慶祝一下即將到來的星期五。

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗優勢——方言歌曲生成能力,即讓用戶能自如地利用四川話、粵語、北京話等多種方言演唱歌曲,極大豐富了用戶的音樂創作空間。
如此卓越的AI音樂生成模型,為什么才出現呢?究其原因,是因為處理音樂數據比處理圖像和視頻數據更復雜。音樂作為一種長時序的技術形式,每秒內包含數萬個相互緊密關聯的采樣點,這種內在的復雜性使它成為最復雜的模態之一。加之音樂中融合了歌詞、人聲及旋律等多種信息層次,每層之下又包含海量的信息,這意味在處理音樂時,不僅要構建精確的時間序列模型,還要綜合考慮聲波形態、頻率特性、節奏結構等諸多要素。
不過隨著AI大模型技術的不斷演進,已經找到兩種駕馭音樂復雜性質的有效策略,這也構成了AI音樂生成大模型的兩大技術路徑:符號音樂生成路線、大模型音樂音頻生成路線。
符號音樂生成路線,是通過標注大量樂譜數據再訓練模型,這條路線在學術界已有廣泛研究,但它最終生成的是樂譜,借助其他程序或工具轉化成可播放的音樂,而且實際效果并不盡如人意。
大模型音樂音頻生成路線則是涵蓋樂器、人聲、旋律、音量和音符等音樂元素的端到端一體化生成,最終生成的是可聽的音頻文件。但代價是需要巨大的研發資源投入和對大規模訓練數據集的依賴。即便如Google、OpenAI等行業巨頭,也尚未取得重大突破。
此外,AI對人聲演唱真實感的模擬也是至關重要的研究課題。但過去的AI音樂技術主要聚焦于無人聲演唱的背景音樂(BGM)創作,對人聲演唱的Song領域一直缺少有效的解決方案。
「天工SkyMusic」在立項之初,昆侖萬維就面臨著這兩項艱難的選擇。最終,研發團隊一致決定選擇大模型音樂音頻生成路線并攻堅人聲Song領域。這意味著昆侖萬維將在幾乎沒有任何開源可借鑒的情況下,正式挺進AI音樂生成技術的兩個無人區,難度可想而知。

經歷多次實驗探索,研發團隊意識到DiT結構與AI音樂生成大模型的深度兼容性,并堅定地朝這個方向投入,最終自主研發出適用于音樂音頻領域的類Sora模型架構,填補了行業在技術路線以及人聲演唱領域的技術空白。這套架構包含三大核心模塊——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 負責譜曲,學習 Music Patches 的上下文依賴關系,同時完成音樂可控性;Diffusion Transformer 負責演唱,通過LDM讓Music Patches被還原成高質量音頻。
同時為訓練「天工SkyMusic」,昆侖萬維建立了迄今為止全球最大的音樂數據集,包含了兩千余萬首歌曲樣本,確保了「天工SkyMusic」在音樂風格上精準可控和廣泛適用。
如此,「天工SkyMusic」降低了音樂創作的準入門檻,讓音樂創作不再存在專業壁壘。真正意義上拉近了音樂創作與普通大眾的距離,推動了AIGC產業向前邁進了。同時昆侖萬維還主動公開了「天工SkyMusic」的技術原理圖,為全球開源社區和開發者提供了可參考的案例,促進全球AIGC技術生態的共建共享。
「天工SkyMusic」的成功離不開背后的技術底座「天工 3.0」。昆侖萬維董事長兼CEO方漢表示:“文本大模型是所有AIGC堅實的基礎。所有的社交、游戲、音樂專屬模型都是需要文本大模型去支撐的。”當前,無論是GPT模型、GLM模型還是Baichuan模型,都是采用底層文本大模型與專業細分大模型相結合的方式。
昆侖萬維發布的「天工 3.0」擁有高達4000億參數,性能全面超越3140億參數的MoE大模型Grok1(xAI),是迄今全球最大規模的開源MoE大模型,也是昆侖萬維旗下所有AI技術應用模型的基石。

相較于上一代,「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的性能提升,其技術知識能力提升超過20%,數學 / 推理 / 代碼 / 文創能力提升超過 30%。
同時作為多模態大模型,「天工 3.0」集成了AI搜索、AI寫作、AI長文本閱讀、AI圖片生成、AI音樂生成等功能。在權威評測MMBench-CN的評估中,「天工3.0」的AR(屬性推理)、RR(關系推理)、FP-C(細粒度感知-交叉實例)、CP(粗略感知)四項性能均位列榜首,整體綜合成績更超越GPT-4V,穩居全球多模態大模型首位。

基于性能與能力的全方位躍升,「天工3.0」還掌握了至關重要的獨立思考能力。這使得它能夠在多輪搜索與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項能力上,為用戶提供前所未有的AI應用體驗。
「天工3.0」擁有很強的邏輯推理能力:

「天工3.0」還能夠更好地理解和處理用戶自然語言Query中的復雜語義信息,包括隱喻、多義詞等。例如最近爆火的“成都迪士尼”,我們問了天工大模型,它不僅可以精確地解釋這一網絡熱梗。還會通過追問,為我們規劃行程或給到近期的游客反饋。

在面對產業研究、產品橫評、信息分析、圖片生成、圖表繪制等復雜需求時,「天工3.0」能同時展示多種能力,控制模型去完成任務。
在執行“查詢南非國家2023年的人均GDP,并制作成柱狀圖”一任務過程中,「天工3.0」率先調用了搜索功能,再調用python工具繪制柱狀圖,最后加以解讀和總結,給出了正確的答案和全面分析:

「天工3.0」先通過語義理解對用戶需求進行深度理解,再通過邏輯推理能力將復雜的任務拆解成細分環節,最后通過獨立規劃以及調用、組合外部工具及信息,將細分環節發到不同模型,從而精準高效的完成這類復雜需求。
內容創作能力一直是「天工」系列大模型的強項,在上一代「天工2.0」大模型的基礎上,「天工3.0」更是進行了全面的內容創作能力升級,其不僅能實現AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的內容創作能力,更是通過專項Agent訓練實現了在對話中結合文本需求實時生成圖片、結合文本需求實時內容分析及圖表構建等能力。
讓「天工3.0」分析小米SU7跟蔚來ET5哪款車更好:

可以看到在如上述這種產品對比的復雜需求中, 「天工3.0」可以根據需求,實時內容分析并構建圖表來讓結果呈現更明晰。
通過「天工3.0」和「天工SkyMusic」的發布,我們可以看到,昆侖萬維“All in AGI 與 AIGC”的戰略并不是停留于理論的口號,而是真切指引著昆侖萬維在技術和商業模式上的每一處布局。依托“天工大模型”這一技術基石,昆侖萬維已規劃出包含AI大模型、AI搜索、AI音樂、AI社交、AI游戲和AI視頻在內的六大AI業務矩陣,并著力整合這六大板塊,構筑一個集成式的AI UGC平臺。
“昆侖萬維認為下一代的AI巨頭一定是C端加上免費,因為互聯網時代和移動互聯網時代的成功企業均采用免費加C端模式,而在AI時代,我們同樣堅信這一邏輯。”方漢表示。
由于大模型每次提供服務都需要耗費推理資源,為了實現免費toC模式,方漢總結出產業的三條路徑:“第一條,通過持續優化,將推理成本降低至用戶創造的廣告價值之下;第二條,通過AI手機實現端側推理,將推理成本分攤至終端硬件中。第三條,建立AI UGC平臺,由1%的用戶創造內容,99%的用戶消費內容。”
這三條路徑并不互相矛盾,只是分屬于產業的不同階段。比如,方漢判斷,在AI終端硬件大面積普及之前,AI UGC平臺落地會更快速形成商業閉環,但大模型的終局一定是終端AI。
不論是「天工SkyMusic」,還是其他核心AI業務,皆遵循這一商業邏輯。即通過AI技術賦能,降低創作門檻,持續擴大內容創作者群體,以此提升個性化內容的生產量與豐富度,從而滿足了大眾對于優質內容的消費需求,形成正向投資回報率的良性循環。
同時昆侖萬維也將運用AI技術打破傳統內容創作壁壘,讓不同文化和語言群體都能夠在這一AI UGC平臺上輕松傳達自身的故事與情感,促進全球范圍內實現文化平權。
在推進AI UGC平臺建設的過程中,昆侖萬維堅持技術創新與商業模式創新相結合,積極探索適合當下及未來市場的增長路徑。昆侖萬維正全力踐行“All in AGI 與 AIGC”,力爭在全球范圍內構建一個包容性強、參與度廣、創新能力出眾的AI內容生態,引領行業邁向一個嶄新的時代。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。