網易首頁 > 網易號 > 正文申請入駐

上海藝術評論丨蘇嘉偉：人工智能音樂生成技術的發展與創新研究

2026-05-15 13:40:46　來源: 聯忠評戲

福建舉報

分享至

藝科界

人工智能音樂生成技術的發展與創新研究

蘇嘉偉

人工智能音樂療愈空間

音樂在人類文明中不可或缺，科技迭代尤其是人工智能深刻影響其創作與傳播，擴散模型（Diffusion Models）與Transformer架構融合推動AI音樂生成技術向商業化轉型。2024年其市場價值達6.42億美元，預計2030年增至30億美元，年復合增長率29.5%。

人工智能音樂療愈空間

人工智能音樂生成技術的早期發展

人工智能在各個行業產生了巨大的影響，音樂行業也不可避免地與之接觸。人工智能與音樂的融合、人工智能促成的音樂融合，已然吸引了眾多藝術家、科學家以及科研人員開展研究。人工智能與音樂的交互融合是一項具有鮮明交叉學科屬性的研究，回望人工智能技術發展的漫漫長河，時間回溯至20世紀50年代，藝術家萊杰倫?希勒和倫納德?艾薩克森共同創作的作品《Illiac Suite》是早期人工智能生成音樂的重要作品，學術界普遍將其視為人工智能生成音樂的首個重要實例。

該作品的核心邏輯仍建立在傳統音樂藝術的特性之上。該作品的核心技術是使用馬卡洛夫鏈（Markov Chain）模型產生隨機音符，這些音符的排列并非無序，模型要求它們根據傳統的和聲以及復調規律進行測試，不斷修改組合，最終形成一首完整的弦樂四重奏作品。這部作品在學術界被普遍認為是第一部由電子計算機創作的樂譜，其核心邏輯并未脫離傳統音樂創作的框架。

隨著人工智能技術的不斷發展，越來越多的研究者開始研究計算機算法音樂。例如1960年俄羅斯藝術理論學者拉希德?卡里莫維奇?扎里波夫發表了第一篇有關計算機算法作曲的論文。1965年發明家雷?庫茲韋爾公演了一部完全利用計算機創作的鋼琴作品等。最具有代表性的例子當數大衛?科佩在20世紀80年代組織的EMI項目，即“音樂智能實驗”（Experiments in Musical Intelligence）。

大衛?科佩是美國作曲家、音樂教授，他致力于研究人工智能與音樂的有機融合，研究范圍涵蓋算法音樂與編程技術等。EMI系統是基于Lisp語言的編程系統，能以極高的效率和可觀的效果模仿大量作曲家的創作風格，其可模仿的音樂元素包括旋律、和聲、樂曲結構以及一些簡單的配器組合邏輯。EMI系統創作的作品，從簡單的音樂小品、短小的樂句片段到完整的歌劇不等，涵蓋了巴赫、莫扎特、肖邦等眾多音樂家的藝術風格。EMI的核心理念被大衛?科佩稱為重組法（Recombinant），其基本邏輯是建立在大量音樂分析的基礎上，對基礎音樂元素進行風格解析及標簽化定義，再極其小心地將這些音樂要素進行排列重組，以此生成作品。大衛?科佩致力于算法作曲研究數十年，其間還開發了諸如Emily Howell程序等，用于模擬音樂創作。這套系統的誕生革新了人機交互反饋環節，無論是輸入自然語言指令，還是提交音符修改方案，都能有效地改善Emily的算法，且這套程序完全開源，在當時也引起了不小的反響。

大衛?科佩的作品涵蓋領域極廣，包括一些非常規的器樂及演奏技法，以及他自行研究的33音系統的微分音調等。但歸根結底，他所有的作品都是在計算機協助下完成的。大衛?科佩也是早期利用人工智能技術進行算法作曲的代表人物之一。

隨著技術的不斷革新，機器學習與深度神經網絡技術的出現，也為人工智能技術的應用模式增添了諸多可能性。筆者在2020年前后研究了一些基于人工神經網絡的音樂生成實例，當時也參考了許多早期的人工智能音樂生成系統，諸如Google團隊的Magenta系統、劍橋大學早期開源項目Bachbot以及WaveNet系統等。人工智能發展速度相當快，與現在主流的音樂生成系統Suno、Udio相比，早期這些系統生成的音樂質量與當下相比仍有明顯差距，其中也足見算法模型、應用技術的飛速發展。

人工智能音樂的誕生離不開算法的不斷進步，馬爾可夫鏈、循環網絡（Recurrent Network）的出現，都給人工智能音樂創作注入了全新的活力，而擴散模型Diffusion Models以及Transformer架構的出現，真正意義上將人工智能音樂生成技術帶入了一個嶄新的次元。

人工智能音樂療愈空間

音樂生成技術新范式：擴散模型與DiT架構

1.擴散模型

音樂生成是人工智能與音樂交叉領域的一個重要研究方向，其核心是利用一定的規則及算法邏輯生成具有音樂性的片段。現如今，自媒體大放異彩，音樂生成技術已不是什么新鮮話題，在人工智能視頻藝術、影視音樂、游戲音樂、音樂個性化推薦等領域都有廣泛的應用前景。而本文要談到的擴散模型，則是當前生成式模型中冉冉升起的新星之一。

相比于傳統的音樂生成方法，擴散模型在生成效果上有明顯的提升，它不僅可以生成細節、生成音樂要素更為豐富完整的樂曲片段，還能處理較為復雜的音樂結構及非線性變化。擴散模型的生成邏輯和去噪效果器的工作方式頗為相似，其工作原理是從純噪聲學習開始，通過不斷過濾不需要的“雜質”，最終生成所需對象。這種通過模擬物理環境中擴散過程生成音樂的方式，在諸多典型算法中均有體現。例如基于擴散模型的音頻生成模型DiffWave，主要用于生成高質量的Wave音樂片段；還有基于擴散模型的音樂生成模型Jukebox，主要用于生成多軌音樂。

諸多現代商業音樂生成軟件中，也運用了潛在空間擴散的方法，例如Suno以及Udio等。它們的工作原理主要聚焦于處理原始波形，通過音頻編碼器將原始波形壓縮，存儲于低維潛在表示中，形成特有的潛在空間，并在這個潛在空間中完成擴散過程。這種方法的運用大幅度節約了成本，通過更合理的資源配比完成運算。

2.Diffusion與Transformer架構的巧妙融合DiT

Transformer架構是音樂生成中常用的架構，在具體的技術實現中，它可以處理多層次的音樂信息，運用多維化的表示方法進行運作。筆者在碩士研究生階段使用Transformer架構進行過一定的音樂生成嘗試。筆者在論文中提到“音樂符號化”這個概念，它和Transformer架構中的符號化表示相契合，同時也能體現出這種表示方式的優劣勢。筆者搜集了大量MIDI音頻文件進行訓練，符號化表示的優勢在于，可以對涉及的音值、力度、時值等音樂元素有精確的認知；而其劣勢在于，生成的音樂在音樂性和表現力上比較遜色。Transformer架構中的表示形式還有音頻特征表示等，目前人工智能生成系統采用分層運算邏輯，在不同層次上運用不同的表示形式，通過疊加多層網絡的方式，提高音樂生成的質量和表現力。

Transformer架構能夠精確理解和分析大量音樂要素，尤其在音樂序列建模組件中，在理解及生成音樂的時序結構方面占據重要地位。目前，基于Transformer架構的嘗試和應用在人工智能音樂生成領域也非常普遍，而全新的混合架構——Diffusion Transformer（即DiT架構）也隨之出現。

DiT架構融合了Diffusion Models和Transformer架構雙方的優點，即高質量生成能力和強大的序列建模能力。在人工智能領域的發展過程中，OpenAI推出的視頻生成模型Sora在效果上可謂遙遙領先。諸多博客及學術論壇上，有大量關于Sora的介紹及應用實例。截至目前，Sora2已應用于大量視頻、視覺生成場景中。Sora的核心模型主干正是上述提到的DiT，即Diffusion Transformer架構。

DiT的核心思想在于，利用Transformer作為擴散模型的骨干網絡。2024年，學術界已有論文提出，傳統意義上擴散模型中常用的卷積神經網絡（諸如U-Net等）并非無可替代，嘗試用Transformer替代原有的骨干網絡后，取得了令人驚喜的效果。

DiT的工作流程主要由數據預處理、噪聲引入、模型訓練、圖像/視頻生成等幾個重要節點組成。就像前文提到的那樣，在擴散模型中，基本的運算邏輯是利用類似過濾噪聲的方式得到最終數據，而在DiT的工作流程中，保留了擴散模型的根本邏輯。

第一，DiT將輸入架構中的圖像、視頻等文件進行patch分割——所謂patches可以理解為分解得到的數據模塊；第二，完成分割轉換后，DiT會將這些patches轉換為特征向量；第三，在這些特征向量上，DiT會逐步引入噪聲，通過增加噪聲的擴散過程，將原始數據逐步轉換為噪聲數據；第四，訓練Diffusion Transformer模型，逆轉噪聲增加的過程，通過噪聲數據恢復出原始數據；第五，在訓練完成后，通過向模型輸入一些特定的或隨機生成的噪聲數據，經模型處理后即可生成新的圖像或視頻。

本文，我們具體著眼于DiT架構在音樂生成中的具體應用，在了解DiT架構的基本工作流程后，可以總結出以下幾個關鍵組件，即音頻編碼器、條件編碼器、核心DiT模塊以及音頻解碼器。在整個工作過程中，首先運行音頻編碼器，將原始音頻信號轉換為潛在表示；然后通過條件編碼器解析接收到的條件控制信息，例如風格、描述性的控制信息等；接著，讓余下的數據在潛在空間中通過核心DiT模塊完成去噪；最后通過音頻解碼器對噪聲數據進行逆向處理，最終還原為音頻信號。本質上，這種架構的工作模式在相對低維的潛在空間中完成了復雜的音樂生成過程，計算效率及資源利用率均有極大提升。

2025年，一款名為AudioX的開源項目應運而生，該項目致力于構建從全模態到音頻生成的統一框架。這個開源項目運用的核心技術為Diffusion Transformer技術，可將文本、視頻、圖像等多種模態的輸入轉換為高質量的音頻。作為AudioX的核心技術，DiT模型展現了它強大的音樂生成能力，這使得AudioX不僅具備生成通用音頻的能力，還擁有音樂生成、自然語言控制等特性。

人工智能音樂療愈空間

市場上主流人工智能音樂生成模型

1.Suno

Suno是當前非常具有影響力的人工智能音樂生成平臺，最新一代的Suno V5于2025年9月23日正式發布。Suno自誕生以來便廣受關注，也受到大量用戶的認可，在2025年年中，Suno可統計的用戶已超過1200萬，具有非常可觀的用戶量。

Suno V5在功能和效果上實現了質的飛躍，早已不是單一的音樂生成工具，而是集作曲、編曲、混音、編輯于一體的專業創作平臺，即使是剛接觸音樂不久的人，也可以通過該平臺得到自己心儀的音樂作品。從Suno V5的最新功能中，我們也能獲得一定的啟發。

Suno V5給用戶最大的感覺便是精度的提升，這種提升不僅僅體現在音樂風格、音質效果上，更是讓人在制作音樂的過程中，感受到“全流程”的掌控力。Suno V5最核心的功能在于，支持“有音軌墊入”與“無音軌墊入”雙重創作模式，這種模式允許用戶僅提供關鍵詞，由人工智能生成全新的音樂片段；也允許用戶提供音軌，讓人工智能在此基礎上進行創作。諸多精細化的可調節參數，例如“Vocal gender”，可供創作者選擇男女聲部的演唱技巧；“Weirdness”是極其有趣的參數，直譯為“怪異值”。該參數的高低決定了它與主流風格的接近程度——也就是說怪異值越低，生成的音樂風格更趨于主流，反之則偏離主流風格，給創作者相當大的創作空間。核心參數還有“Style Influence”，稱為風格遵循度，決定了人工智能對于提示詞的遵循程度。該數值越低，給予人工智能的創作空間也越豐富。

精度的提升還體現在提示詞的細化上，不同于早期版本的人工智能音樂生成系統，Suno V5已經允許全局風格提示詞以及分段指令提示詞的使用。用戶可以以整首音樂的核心特征為參照，描述包括曲風、配器、音色和演唱技巧等宏觀的創作藍圖。通過分段指令提示詞，用戶可以將一首歌曲拆分為基本的段落（例如前奏、間奏、尾奏、主歌、副歌等）進行單獨要求。例如，創作者可以告訴系統，主歌部分需要鋼琴的柱式和弦進行點綴，配器上輕柔、干凈；橋段部分逐步推進；副歌時加入大弦樂烘托歌曲的氣氛；尾聲則呈現逐漸縹緲的樂曲風格。系統可以精細地完成每一個區塊的工作，使整首音樂具有分明的層次起伏。針對不是非常專業的用戶，該系統還提供LLM大語言模型輔助用戶生成提示詞，用戶只需提供樂手、樂曲名的參考，大語言模型便會生成對應提示詞提供輔助，真正實現一鍵式音樂創作。

2.Udio

作為Suno的最大競爭對手之一，Udio同樣是在人工智能技術發展浪潮之巔誕生的音樂生成平臺。雖然兩者是競爭關系，但它們的目的都是一致的，即致力于簡化創作難度，為用戶打破創作壁壘。

Udio的功能和Suno較為相似，但它的精髓在于續寫（Extend）功能。Udio的創作流程如下：根據用戶提供的提示詞、歌詞等文本信息，系統會先生成一段半分鐘的音頻片段，隨后的續寫部分，便是Udio特有流程——在該模型系統中，用戶可以選擇前續（Extend Before）和后續（Extend After）兩種模式；在前續音頻片段生成完成后，系統允許用戶補充續寫提示詞。例如，用戶可以在續寫中輸入諸如“我需要更加激烈的鼓點、我需要大弦樂的鋪墊”等要求，以此增強歌曲的層次感。續寫并非單一過程，而是可以反復操作的。此外，用戶還可以通過修復功能，對生成內容中不滿意的部分進行細節精修。這也讓Udio受到了一些追求完美的創作者的青睞。

上海音樂學院人工智能音樂療愈重點實驗室的創新研究

筆者作為上海音樂學院人工智能音樂療愈重點實驗室的一員，在實驗室主任劉灝教授的帶領下，參與了諸多人工智能與藝術科技的探索實踐。實驗室核心研究方向便是探索科技與藝術的完美交融。其中人工智能音樂療愈空間是實驗室主要研究成果之一，筆者也有幸參與了該項目研究。

“音樂生態療愈空間”本身是一處集合生態聲學設計、智能生理檢測以及多感官沉浸體驗于一體的移動式療愈空間。該艙體具備五大核心功能，分別為智能壓力評估、多模態情緒識別、可塑性訓練音樂大模型、聲景融合療愈模式及跨學科科研協作平臺。

其中，可塑性訓練音樂大模型也運用了音樂生成技術，通過捕捉用戶的傳感狀態，實時生成用戶所需要的音樂頻率，開展音樂療愈工作。與前文提及的Suno、Udio音樂生成模式不同，該療愈空間采用“根據用戶身體狀態、腦電波需求被動生成音樂”的模式，更注重貼合用戶的實際體驗與核心需求。

這也是人工智能技術在音樂領域的一項全新嘗試，音樂生成不僅僅包括歌曲、音頻片段、音效環境，甚至音頻聲波也是可選項之一。音樂生成依托的也不僅僅是文字化的提示詞，也可以通過用戶的腦電、生理狀態等實時生成。

當然，音樂生成不僅僅是單純的“生成”過程，更重要的是其中蘊含的“交互”理念。實驗室打造的作品《智能之境：琴簫合奏療愈音樂與實時腦電反饋的AI交互作品》，將民族器樂、實時演唱以及實時腦電（EEG）監測技術深度融合，構建了動態反饋的“聲音——意識”交互系統。該項目極具創新性，將腦電與音樂生成有機地結合在一起，也是對未來音樂形態的一次大膽嘗試。

實驗室也致力于探索聲場與人工智能之間的交互，不局限于音樂的形態，未來還將推出更多令人驚嘆的藝術與科技融合作品。

總結：人工智能音樂生成技術的未來

無論是Suno還是Udio，都是目前市面上強大的人工智能音樂生成系統，是人工智能技術帶給音樂人，尤其是音樂愛好者的一份美好禮物。我們要理性地看待人工智能與音樂藝術之間的關系。

不可否認的是，音樂生成技術的日益成熟，使得創作的邊界日益消融，越來越多的人可以參與到音樂藝術的創作中，體驗音樂藝術的奇妙。筆者身為音樂創作者，也切實感受到了人工智能技術給音樂行業帶來的壓力。

目前人工智能生成技術的水準已達到令人驚嘆的高度。許多短視頻平臺、自媒體平臺已涌現出大量人工智能技術生成的音視頻產物，其生成的內容在邏輯連貫性與內容完整性上均表現突出，水準驚人。

筆者認為：人工智能技術的出現，對于藝術的發展具有正向的推動作用，但是作為藝術家，應該將人工智能技術作為輔助創作的工具，不應該過分排斥，也不應該過分依賴。音樂與科技是相輔相成的，兩者協同發展，才能為人類藝術的進一步發展開辟更新的天地。筆者也衷心希望，人工智能與藝術能夠和諧共進，在未來帶給人類更多驚嘆與奇跡。

作者：上海音樂學院助理研究員，上海市晨光學者

責任編輯：吳凌云

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.