網易首頁 > 網易號 > 正文申請入駐

ElevenLabs發布Music v2，同一首歌里從歌劇自動切到重金屬

2026-05-30 06:18:19　來源: 野生運營

北京舉報

分享至

想象一下：一首歌的前奏還在K-POP的節奏里晃動，副歌部分突然切進歌劇，下一段又變成了重金屬。沒有生硬的拼接感，所有風格轉換像呼吸一樣自然。這不是某個先鋒音樂人的實驗作品，而是ElevenLabs最新發布的音樂生成AI——Music v2——能實現的效果。

關于AI音樂的爭論，過去兩年基本分成兩派。一方認為這不過是高級點的玩具，生成的旋律塑料感重、人聲機械、編曲套路化；另一方則堅信技術壁壘遲早會被打破。2026年5月26日，ElevenLabs正式推出了Music v2模型，給這場辯論提供了新素材。

先看反方可能提到的點。AI生成音樂的核心短板一直在"控制精度"上——想要一段rap，出來的節奏對不上；想調整副歌段落，得整個推倒重來。Music v2在這一點上做了明確改進：你可以只選中軌道的某一部分，比如保留前奏和副歌不變，單獨重新生成間奏或主歌段落。這種"局部再生"的能力，意味著創作者不用像以前那樣在"全有或全無"之間二選一。

再來看正方的彈藥。ElevenLabs官方演示中最具沖擊力的，就是那首跨度極大的混合風格曲目——從說唱切到K-POP，再滑進弗拉門戈，過程中沒有任何聽覺上的斷裂。按照他們推文中的說法，"曲目進行中的風格轉換，從歌劇到重金屬再切回來，全都在同一首歌里實現"。另一段演示則展示了快速說唱和高密度歌詞的處理能力，配合非音樂類的音效直接嵌入軌道內部。

技術細節方面，Music v2相較前代模型有幾個明確的升級方向：演唱的質感、樂器的表現層次、多語言歌詞的穩定性，以及編曲的復雜度上限。多語言支持覆蓋了英語、西班牙語、德語和日語這四種語言。至于多語言在唱腔咬字上的具體表現，目前可以從他們通過X平臺發布的樣本中聽到，但實際效果還有賴于更廣泛的用戶測試。

產品落地才是真正檢驗模型價值的地方。ElevenLabs把Music v2的能力拆進了三個平臺。第一個是面向品牌和內容團隊的ElevenCreative，可以指定樂曲的氛圍和風格，拿到帶商用授權的高質量音樂，適合廣告、品牌視頻等場景。第二個是給創作者使用的ElevenMusic，支持輸入歌詞和情緒關鍵詞來生成完整曲目，還能對自己收藏的曲目進行重新混音。第三個是即將上線的ElevenAPI，直接在產品里嵌入音樂生成能力，按調用量計費。

價格梯度也值得提一嘴。ElevenCreative和ElevenMusic都設有免費入門檔、月費約960日元的入門檔、約3500日元的創作者檔和約15800日元的專業檔。而ElevenAPI的價格從文字轉語音每千字符約8日元起步，到音樂生成每次調用約19日元止。這意味著從個人興趣玩家到商用開發者，ElevenLabs在不同層級上都預留了入口。

回到那個辯題上：AI音樂到底能不能用？Music v2給出的答案更像一個"正在接近可用"的信號。它沒有回避前代模型最被詬病的短板，而是在控制精度和表現復雜度上給出了可量化的提升。不過任何嘗鮮過AI音樂工具的人都知道，演示曲目和實際使用體驗之間存在落差。真正考驗Music v2的，是接下來成千上萬用戶用它生成的每一首歌。

另外，音樂生成AI領域的競爭在近半年明顯提速。如果橫向看同期動態，會發現Stability Audio推出了能生成6分鐘以上曲目的大模型和可在手機上運行的小模型，Google的Lyria 3系列也發布了支持最長3分鐘帶人聲的版本。但Music v2選擇了一個不同的切入角度：它不是在和誰比"誰生成的時長更長"，而是在解決"一首歌內部能不能講好多種音樂語言"的問題。風格切換和控制精度這兩項能力，也許比單純堆時長更能決定一個音樂生成工具在工作流中的實際位置。

整件事里還有一個容易被忽略的細節：ElevenLabs這家公司本身的定位是語音AI，而非傳統的音樂技術公司。從AI配音、有聲書生產，到現在直接跨入音樂創作領域，這條產品線延伸的路徑，說明他們看到的不是"語音"或"音樂"各自的市場，而是"所有需要聲音生成的地方"。Music v2或許只是這條邏輯鏈條上的最新一環。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.