網易首頁 > 網易號 > 正文申請入駐

大批歌手即將失業？實測AI作曲僅需5分鐘，傳統音樂被逼死胡同？

2026-06-21 21:37:09　來源: 雷科技

廣東舉報

分享至

文章開始之前，給大家聽一下我們用AI做的一首《雷科技之歌》。

初代《中國最強音》總冠軍曾一鳴在用真人演唱迎戰AI作品《淚海》后，曾公開給出一個判斷：

“再過一段日子，各大平臺的排行榜，都會被AI音樂屠榜。”

這個判斷，比想象中來得更早。最近在網上沖浪時，相信不少人都刷過這樣的內容：大量“AI周杰倫”、“AI孫燕姿”等，翻唱著歌手本人從未演繹過的曲目，粉絲們無不驚呼。

說到AI歌曲，就不得不由酷狗阿波羅聲音實驗室獨立研發的AI虛擬歌手“大頭針”，目前已累計上線近2000首翻唱作品，單月最高聽眾達2517萬。在流媒體的數據對標上，這一量級已經逼近了周杰倫同期的月聽眾規模。

圖源：QQ音樂

與此同時，AI虛擬歌手正在從“純音頻Token”向著具備完整人格特質的“虛擬偶像”演進。今年1月，在北京亦莊拿到全國首個虛擬偶像身份證的“Yuri”，不僅在歌曲平臺上持續輸出，更深度滲透進公共文化活動中。在出道曲《Surreal》發布后，鳴潮、嵐圖汽車等品牌方的商業合作接踵而至，虛擬聲線商業變現上確實有可行性。

圖源：嵐圖汽車

這種現象正在全球蔓延。6月6日，特朗普發布AI單曲《人人都愛特朗普》，歌詞寫道：“不管我走到哪兒人人都愛特朗普，來到墨西哥，他們喜歡特朗普；去到意大利，他們喜歡特朗普……”。

秉持“絕知此事要躬行”的精神，雷科技（ID：leitech）決定獨自下場實測，嘗試制作一首《雷科技之歌》，然而，在經歷了長達數小時的重度死磕后，我們發現了AI音樂在底層機制上的硬傷。

AI寫歌，其實是一個“聾子”在用數學作曲

作為當前的AI音樂頂流，Suno和Udio基本撐起了行業的半壁江山。在實測開始前，我推測AI寫歌的邏輯與人類相似，是基于旋律和節奏的實時反饋進行增量修改。但當我真正嘗試生成《雷科技之歌》時，首輪測試就遭遇了跨模態對齊的邏輯翻車。

圖源：Suno.cn

問題出在歌詞的解讀上，為了全面測試AI對垂直專有名詞和中文多字句的駕馭能力，我通過GPT生成了一版歌詞，這個歌詞里面包含了大量的多字排比句，以及雷科技旗下的垂直IP矩陣，比如“微信、抖音、B站/ 看小雷聊數碼把硬件都拆穿 / 看軟硬結合的AI 怎么把體驗填滿”等等。

然而，算法吐出來的成品完全暴露了它對垂直名詞的理解缺失。AI將“小雷聊數碼”進行了生硬的截斷，在“小雷”后面出現了無意義的斷氣，隨即將“聊數碼把硬件”連在一起黏糊糊地唱了出來。這種不符合基本樂理和發音常識的低級錯位，在隨后的數十次抽卡中高頻出現。

圖源：Suno.cn

可見，AI音樂并沒有聽覺，它本質上是在用視覺大模型的邏輯去畫一張頻譜圖。

從底層架構來看，Suno或Udio的第一步是利用聲學編解碼器（Neural Audio Codecs），將連續的音頻信號切碎成每秒數百個微小的音頻切片，并將其轉化為離散的代碼，也就是音頻Token。

在模型內部，副歌的情緒和獨白的平鋪沒有高低之分，它們只是兩串不同概率分布的矩陣數據。

這依然是Transformer架構最擅長的概率預測游戲。大模型計算的是在當前的上下文環境下，前一秒的數字編碼后面接哪一個音頻Token的概率最高。當它通過自回歸模型算出一串數字序列后，再利用擴散模型進行去噪擬真，最終輸出音軌。

這種依賴統計學概率的拼圖邏輯，導致它建立的只是“字”與“發音編碼”的強綁定。它不具備真正的旋律邏輯，更不懂得中文詞組的語境語義，因此在處理稍微復雜的垂直詞組時，極易出現錯位斷句和轉音崩塌。

AI沒有風格，它只有大數據的“刻板印象”

在摸清了音頻Token化的底層機制后，我開始了第二輪測試。在歌詞的第三段，時間指針被拉到了2026年，里面的細節更加具象且充滿現場感：“飛過太平洋，奔赴不眠的內華達 / CES的展會現場，沒有大雪、只有風沙”。

為了襯托這種“創始人帶隊奔赴前線”的極客感，我試圖讓AI呈現出一種帶有前沿探索感、冷峻且宏大的科技電子流行風。但算法很快展現出了大數據二道販子的局限。

三十秒后，軟件吐出來的音頻具有極強的夜店土嗨感。大模型用一種缺乏情感起伏的DJ腔，機械地高喊著“沒有大雪、只有風沙”，配上劣質的重低音，活生生把一個科技報道團奔赴內華達沙漠的壯麗現場，唱成了土味夜店的喊麥神曲。

圖源：Suno.cn

這暴露了AI寫歌的另一個技術瓶頸：它不具備審美和風格的創新能力，它只有對大數據的刻板印象。

人類的風格創新往往來自于對既有規則的打破，而AI的算法邏輯恰恰相反，它永遠傾向于選擇全互聯網大數據統計下來概率最高、最穩妥的陳詞濫調。AI在抓取了全網被標記為“科技”的音樂樣本后，發現其中高頻出現的是廉價的電子合成器和重低音，于是它便將這些大數據的平均值進行打包和放大。

當遇到“內華達、CES、風沙”這種在傳統音樂庫里幾乎找不到對應模版的詞匯時，它的算法機制就會自動向下兼容，向著最平庸、最安全的“夜店風”墜落。

由于它是不可控的黑盒邏輯，在這個由概率支配的系統里，你只要微調一處提示詞，就會徹底塌陷并重新洗牌。

圖源：Suno.cn

為了強行糾正它，我只能放棄人類語言的宏觀描述，改用純粹的結構化思維進行對賭：將歌詞手動切碎，使用方括號標記極其嚴格的結構標簽，在“內華達”和“CES”之間手動加入標點符號強行糾正斷句，并利用“墊音（Extend）”功能，截取聽起來勉強及格的前30秒，再進行局部的增量續寫。

在消耗了上百個平臺積分、在海量無效音頻中進行人工篩選后，這首《雷科技之歌》終于被拼湊了出來。

坦白講，擴散模型賦予了最終成品極高的技術完成度，無論是高逼真的泛音還是均衡的混響，都具備了工業級的外殼。但這并非技術理解了音樂，而是高效率重組流水線的結果。

AI并沒有消滅音樂的藝術，它只是重構了音樂的工業基礎。

它能快速清洗掉低端市場的重復制作者，但由于受限于統計學平均值的底層邏輯，它很難越過概率去爆發屬于人類創作者的神來之筆。

成本幾乎可忽略，AI歌曲成營銷新手段

坦白來說，以上對于AI寫歌的吐槽有點吹毛求疵，當我們把目光從狹隘的藝術層面移開，站在行業和品牌營銷的角度來看，AI音樂在微觀細節上的這些硬傷，在商業效率面前其實并不重要。

《雷科技之歌》包括歌曲制作+MV生成，大概花了我56塊會員費（額度還沒用完），這點錢在營銷層面，幾乎可以忽略不計。

如果沒有AI，傳統的品牌營銷曲是一件高邊際成本的消費品。從邀請詞曲創作者、尋找歌手、再到進棚錄音及后期混音，一首合格的品牌主題曲往往需要數十萬的預算以及數月的制作周期。而AI音樂的出現，直接將生產成本與時間周期砸到了傳統行業的視線死死角之外。

這種幾乎為零的試錯成本，讓“即時內容營銷”真正具備了實操性。

例如特朗普的AI單曲，很惡搞，但從商業邏輯來看，它是一次極度精準的政治與情緒營銷。通過AI工具在幾分鐘內就能將政治口號、時事熱梗，以極低的成本將嚴肅議題轉化為流行符號。

圖源：X

這種玩法同樣可以復制到商業品牌上，比如，中午互聯網剛爆出一個熱梗，運營下午就能利用AI做出一首魔性洗腦的歌曲配合分發，這種快速響應的能力直接拉高了內容產出的效率。

還有一種對用戶的精細化運營。比如，新能源汽車在車主提車時，系統可以提取用戶的興趣標簽，現場在數秒內自動定制一首包含車主名字的專屬提車曲，直接推送到車機上。

一些平臺在進行年終盤點時，也能為海量用戶每個人生成一首專屬的生活足跡單曲。這種玩法在傳統音樂工業時代是無法計算投入產出比的，而現在它變成了極低成本的情緒價值。

寫在最后

在《雷科技之歌》最終拼湊完成時，我有種“總算湊出來了”的感覺，但這種如釋重負，本身就說明問題，AI能幫你交差，但交不出驚喜。它擅長把大數據的平均值打包成安全牌，卻寫不出深夜靈感迸發時那句讓人起雞皮疙瘩的歌詞。

未來的音樂創作，大概率會走向分層：神來之筆依然屬于人類，而標準化、即時響應的內容生產，交給算法就好。音樂不會死，只是創作的門檻和權力分配，正在被重新洗牌。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.