文章開始之前,給大家聽一下我們用AI做的一首《雷科技之歌》。
初代《中國最強音》總冠軍曾一鳴在用真人演唱迎戰AI作品《淚海》后,曾公開給出一個判斷:
“再過一段日子,各大平臺的排行榜,都會被AI音樂屠榜。”
這個判斷,比想象中來得更早。最近在網上沖浪時,相信不少人都刷過這樣的內容:大量“AI周杰倫”、“AI孫燕姿”等,翻唱著歌手本人從未演繹過的曲目,粉絲們無不驚呼。
說到AI歌曲,就不得不由酷狗阿波羅聲音實驗室獨立研發的AI虛擬歌手“大頭針”,目前已累計上線近2000首翻唱作品,單月最高聽眾達2517萬。在流媒體的數據對標上,這一量級已經逼近了周杰倫同期的月聽眾規模。
![]()
圖源:QQ音樂
與此同時,AI虛擬歌手正在從“純音頻Token”向著具備完整人格特質的“虛擬偶像”演進。今年1月,在北京亦莊拿到全國首個虛擬偶像身份證的“Yuri”,不僅在歌曲平臺上持續輸出,更深度滲透進公共文化活動中。在出道曲《Surreal》發布后,鳴潮、嵐圖汽車等品牌方的商業合作接踵而至,虛擬聲線商業變現上確實有可行性。
![]()
圖源:嵐圖汽車
這種現象正在全球蔓延。6月6日,特朗普發布AI單曲《人人都愛特朗普》,歌詞寫道:“不管我走到哪兒 人人都愛特朗普,來到墨西哥,他們喜歡特朗普;去到意大利,他們喜歡特朗普……”。
秉持“絕知此事要躬行”的精神,雷科技(ID:leitech)決定獨自下場實測,嘗試制作一首《雷科技之歌》,然而,在經歷了長達數小時的重度死磕后,我們發現了AI音樂在底層機制上的硬傷。
AI寫歌,其實是一個“聾子”在用數學作曲
作為當前的AI音樂頂流,Suno和Udio基本撐起了行業的半壁江山。在實測開始前,我推測AI寫歌的邏輯與人類相似,是基于旋律和節奏的實時反饋進行增量修改。但當我真正嘗試生成《雷科技之歌》時,首輪測試就遭遇了跨模態對齊的邏輯翻車。
![]()
圖源:Suno.cn
問題出在歌詞的解讀上,為了全面測試AI對垂直專有名詞和中文多字句的駕馭能力,我通過GPT生成了一版歌詞,這個歌詞里面包含了大量的多字排比句,以及雷科技旗下的垂直IP矩陣,比如“微信、抖音、B站/ 看小雷聊數碼把硬件都拆穿 / 看軟硬結合的AI 怎么把體驗填滿”等等。
然而,算法吐出來的成品完全暴露了它對垂直名詞的理解缺失。AI將“小雷聊數碼”進行了生硬的截斷,在“小雷”后面出現了無意義的斷氣,隨即將“聊數碼把硬件”連在一起黏糊糊地唱了出來。這種不符合基本樂理和發音常識的低級錯位,在隨后的數十次抽卡中高頻出現。
![]()
圖源:Suno.cn
可見,AI音樂并沒有聽覺,它本質上是在用視覺大模型的邏輯去畫一張頻譜圖。
從底層架構來看,Suno或Udio的第一步是利用聲學編解碼器(Neural Audio Codecs),將連續的音頻信號切碎成每秒數百個微小的音頻切片,并將其轉化為離散的代碼,也就是音頻Token。
在模型內部,副歌的情緒和獨白的平鋪沒有高低之分,它們只是兩串不同概率分布的矩陣數據。
這依然是Transformer架構最擅長的概率預測游戲。大模型計算的是在當前的上下文環境下,前一秒的數字編碼后面接哪一個音頻Token的概率最高。當它通過自回歸模型算出一串數字序列后,再利用擴散模型進行去噪擬真,最終輸出音軌。
這種依賴統計學概率的拼圖邏輯,導致它建立的只是“字”與“發音編碼”的強綁定。它不具備真正的旋律邏輯,更不懂得中文詞組的語境語義,因此在處理稍微復雜的垂直詞組時,極易出現錯位斷句和轉音崩塌。
AI沒有風格,它只有大數據的“刻板印象”
在摸清了音頻Token化的底層機制后,我開始了第二輪測試。在歌詞的第三段,時間指針被拉到了2026年,里面的細節更加具象且充滿現場感:“飛過太平洋,奔赴不眠的內華達 / CES的展會現場,沒有大雪、只有風沙”。
為了襯托這種“創始人帶隊奔赴前線”的極客感,我試圖讓AI呈現出一種帶有前沿探索感、冷峻且宏大的科技電子流行風。但算法很快展現出了大數據二道販子的局限。
三十秒后,軟件吐出來的音頻具有極強的夜店土嗨感。大模型用一種缺乏情感起伏的DJ腔,機械地高喊著“沒有大雪、只有風沙”,配上劣質的重低音,活生生把一個科技報道團奔赴內華達沙漠的壯麗現場,唱成了土味夜店的喊麥神曲。
![]()
圖源:Suno.cn
這暴露了AI寫歌的另一個技術瓶頸:它不具備審美和風格的創新能力,它只有對大數據的刻板印象。
人類的風格創新往往來自于對既有規則的打破,而AI的算法邏輯恰恰相反,它永遠傾向于選擇全互聯網大數據統計下來概率最高、最穩妥的陳詞濫調。AI在抓取了全網被標記為“科技”的音樂樣本后,發現其中高頻出現的是廉價的電子合成器和重低音,于是它便將這些大數據的平均值進行打包和放大。
當遇到“內華達、CES、風沙”這種在傳統音樂庫里幾乎找不到對應模版的詞匯時,它的算法機制就會自動向下兼容,向著最平庸、最安全的“夜店風”墜落。
由于它是不可控的黑盒邏輯,在這個由概率支配的系統里,你只要微調一處提示詞,就會徹底塌陷并重新洗牌。
![]()
圖源:Suno.cn
為了強行糾正它,我只能放棄人類語言的宏觀描述,改用純粹的結構化思維進行對賭:將歌詞手動切碎,使用方括號標記極其嚴格的結構標簽,在“內華達”和“CES”之間手動加入標點符號強行糾正斷句,并利用“墊音(Extend)”功能,截取聽起來勉強及格的前30秒,再進行局部的增量續寫。
在消耗了上百個平臺積分、在海量無效音頻中進行人工篩選后,這首《雷科技之歌》終于被拼湊了出來。
坦白講,擴散模型賦予了最終成品極高的技術完成度,無論是高逼真的泛音還是均衡的混響,都具備了工業級的外殼。但這并非技術理解了音樂,而是高效率重組流水線的結果。
AI并沒有消滅音樂的藝術,它只是重構了音樂的工業基礎。
它能快速清洗掉低端市場的重復制作者,但由于受限于統計學平均值的底層邏輯,它很難越過概率去爆發屬于人類創作者的神來之筆。
成本幾乎可忽略,AI歌曲成營銷新手段
坦白來說,以上對于AI寫歌的吐槽有點吹毛求疵,當我們把目光從狹隘的藝術層面移開,站在行業和品牌營銷的角度來看,AI音樂在微觀細節上的這些硬傷,在商業效率面前其實并不重要。
《雷科技之歌》包括歌曲制作+MV生成,大概花了我56塊會員費(額度還沒用完),這點錢在營銷層面,幾乎可以忽略不計。
如果沒有AI,傳統的品牌營銷曲是一件高邊際成本的消費品。從邀請詞曲創作者、尋找歌手、再到進棚錄音及后期混音,一首合格的品牌主題曲往往需要數十萬的預算以及數月的制作周期。而AI音樂的出現,直接將生產成本與時間周期砸到了傳統行業的視線死死角之外。
這種幾乎為零的試錯成本,讓“即時內容營銷”真正具備了實操性。
例如特朗普的AI單曲,很惡搞,但從商業邏輯來看,它是一次極度精準的政治與情緒營銷。通過AI工具在幾分鐘內就能將政治口號、時事熱梗,以極低的成本將嚴肅議題轉化為流行符號。
![]()
圖源:X
這種玩法同樣可以復制到商業品牌上,比如,中午互聯網剛爆出一個熱梗,運營下午就能利用AI做出一首魔性洗腦的歌曲配合分發,這種快速響應的能力直接拉高了內容產出的效率。
還有一種對用戶的精細化運營。比如,新能源汽車在車主提車時,系統可以提取用戶的興趣標簽,現場在數秒內自動定制一首包含車主名字的專屬提車曲,直接推送到車機上。
一些平臺在進行年終盤點時,也能為海量用戶每個人生成一首專屬的生活足跡單曲。這種玩法在傳統音樂工業時代是無法計算投入產出比的,而現在它變成了極低成本的情緒價值。
寫在最后
在《雷科技之歌》最終拼湊完成時,我有種“總算湊出來了”的感覺,但這種如釋重負,本身就說明問題,AI能幫你交差,但交不出驚喜。它擅長把大數據的平均值打包成安全牌,卻寫不出深夜靈感迸發時那句讓人起雞皮疙瘩的歌詞。
未來的音樂創作,大概率會走向分層:神來之筆依然屬于人類,而標準化、即時響應的內容生產,交給算法就好。音樂不會死,只是創作的門檻和權力分配,正在被重新洗牌。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.