无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話ACE Studio:做AI音樂、月收入200萬美元,我們選了一條和Suno截然不同的路

0
分享至

內(nèi)容轉(zhuǎn)載自播客節(jié)目「Alphaist Partners」。Alphaist Partners 關(guān)注 AI、機器人和硬件領(lǐng)域的早期創(chuàng)業(yè)者。

過去一年,AI 音樂可能是生成式 AI 領(lǐng)域最出圈的 ToC 應(yīng)用賽道之一。Suno 剛剛完成了 2.5 億美金的融資,年化收入超過 2 億美金,吸引了千萬級用戶。

與 Suno 不同的是,AI 音樂平臺 ACE Studio 選擇了一條截然不同的路徑,從制作人、電影配樂者等專業(yè)用戶切入 AI 音樂市場,幫助他們更快速地把 idea 變成 release ready 的作品。

不到一年的時間,ACE Studio 實現(xiàn)了超千萬美元的 ARR。25 年 12 月初,2.0 版本上線,3 個月時間月收入翻了三倍,達到 200 萬美元。

近期,Alphaist Partners 合伙人陳哲(Peter)對話了 ACE 的創(chuàng)始人 Joe(郭靖),聊了聊 7 年艱難創(chuàng)業(yè)經(jīng)歷、如何在 Suno 這座「大山」的存在下成功打入 AI 音樂市場,以及他對于 AI 音樂的一些思考。

為了方便閱讀,F(xiàn)ounder Park 對原對話內(nèi)容進行了適當(dāng)調(diào)整。

??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的 AI 產(chǎn)品曝光渠道

01ACE Studio,更像是音樂人的「Cursor」

Peter:ACE Studio 跟 Suno 最大的區(qū)別是什么?

Joe:大家如果關(guān)注 AI 可能會想,Cursor 跟 Lovart 的區(qū)別是什么?Lovart 更偏向于一句話讓你一鍵生成你想要的項目,Cursor 更多的是一個 human in the loop 的 IDE,只不過被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新創(chuàng)造工作流、重新塑形創(chuàng)作環(huán)境的音樂人的 IDE。而 Suno 更偏向于一鍵生成的 model as a product,用戶輸入一個 prompt 就生成一首音樂,門檻很低,但很難編輯。

我們跟 Suno 正好反過來——先從 professionals 切入,用更好的對音樂創(chuàng)作工作流的理解去打造更好的模型、更好的專家反饋,再賦能 consumer 端。我們的模型也比 Suno 更輕、更快,可以在 3090 上幾秒鐘就能生成一首完整歌曲。今天世界上所有的 AI 音樂模型,開源和閉源的,都做不到我們這樣的速度,或者在同樣速度下有我們這樣的 quality。

Peter:在專業(yè)級市場,ACE Studio 發(fā)布之前其實并沒有什么競爭對手?

Joe:對,用 AI 的方式重塑專業(yè)音樂創(chuàng)作的工作流,這件事幾乎是我們首創(chuàng)的,目前也是我們比較領(lǐng)先的。

Peter:AI 在打破專業(yè)和非專業(yè)用戶之間的壁壘上,有哪些例子?

Joe:國內(nèi)有一個非常有名的頭部音樂教育機構(gòu)在用我們來教學(xué)。他的一個徒弟是三線城市的音樂老師,開了一個兩個月的培訓(xùn)班讓小朋友學(xué)會寫 prompt、生成歌曲。結(jié)果很神奇——他教的初中、高中小朋友在兩個月內(nèi)創(chuàng)作出非常有趣的歌曲。然后一個震撼的事情發(fā)生了——他把其中一些比較好的作品代理到版權(quán)公司放到流媒體平臺,其中一首歌在 QQ 音樂上連續(xù)好幾周是 number one,最終版權(quán)分成接近 500 萬人民幣。

你可以想象這個震撼的程度——一個高中小朋友跟媽媽說給我報個興趣班,399 塊錢,學(xué)了兩個月后拿了 500 萬人民幣回家。這個信號已經(jīng)非常強烈。一部分人還在懷疑 AI 是不是有靈魂,但另一部分 underdog 已經(jīng)在用 AI 做的音樂系統(tǒng)性地賺到很大的錢了。

這讓我們看到 AI 音樂可能甚至是一個大于音樂本身的事情,因為它會徹底讓人類幾千年來都長期需要的內(nèi)容模式真正實現(xiàn)普惠化。音樂是一個很獨特的東西,代表人類情緒的延伸。所有人都有情緒,每個人的情緒都不一樣,但不是所有人都有能力用音樂去表達。今天主流的現(xiàn)象是人們在別人的音樂上 echo 自己的情緒,用別人的歌作為情緒抒發(fā)的代餐。如果能真的讓你用自己的音樂去表達自己的情緒,是不是一個 ten times better 的事情?是不是一個更大的市場?

Peter:做一款專業(yè)工具,最大的門檻或者困難點是什么?

Joe:我們會發(fā)現(xiàn)一個很有趣的現(xiàn)象——如果你做 C 端產(chǎn)品,想象一下今天抖音把所有功能都干掉,沒有本地生活、沒有加好友、沒有點贊評論,只有上下滑和推薦算法,抖音可能短時間內(nèi) DAU 都不會下降,因為對于 C 端產(chǎn)品,主 use case 占用戶 90% 以上的注意力和價值。

但專業(yè)產(chǎn)品正好反過來。專業(yè)產(chǎn)品要盡可能覆蓋更多的 corner case,又 somehow 整合在一個優(yōu)雅的工作流里,這需要你對專業(yè)人士創(chuàng)作的工作流有非常深刻的理解。比如我們跟 Suno Studio 有一個巨大區(qū)別——Suno Studio 是網(wǎng)頁版產(chǎn)品,因為它從 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但網(wǎng)頁端產(chǎn)品有很多需求對專業(yè)用戶來講是滿足不了的,比如插件。專業(yè)創(chuàng)作者需要連接到自己的 workstation 里面,這個插件很難用網(wǎng)頁端實現(xiàn)。而 ACE Studio 雖然自己是獨立的 IDE,但同時也做了插件,可以橋接到傳統(tǒng)音樂創(chuàng)作者的 workstation 里面,讓他們可以無縫接入到已有 workflow 中。

在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我們也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同時我們有很多專家模型——可以輸入音符輸出高質(zhì)量的歌聲,輸入音符輸出高質(zhì)量的樂器。音符的語言是專業(yè)用戶經(jīng)常 speak 的語言,專業(yè)用戶最大的需求在于精準表達自己的想法。

不僅僅是質(zhì)量問題。今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?因為 AI 是一個相對黑盒的隨機事件,即使一個創(chuàng)作者把歌曲做好了,他如何保持自己獨特的個性化、獨特的風(fēng)格是很難的。

02AI 音樂,是最接近可直接消費的 AI 生成內(nèi)容

Peter:ACE Studio 作為專業(yè)級工具,對音樂的基礎(chǔ)單元——音符有完整的控制和創(chuàng)作能力,本質(zhì)上也是一種 human in the loop 的創(chuàng)作方法?

Joe:對。音符之于代碼確實是音樂底層邏輯和技術(shù)世界底層邏輯的對應(yīng)。我覺得未來音樂創(chuàng)作的顆粒度即使在專業(yè)工具之內(nèi)也會逐漸提升。為什么內(nèi)容持續(xù)有 human in the loop 的價值?因為內(nèi)容沒有標準答案,沒有 verifiable 的 reward。你喜歡什么、我喜歡什么,這很難通過確定一個目標來解決。比如搖滾樂剛被發(fā)明的時候,什么 AI 可以幫助發(fā)明搖滾樂這樣偉大的劃時代的音樂類型?沒有任何 AI 能做到,因為類型被發(fā)明之前訓(xùn)練數(shù)據(jù)里沒有這個類型,AI 無法學(xué)習(xí)。而一個類型剛被發(fā)明出來的時候,用戶對它的評價也是褒貶不一、有巨大爭議的,所以強化學(xué)習(xí)也沒辦法在早期獎勵一個真正革命性的發(fā)明。

End to end 的 AI approach 可以很好地讓人 involve 到內(nèi)容創(chuàng)作里邊,但很難幫助人真正探索出劃時代的、改變?nèi)祟惖膬?nèi)容形式。所以長期來講 end to end 跟 human in the loop 是結(jié)合的——end to end 可以快速讓人進入創(chuàng)作的心流,當(dāng)所有人都能幾秒鐘上手、創(chuàng)作質(zhì)量都差不多的時候,競爭的維度就變成誰能夠更可控地創(chuàng)造出自己想要表達的精確 idea、精確感覺,而不僅僅是比質(zhì)量。

Peter:所以,更獨特的、更有創(chuàng)造力的內(nèi)容一直是被獎勵和傳播的。

Joe:對。拿照相機來舉例——照相機出現(xiàn)之前,畫師最大的價值是把人畫得更真實。但照相機出來后,人們開始思考繪畫到底是什么、藝術(shù)到底是什么,開始出現(xiàn)現(xiàn)代主義、抽象主義。

Peter:你前邊提到,AI 音樂不只是效率工具升級,甚至有可能大于音樂本身。AI 音樂市場到底有多大?

Joe:這件事今天沒辦法算清楚,只能有一些定性判斷。當(dāng) AI 視頻出現(xiàn)時,所有人的想象都是每個人都可以做自己的電影——如果每個人能創(chuàng)造自己的電影,這個市場遠大于電影行業(yè)本身。但問題在于今天 AI video 離普通人可以消費的電影還有很大距離,因為電影有太多元素——鏡頭節(jié)奏、表演、劇情設(shè)計。

但你會發(fā)現(xiàn)今天 AI 音樂好像是最接近 AI 直出的內(nèi)容能夠直接讓終端消費者消費的。今天 AI 音樂的問題反而不是沒有供給,而是消費端的平臺在打壓這樣的供給——因為跟傳統(tǒng)既得利益產(chǎn)生了沖突。騰訊音樂也好、Spotify 也好,你上傳 AI 音樂它對你是歧視的,會貼上 AI 生成的標簽。但這個勢頭已經(jīng)擋不住了,AI 出來的大量作品已經(jīng)超過人類的效果,能夠批量產(chǎn)生 hit song、過億播放。

Peter:從終端消費者角度,大家并不在乎它是不是 AI 生成的?

Joe:對,消費者 always 是不在乎的。一個普通人去聽 AI 音樂平臺的 playlist,你很難區(qū)別它到底是 AI 的還是人類的。大家可以想想看這件事有多可怕——AI 直出的內(nèi)容已經(jīng)能直接讓消費者消費了,哪個領(lǐng)域今天接近這一點?

03自建專家模型矩陣,不止一個模型

Peter:Studio 2.0 發(fā)布三個月,你觀察的用戶是怎么使用和擁抱新一代產(chǎn)品的?

Joe:隨著我們給用戶在 Studio 2.0 里面開放的不同模型能力的多樣性和質(zhì)量提升,形成了一種明顯的涌現(xiàn)感——每一個能力是一個原子,用戶在這些原子中排列組合會產(chǎn)生出很多連我們自己都意想不到的 workflow。比如有人通過自己哼唱一個 idea,獲得大概的想法,然后通過我們的 vocal to MIDI 模型把哼唱變成樂譜,再把樂譜通過 AI instrument 變成小提琴的聲音,再通過 music enhancer 把音樂 idea 直接生成出品級的完整歌曲——整個 workflow 全部在 ACE Studio 里面完成。做出了好萊塢史詩級的弦樂配樂作品。

今天沒有一個 AI 工具能獨立達到這樣的效果。這里面不乏好萊塢的音樂制作人、格萊美獲獎?wù)哌@些行業(yè)頂端的人,他們也在用這樣的 workflow。

Peter:在模型能力方面展開介紹下?其他通用大模型公司有辦法復(fù)現(xiàn)或超越你們的模型能力嗎?

Joe:首先我們不止一個模型。剛才的 workflow 里就有旋律識別模型、樂器合成模型、基于音頻 prompt 的端到端音樂生成模型,還有跟 Suno 類似的輸入 prompt 直接生成音樂的模型、音頻分軌的模型、對音樂進行續(xù)寫或在下面加一個軌道的 stem generation 模型。

所有這些模型,理論上在一個產(chǎn)品公司里我們不應(yīng)該自己 train,但音樂領(lǐng)域第三方或開源模型很少,所以反而倒逼我們做成了自己 train 模型、自己擁有模型壁壘的產(chǎn)品公司,這是我們比較獨特的地方。大廠如果想做這件事,需要沉下心來在音樂產(chǎn)業(yè)里不斷理解和思考用戶需求,不斷構(gòu)建每一個專有模型,這些模型可能都需要專有的數(shù)據(jù)、專有的標注,是一個極耗時的成本。目前完全沒有可見的路徑是大模型會內(nèi)生地長出音樂創(chuàng)作能力,仍然需要調(diào)用外部的音樂創(chuàng)作模型。

Peter:訓(xùn)練自己一系列專用模型需要什么樣的數(shù)據(jù)?

Joe:千差萬別。比如我們的歌聲模型,數(shù)據(jù)就是在錄音棚里精致采集的專業(yè)歌手的錄音級數(shù)據(jù),由專業(yè)音樂家去標注,量級可能也就 1 萬小時左右。而端到端的音樂生成模型,可能就會用到上百萬小時甚至更多的完整音樂數(shù)據(jù)。我們通過版權(quán)公司買到音樂授權(quán),加上開源社區(qū)捐贈的數(shù)據(jù),通過內(nèi)部的合成數(shù)據(jù)生成管線再排列組合,最終達到了兩三千萬首、一兩百萬小時的數(shù)據(jù)集。

我們是用 Audio LLM 做預(yù)標注,然后用人來清洗數(shù)據(jù)、調(diào)出更精的標注,再去強化學(xué)習(xí)這個 Audio LLM 讓它更精準。那么問題來了——今天如果給你聽一段音樂,上面有個描述說"這是一個典型的 drum and bass 風(fēng)格的律動",普通人你是否能判斷這個標注是正確還是錯誤的?如果對一個沒有音樂 knowhow 的團隊來做這件事,就相當(dāng)于瞎子在做圖片生成的模型,很難評估。

04Flux 式商業(yè)模式:免費是漏斗,閉源是變現(xiàn)

Peter:2.0 產(chǎn)品發(fā)布以來,你們在用戶群跟用戶畫像上有什么變化?

Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我們發(fā)現(xiàn)引入更多端到端音樂生成模型后,"professional"的定義發(fā)生了一種彌散效果。原先我們認為的 professional 是 music producer——這些人可以啟動制作軟件,有各種硬核設(shè)備。但音樂制作人和懂音樂的人之間還有巨大的人數(shù) gap。比如音樂老師,全中國幾千萬的琴童,學(xué)琴、學(xué)唱歌、會彈吉他、業(yè)余時間玩樂隊,這些人我們理解都是今天的 new professionals,但他們并不都是 music producer。

在 ACE Studio 2.0 上我們看到大量這些跟音樂相關(guān)的人——他們懂一些音樂,會彈鋼琴,也把自己當(dāng)做 new professionals,已經(jīng)在認真創(chuàng)作音樂了。比如有一個在馬來西亞的用戶,他用 ACE Studio 做的歌已經(jīng)在跟劉德華的電影合作了,但他之前不是音樂制作人,也不會用傳統(tǒng)制作軟件,他只是一個從小喜歡唱歌、會彈琴、有很好音樂審美的人,就用 ACE Studio 做出了非常專業(yè)的作品。所以即使"專業(yè)"這個定義在 AI 加持下也在發(fā)生變化——當(dāng)更輕的門檻和更強大的能力出現(xiàn)時,哪些人是專業(yè)人士這個定義本身也在變化。

Peter:ACE Music 作為市場后進者,怎么跟 Suno 競爭?

Joe:很多 Suno-like 的產(chǎn)品其實很難殺出血路。因為 Suno 有全世界最好的模型,你的模型接近但差一點點,這很難構(gòu)建增長——用戶花一份錢,有更好的為什么要用差一點的?所以我想了很久。

短期的答案是開源和免費。Suno 今天是云端自持的封閉生態(tài),沒有第三方 API。如果跟用戶說"我們有個類似 Suno 的產(chǎn)品,模型比他差一點但便宜",用戶不會感興趣。但如果說"我們有一個跟 Suno 差不多的模型,完全免費,且你可以下載到自己電腦上在本地運行和訓(xùn)練,用自己的音樂把模型訓(xùn)練成你想要的樣子和審美"——這是一個巨大的賣點。所以我們把模型做得極快,在一張 3090 GPU 上 11 秒可以生成一首完整的音樂,在 A100 上兩秒就可以。端側(cè)的運行和訓(xùn)練成為了可能性,這是我們短期去跟 Suno 競爭、撕開口子的手段。

但長期來講開源只是手段,真正在戰(zhàn)略上有可能讓我們?nèi)俚牟皇情_源,而是開放生態(tài)。這就是為什么我說 ACE 是全球首個開放生態(tài)的 AI 音樂平臺——我們應(yīng)該不遺余力地利用這個世界上現(xiàn)存的所有音樂相關(guān)模型:我們自己的開源模型、別的開源模型、甚至閉源但可以提供 API 的音樂模型。比如 OpenAI 在做 AI 音樂模型,ElevenLabs 已經(jīng)做了,千問也在做,MiniMax 的音樂模型效果也非常好。

Suno 一直在走封閉生態(tài)的路線,它跟版權(quán)公司的和解造成了平臺上只允許它自己的模型存在。但你看任何一個領(lǐng)域,哪怕是資源集中度大到像大語言模型這樣的領(lǐng)域,今天都已經(jīng)出現(xiàn)了百花齊放的趨勢——開源跟閉源很接近,不同廠商的模型各有千秋,在此之上構(gòu)建 agent 的產(chǎn)品才能受到系統(tǒng)性賦能。我們想做的事情完全一樣:我們相信所有音樂模型加在一起肯定能打敗 Suno。

Peter:過去兩三年在 Studio 產(chǎn)品上的工作,對今天推出 Music 有什么直接幫助?

Joe:因為我們先從專業(yè)用戶切入,專業(yè)用戶在創(chuàng)作過程中給了很多對模型、對音樂質(zhì)量的反饋和洞見。就像 Midjourney 在強化學(xué)習(xí)過程中有一個 300 人的頂端 artist 用戶池,只用這些人的反饋來進行強化學(xué)習(xí),所以它能打造出全世界審美最好的圖片社區(qū)。同樣,ACE Studio 的切入點就是跟最頂級音樂人提供工具,這些人的反饋無論對模型還是對 feature 的建議,都幫助我們構(gòu)建更好的 AI 音樂平臺。

Peter:ACE Music 使用開源和免費模型的模式,靠什么賺錢?

Joe:我在開源這件事上研究了挺多,發(fā)現(xiàn)一個很有趣的現(xiàn)象——Flux 在圖片領(lǐng)域的開源上建構(gòu)了很好的商業(yè)模式。首先開源一個小模型,然后半開源一個中模型——效果更好也是開源但商用需要授權(quán)許可,再做一個閉源的大模型提供 API。小模型因為開源,大量開發(fā)者會替你傳播,在各種場景里構(gòu)建用戶習(xí)慣。當(dāng)用戶習(xí)慣和模型的聲量被構(gòu)建起來后,真正有付費能力的用戶不介意花更多錢使用更好的閉源版本。

在 ACE Music 上直接使用這一版模型還是免費的——這是漏斗最上層,讓更多人被 involve 進來、對這事情感興趣,最終形成付費轉(zhuǎn)化。

Peter:按照 Studio 現(xiàn)在的增長趨勢,今年全年可能做到 3000 萬美元的收入。現(xiàn)在 Studio 的毛利是什么情況?

Joe:推理成本很低,因為模型都是自建的,有很好的推理優(yōu)化框架——每掙 100 塊錢大概花五六塊錢做推理。營銷上大概花 20 塊錢,因為要持續(xù)找到用戶來 onboard,也是持續(xù)教育用戶的過程。年費是 200 美金,還有一檔 264 美金。我們還會賣兩年訂閱,因為這個領(lǐng)域用戶的消費習(xí)慣更傾向于買更長周期的產(chǎn)品。

Peter:專業(yè)市場天花板在什么高度?

Joe:24 年整個音樂專業(yè)市場的軟硬件售賣加在一起是 150 億美金,單說軟件將近 80 億美金——各種效果器、音源、插件,加在一起就干一件事:讓創(chuàng)作者最終創(chuàng)作出那個 3 分 45 秒的 MP3 音頻。而這個過程為什么需要這么復(fù)雜的工具鏈?比如今天用傳統(tǒng)數(shù)字音樂工作站,光環(huán)境 setup 對一個小白來講可能就花一周時間。這些所有東西加在一起一年能賣 150 億美金,ACE Studio 未來是否至少可以吃下這個市場的 10%、20%?這是我們看到專業(yè)市場的保底天花板。

05在創(chuàng)業(yè)最艱難時,看著 Suno 從 day one 做到了世界級水平

Peter:我們認識快 7 年了,從 19 年天使輪剛開始做 ACE 虛擬歌姬的時候就認識。這些年看到你經(jīng)歷了非常多,是什么讓你一直在做這件事情?

Joe:一種畫面感。從 day one 我就看到了——音樂不應(yīng)該是少數(shù)人壟斷的高級形式,而應(yīng)該是每一個人表達自己的方式,自古以來就是這樣。原始人在發(fā)明語言之前就已經(jīng)發(fā)明了音樂了,創(chuàng)作音樂本質(zhì)上就是自己情緒的表達,是根植在人的基因里的本能。

那是什么讓音樂創(chuàng)作變成高門檻的事情?不是音樂本身,而是技術(shù)發(fā)展的形態(tài)——以數(shù)字信號處理為基礎(chǔ)的技術(shù)底層建構(gòu)出來的軟硬件生態(tài),倒逼創(chuàng)作者必須先學(xué)幾年的音樂制作技術(shù)和樂理。如果能發(fā)明一種全新的方式,讓普通人把自己的情緒注入進去,創(chuàng)造出其他人也能欣賞和消費的音樂,這就是會徹底改變的正確的事情。這句話一直在我心里,從來沒有變過。

Peter:過往創(chuàng)業(yè)經(jīng)歷中有哪些特別痛苦或至暗的時刻?

Joe:我們在 22 年初完成了一筆融資,那時候整個 AIGC 的勢頭還沒有起來。我們有一段時間不夠 focus——也做過 agent 項目、聲音的語音生成、聲音陪伴。事后反思,我們做的所有其他決定本質(zhì)上都是在回避 AI 音樂這個核心問題——是否能用 AI 真正創(chuàng)作出可消費性的音樂。做到 22 年的時候我們已經(jīng)開始自我懷疑,因為一直做一直沒做出來。但那個時候恰恰是這件事情開始 work 的時候——22 年 Suno 第一個版本發(fā)布了。

但在那個過程中我們被太多東西分散精力,被牽扯在國內(nèi)一個相對井底之蛙的狀態(tài)里,技術(shù) vision 不夠豐富。我們既誤判了 Suno 訓(xùn)練的成本,又誤判了這件事的潛力——看著它一路從名不見經(jīng)傳慢慢一點點突破,變成今天這個樣子。那個時候?qū)ξ襾碇v極度痛苦——我看到公司有好幾個項目在同時做,每一個都很難 100% 投入。同時我反過來問自己到底相信什么,conviction 到底是什么,為什么在做這些事情。我發(fā)現(xiàn)它其實是一種恐懼或回避。

在 24 年初,我跟兩個合伙人第一次去美國參加一個音樂展,在飛機上討論了十幾個小時,得到一個結(jié)論——我們應(yīng)該把所有項目都砍掉,all in AI music。那個對話和決定非常重要也非常艱難,但做完之后坦白講從 24 年中開始我們才進入了增長軌道。

這是我最大的成長——可能出發(fā)過早、長期沒有技術(shù)變量、長期做不出 traction,從其他路徑找出路,但最終發(fā)現(xiàn)只是沒等到那個技術(shù)變量,而別人在你眼前把你的愿景、夢想做到了世界級水平。我們在 24 年才開始反應(yīng)過來要追趕模型,開始訓(xùn)練自己的音樂大模型。25 年初做了第一次開源,那個模型當(dāng)時是開源領(lǐng)域的 SOTA,但跟 Suno 最好的模型還有巨大差距。再到今天 26 年初我們第二版開源模型達到了很接近 Suno 的水平。

Peter:如果回到兩年前,你會對當(dāng)時的自己或者想做同樣事情的人有什么建議?

Joe:第一盡快出海,第二盡快跟世界上最優(yōu)秀、最前沿的一幫人混在一起。跟你的用戶、跟你的技術(shù)領(lǐng)先者離得越快越近越好。

06對于 AI 音樂來說,個性化才是最重要的競爭要素

Joe:今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?

Joe:比如像土搖滾 94 年紅磡那種風(fēng)格——竇唯、張楚、唐朝樂隊的那種感覺,今天用 AI 能生成嗎?生成不了。生成出來的東西可能過于完美和統(tǒng)一了,一個模型它最終會去擬合一個分布,但人類喜歡的東西的分布是極度多樣性的。

我前段時間刷 Instagram,看到一個很火的網(wǎng)紅歌手參加美國達人秀。他的歌是一個非常機器、有點 hiphop 的 beat,然后唱的就是說話一樣的念詞——非常尷尬地站在舞臺上說話,也不是激昂的 rap。但他在 Instagram 上有幾百萬粉絲,內(nèi)容在 Spotify 上銷量都非常好。這就是典型的個性化內(nèi)容,今天讓任何一個 AI 音樂模型不去進行專門的微調(diào)都很難生成出來。

所以我們想在基模型上構(gòu)建大量 Lora,每個人可以把自己的個性引入進來。長期來講 AI 賦能音樂一定走向 personalized,而不是所有人都統(tǒng)一聽 Suno 生成出來的那種全部很華麗的東西。

Peter:對于傳統(tǒng)音樂分發(fā)渠道,核心價值會不會因為 AI 音樂的普及而被顛覆?

Joe:一定會的。音樂流媒體平臺的巨大成本來自版權(quán),而這個版權(quán)是存量市場——人類的心智面積就這么多,占領(lǐng)了心智面積就可以持續(xù)產(chǎn)生收入。但這也意味著行業(yè)迭代更新相對緩慢、創(chuàng)新更難、普通人參與方式更少。AI 完全可以打破這一點——比如它可以讓老 IP 被重演。今天 AI Remix,你可以把任何一個名人的歌送進去模型 Remix 成你喜歡的樣子,消費音樂的方式已經(jīng)變了,創(chuàng)作也是一種消費了。傳統(tǒng)流媒體平臺要不要重新定義人跟音樂的交互方式?要不要重塑產(chǎn)品形態(tài)或商業(yè)模式?如果重塑了,是否會得罪已有的版權(quán)方?這就是老商業(yè)模式很難轉(zhuǎn)型的原因。

Peter:你自己會去涉及內(nèi)容分發(fā)環(huán)節(jié)嗎?

Joe:一定會的。ACE Music day one 就是一個創(chuàng)作跟消費的社區(qū),會逐漸跟 ACE Studio 打通。我們認為未來的 AI 音樂創(chuàng)作跟消費是一體化的,從 day one 就應(yīng)該做在一起。

Peter:對于 AI 音樂來說,長期來看最重要的競爭要素是什么?

Joe:我覺得是某種形式的用戶 IP 或用戶的個性化資產(chǎn)。比如聲音——我們聽了那么多歌,問周圍普通人最喜歡的音樂為什么喜歡,可能 90% 是關(guān)注歌手的演唱,聲音構(gòu)建了音樂一致性的個性或風(fēng)格。如何保有音樂里的個性化資產(chǎn)——保有聲音、vocal,持續(xù)創(chuàng)造統(tǒng)一唱腔、統(tǒng)一風(fēng)格的內(nèi)容,在互聯(lián)網(wǎng)上構(gòu)建長期 IP 和粉絲忠誠度——這件事長期來講肯定是最重要的競爭要素。

Peter:你們?yōu)槭裁催x擇在 LA 而不是硅谷?

Joe:首先市場在美國或歐洲,所以我們一定要跟市場離得更近。當(dāng)時在選灣區(qū)還是洛杉磯,其實就是靠近資本更多還是靠近用戶更多。對我們來講,靠近用戶這件事更本質(zhì)。洛杉磯是全球音樂制作的中心,格萊美在這里,我們所在的位置名字就叫 Studio City——大量的影視、音樂 studio 都在這。搬過來后在這個房子里接待用戶,很多格萊美獲獎?wù)叨家呀?jīng)接待了不下十次,他們過來坐坐聊一下,我們給他看新功能、問他使用體驗,大家非常近。

Peter:在 2026 年,對于 ACE 來說最重要的幾件事情是什么?

Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生態(tài)打通,變成一個統(tǒng)一的開放的 AI 音樂生產(chǎn)平臺——真正形成每個人都能創(chuàng)造出自己個性化音樂的產(chǎn)品,而不僅僅是所有人都創(chuàng)作統(tǒng)一的、好聽但沒有個性的音樂。

這里面有很多手段——比如用 agent 去創(chuàng)作音樂,用 agent 幫你 plan 創(chuàng)作 idea,到每一個環(huán)節(jié)應(yīng)該用什么模型去排列組合;比如模型的自主訓(xùn)練,每個人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音樂的多模態(tài)化——我們認為未來的音樂一定是視頻的,每個音樂都應(yīng)該有一個對應(yīng)的視頻,對已有視頻配上合理的音樂也是目前沒被解決的問題。

Peter:如果 ACE 成功了,10 年以后行業(yè)會是什么樣子?

Joe:AI 會徹頭徹尾地改變音樂產(chǎn)業(yè)——音樂如何被消費、如何被生產(chǎn)、如何在線下場景里跟人互動、你和偶像如何互動、如何社交——所有方方面面都會被 AI 全部重構(gòu)。如果 ACE 有幸成為這里面最重要的生態(tài)系統(tǒng),來接管音樂的產(chǎn)生、分發(fā)、消費甚至線下演藝,那么它將是一個至少幾千億美金以上的基礎(chǔ)設(shè)施。


轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
研究發(fā)現(xiàn):體質(zhì)好的人,一般有6個特征,能占4個,就很不錯

研究發(fā)現(xiàn):體質(zhì)好的人,一般有6個特征,能占4個,就很不錯

蜉蝣說
2026-05-19 21:58:27
生育率問題的罪魁禍首不是房價和經(jīng)濟 而是你手里拿著的這樣?xùn)|西

生育率問題的罪魁禍首不是房價和經(jīng)濟 而是你手里拿著的這樣?xùn)|西

新浪財經(jīng)
2026-05-17 14:34:05
錢大媽5年閉店約500家,創(chuàng)始人馮冀生套現(xiàn)超億元跑路

錢大媽5年閉店約500家,創(chuàng)始人馮冀生套現(xiàn)超億元跑路

財觀潮頭
2026-05-19 20:42:43
安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

安切洛蒂談世界杯:五個奪冠熱門,但沒有球隊是完美的

懂球帝
2026-05-19 09:42:40
華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

華為、騰訊、比亞迪等都等不及了!深圳高校2026集體“瘋狂上新”

深圳夢
2026-05-19 21:53:00
姚晨緊急刪文僅一天,不對勁一幕出現(xiàn),為什么圈內(nèi)好友無一人發(fā)聲

姚晨緊急刪文僅一天,不對勁一幕出現(xiàn),為什么圈內(nèi)好友無一人發(fā)聲

青杉依舊啊啊
2026-05-20 02:54:17
挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

挺進決賽!U17國足2比0完勝澳大利亞,將與日本隊爭冠!

足球報
2026-05-20 04:30:59
深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

深挖 | 夏奇拉:世界杯的“音樂符號”,人生比情歌更跌宕

新民周刊
2026-05-19 09:10:27
上海交大樊同學(xué)要哭死:學(xué)校終止她的儲才計劃,取消她校內(nèi)轉(zhuǎn)專業(yè)

上海交大樊同學(xué)要哭死:學(xué)校終止她的儲才計劃,取消她校內(nèi)轉(zhuǎn)專業(yè)

江山揮筆
2026-05-19 22:16:34
深夜,“烏龍指”再現(xiàn)?!

深夜,“烏龍指”再現(xiàn)?!

證券時報
2026-05-19 23:34:05
好消息!上調(diào)至3.67%

好消息!上調(diào)至3.67%

幸福肥東
2026-05-19 14:56:40
誰干的?以色列核彈頭儲存基地發(fā)生強烈爆炸!特朗普推遲打擊伊朗

誰干的?以色列核彈頭儲存基地發(fā)生強烈爆炸!特朗普推遲打擊伊朗

影孖看世界
2026-05-19 21:47:46
全民拒接陌生來電,我們正在經(jīng)歷,一場無聲的信任危機

全民拒接陌生來電,我們正在經(jīng)歷,一場無聲的信任危機

天天熱點見聞
2026-05-07 06:55:16
A股:中央兩部門剛剛發(fā)聲,釋放一信號,明日將迎來更大的變盤

A股:中央兩部門剛剛發(fā)聲,釋放一信號,明日將迎來更大的變盤

云鵬敘事
2026-05-20 00:00:05
還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

阿龍聊軍事
2026-05-17 21:08:17
熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

熱議海港勝成都:史上最弱海港做到了;成都主場失利是警醒

懂球帝
2026-05-19 23:11:08
蔡卓妍:全部都是假的

蔡卓妍:全部都是假的

最江陰
2026-05-19 15:05:17
郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網(wǎng)友吵翻天!

郎朗真有福!吉娜戛納紅毯開叉到大腿根,生圖曝光網(wǎng)友吵翻天!

動物奇奇怪怪
2026-05-20 04:29:55
果然!是華人而不是中國人統(tǒng)治了芯片,真夠扎心的…

果然!是華人而不是中國人統(tǒng)治了芯片,真夠扎心的…

慧翔百科
2026-05-19 08:34:16
怒增5700億!大行消費貸“殺瘋了”

怒增5700億!大行消費貸“殺瘋了”

柒財經(jīng)
2026-05-19 23:19:43
2026-05-20 05:19:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1217文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經(jīng)要聞

潔麗雅硬剛豪門內(nèi)斗傳言

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態(tài)度原創(chuàng)

親子
本地
游戲
健康
軍事航空

親子要聞

小汽車吃冰淇淋 #大型挖掘機挖土玩具

本地新聞

別搜晉江小說了,去看真的晉江

PS嚴重安全漏洞!大量賬號被盜 索尼官方依舊沉默

專家揭秘干細胞回輸?shù)陌踩L(fēng)險

軍事要聞

特朗普暫緩打擊伊朗 稱系應(yīng)中東三國請求

無障礙瀏覽 進入關(guān)懷版