亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

在技術(shù)的快速變遷中,抓住那些“不變”的東西|對(duì)話兩位AI創(chuàng)業(yè)者

0
分享至

編輯/文杰

導(dǎo)語

從Next Token到Next State。

當(dāng)生成式AI已經(jīng)能畫出以假亂真的圖像、寫出流暢的劇本、甚至生成連貫的視頻片段,下一個(gè)問題浮出水面:為什么我們還沒有看到一款真正屬于AI時(shí)代的互動(dòng)娛樂產(chǎn)品?

技術(shù)要素似乎都已就位,但它們更像是散落一地的零件,尚未被組裝成一臺(tái)能跑起來的機(jī)器。整個(gè)行業(yè)更像是處在“盲人摸象”的階段,每個(gè)人都摸到了大象的一部分,但完整的圖景還沒有人真正看清。

最近405 游局請(qǐng)到的兩位嘉賓,恰好站在這頭大象的兩側(cè)。

戴勃,F(xiàn)eeling AI(云梧智能)創(chuàng)始人,香港大學(xué)助理教授。他從2014年讀博起就扎在生成式AI領(lǐng)域,博士就讀于香港中文大學(xué)MMLab,師從林達(dá)華教授,谷歌學(xué)術(shù)引用超過一萬次,近三年連續(xù)入選全球前2%頂尖科學(xué)家。他最廣為人知的工作是AnimateDiff——這個(gè)開源視頻生成模型一度席卷整個(gè)Stable Diffusion社區(qū)。2024年,他拒絕了多家大廠的邀約,選擇創(chuàng)辦Feeling AI,目標(biāo)是構(gòu)建世界模型的基礎(chǔ)設(shè)施,讓虛擬世界擁有:“活人感”。成立半年內(nèi),公司完成兩輪超億元融資。

胡修涵,捏Ta(看見概念)創(chuàng)始人。北大智能科學(xué)與經(jīng)濟(jì)學(xué)雙學(xué)位,哥倫比亞大學(xué)碩士,先后在Meta擔(dān)任短視頻技術(shù)架構(gòu)負(fù)責(zé)人、在阿里巴巴成為數(shù)據(jù)技術(shù)事業(yè)部最年輕的P8專家、在特贊從零搭建收入過億的產(chǎn)品線。2022年底,Stable Diffusion發(fā)布僅四個(gè)月,他就判斷“內(nèi)容的樂高變了”,隨即離職創(chuàng)業(yè)。捏Ta如今注冊(cè)用戶超1200萬,日均互動(dòng)時(shí)長(zhǎng)超110分鐘。2026年3月剛完成超千萬美元的Pre-A+輪融資。

兩人的淵源比商業(yè)敘事更早。他們是計(jì)算機(jī)競(jìng)賽時(shí)期的老友,而將他們?cè)俅芜B接起來的,是AnimateDiff——戴勃做出這個(gè)模型后第一時(shí)間發(fā)給修涵看,修涵的反應(yīng)是“我一直想要這個(gè)東西”。此后一個(gè)扎進(jìn)世界模型的底層架構(gòu),一個(gè)在應(yīng)用層構(gòu)建AI原生的創(chuàng)作社區(qū),路線不同,但指向同一個(gè)終局。

這場(chǎng)對(duì)話圍繞幾個(gè)核心問題展開:當(dāng)內(nèi)容的基本單元從像素演進(jìn)到概念,創(chuàng)作和消費(fèi)的邊界會(huì)如何重新劃定?AI原生的應(yīng)用為什么必須是“主動(dòng)的”和“實(shí)時(shí)的”,而不能是預(yù)生成再分發(fā)?世界模型到底該怎么理解——戴勃將其拆解為想法層、動(dòng)態(tài)層和靜態(tài)層的三層架構(gòu),而修涵更關(guān)注它能否成為一個(gè)有內(nèi)生動(dòng)力的持續(xù)系統(tǒng)。他們還深入討論了一個(gè)容易被忽視的區(qū)分:creation(專業(yè)創(chuàng)造)與recreation(大眾再創(chuàng)造/消遣式創(chuàng)作)。真正大眾化的UGC行為,本質(zhì)上更接近后者——對(duì)過程質(zhì)量要求高,對(duì)結(jié)果質(zhì)量要求不高,享受的是搭建本身的心流。

兩位創(chuàng)始人有一個(gè)共同的信念:最大的機(jī)會(huì)不是有人造出一個(gè)“綠洲”,而是有人提供造綠洲的積木。當(dāng)用戶能用概念而非代碼去搭建世界、定義規(guī)則、創(chuàng)造角色,互動(dòng)娛樂的形態(tài)將不再受限于今天的想象力,而只受限于技術(shù)力何時(shí)跟上。

以下為 405 游局與戴勃和胡修涵的對(duì)話,游戲茶館經(jīng)授權(quán)整理文字版本,內(nèi)容有所編輯。

01

內(nèi)容的積木正在被重新定義

“以前內(nèi)容的積木是像素,未來的積木是概念。當(dāng)概念和提示詞直接綁定的時(shí)候,就是積木層面上最核心的變化。”

筱寧:你們倆都偏技術(shù)背景,為什么這次創(chuàng)業(yè)都選了偏娛樂、偏內(nèi)容的方向?

修涵:我和戴勃一起搞過計(jì)算機(jī)競(jìng)賽,畢業(yè)后一直做產(chǎn)品項(xiàng)目,在Facebook這樣產(chǎn)品文化優(yōu)先的公司里,做過很多設(shè)計(jì)AB testing、增長(zhǎng)實(shí)驗(yàn)的事情,逐漸習(xí)慣從工程化和產(chǎn)品化的角度去思考技術(shù)創(chuàng)新帶來的影響。每一代AI技術(shù)變化,我的第一反應(yīng)都是怎么解決更確定的現(xiàn)實(shí)場(chǎng)景中的問題。

戴勃:我比較簡(jiǎn)單。小時(shí)候我媽給我買了一臺(tái)小霸王學(xué)習(xí)機(jī),從此對(duì)互動(dòng)內(nèi)容非常感興趣。讀博選方向時(shí)就想:能用自己做的技術(shù)去構(gòu)建互動(dòng)內(nèi)容,會(huì)是讓我自己很滿意的狀態(tài)。眼看著技術(shù)逐漸成熟,就覺得不妨自己親手去做,因?yàn)橹挥凶隽瞬拍苷业酱鸢浮?/p>

筱寧:你們當(dāng)時(shí)決定創(chuàng)業(yè)是看到了什么樣的信號(hào)?

修涵:我一直關(guān)注的是內(nèi)容的原子性,怎么解構(gòu)和重構(gòu),也在思考模型如何影響創(chuàng)作者的協(xié)作方式。當(dāng)然,不是從底層原理的技術(shù)角度,而是從它怎么影響人的協(xié)作,怎么影響創(chuàng)作者去做內(nèi)容的工程角度。

2022年7月看到Stable Diffusion的時(shí)候,甚至不需要等到大語言模型出現(xiàn),我就清晰地認(rèn)識(shí)到內(nèi)容的樂高已經(jīng)變了過去可能是一幀圖、一個(gè)圖層,甚至精確到像素;而未來的“積木”很可能是概念——某種視覺層面的概念。這是積木層面的核心變遷。我們?cè)谶@個(gè)過程中做了大量探索,也經(jīng)歷了 LoRA 等各種 building blocks 不斷演變的階段。

我覺得最近像 Nano Banana 和 Seedance 2.0 這類突破,已經(jīng)在逐步逼近“用概念就能構(gòu)建一個(gè)世界”的狀態(tài)。這是一個(gè)循序漸進(jìn)的理解過程。

筱寧:我們上次聊過,有些東西從頭到尾沒變,比如你最初對(duì)這件事的定義就是“GitHub + IP”。

修涵:我們思考內(nèi)容原子的變化,歷史上大概有三到四代:第一代以純像素為核心;第二代出現(xiàn)了模板、圖層、3D模型;第三代是Figma那一代的組件化;第四代就是現(xiàn)在以概念為核心的原子結(jié)構(gòu)。每一代都誕生了偉大的產(chǎn)品:第一、二代Photoshop,第三代Figma,第四代可能就在當(dāng)下。

越往深處看,這些積木越來越像代碼。而代碼的天然屬性決定了它可以實(shí)現(xiàn)GitHub式的協(xié)作。以前共創(chuàng)型的行為只有Wikipedia這種文字層面的協(xié)作,當(dāng)它跨越到視覺層面,就出現(xiàn)了核心模式變化的機(jī)會(huì)。其中被最多復(fù)用的積木就是IP的要素。

戴勃:我2014年讀博開始關(guān)注生成式AI,一路看著它走過來。2022年看到Stable Diffusion的成熟度之后,覺得技術(shù)到了一個(gè)臨界點(diǎn)。

2023年我們做了一個(gè)視頻生成的工作叫AnimateDiff,做出來后我第一時(shí)間發(fā)給修涵看,他直接跟我說“一直想要這個(gè)東西”。我們開源出去后,大概兩三個(gè)月整個(gè)Stable Diffusion社區(qū)都被吸引了。Reddit上至今還有專門的分區(qū),甚至現(xiàn)在有了Seedance,還是有人在用AnimateDiff做各種內(nèi)容。

這給我的啟發(fā)是:我好像也能掌握這種成熟的技術(shù)了。一開始我們傾向于通過合作的方式推進(jìn)——我做技術(shù),開源或合作。但23年下半年嘗試之后,整體感覺不夠快。AnimateDiff五月做完,七月發(fā)給修涵看,但真正產(chǎn)生熱度是在十月份,已經(jīng)過了三個(gè)月。你不親自做的話,進(jìn)展會(huì)很慢。

站在那個(gè)節(jié)點(diǎn)你會(huì)開始反問自己:這是運(yùn)氣,是偶然還是必然?最好的方式就是直接去面對(duì)需求,這樣才知道技術(shù)該往哪里加速迭代。所以我們決定自己下場(chǎng),把AI的基建做好。我們相信從這種基建能誕生更原生的應(yīng)用,而這需要用戶在過程中一起進(jìn)化想法。

02

AI原生應(yīng)用的特點(diǎn):

主動(dòng)、實(shí)時(shí)、在生成中消費(fèi)

“如果完全是預(yù)生成之后再分發(fā)的模式,我對(duì)它打敗抖音都沒什么信心。所以我非常支持‘在生成中消費(fèi)’?!?/strong>

筱寧:你們都說在做一種“新的東西”,具象一點(diǎn)說,從體驗(yàn)層面你們期待的遠(yuǎn)方是什么樣的?

戴勃:我說不出具體形態(tài),但可以說出它應(yīng)該具備的特點(diǎn)。生成式AI最大的特點(diǎn)是它的不確定性——在可控范圍內(nèi)的不確定性?!癆I”這個(gè)詞1956年誕生時(shí)就定義了它應(yīng)該具備creativity:能不能進(jìn)行educated guess?你有control,你是educated,但又有不確定性。

這種不確定性意味著AI原生的應(yīng)用一定要在推理時(shí)發(fā)生。不應(yīng)該是離線產(chǎn)生內(nèi)容然后你去消費(fèi),而是在實(shí)時(shí)交互的過程中,模型配合人進(jìn)行推理、產(chǎn)生內(nèi)容。

第二個(gè)特點(diǎn)是從被動(dòng)式變成主動(dòng)式。不是等你來操作,而是它會(huì)主動(dòng)給你反饋和刺激。所以新應(yīng)用最大的兩個(gè)特點(diǎn)就是:主動(dòng)無限實(shí)時(shí)。

修涵:從商業(yè)和需求的角度也推導(dǎo)到了類似方向。用戶在社區(qū)里看到別人的內(nèi)容更像是一個(gè)廣告片,他真正消費(fèi)的過程是他自己在生成的那一刻。

往遠(yuǎn)期推:長(zhǎng)期的終極形態(tài),某種意義上就是人類的共同幻想——虛擬空間,或者西部世界式的體驗(yàn)。但它會(huì)有一些傳統(tǒng)內(nèi)容難以覆蓋的角度,因此IP的作用會(huì)更強(qiáng),因?yàn)槊恳淮蝺?nèi)容都不固定,你需要一些不變的東西來幫助認(rèn)知,一個(gè)系統(tǒng)如果全都在變,等于沒法用。覆蓋的長(zhǎng)尾屬性會(huì)更強(qiáng)、個(gè)人屬性會(huì)更強(qiáng),因?yàn)橥ㄓ玫母哔|(zhì)量已經(jīng)被解決得很好了,接下來的問題是“不通用的高質(zhì)量”如何產(chǎn)出。供需關(guān)系會(huì)導(dǎo)致經(jīng)濟(jì)利益分配也往這個(gè)方向移動(dòng),通用的高質(zhì)量會(huì)貶值。

現(xiàn)在已經(jīng)能看到這種趨勢(shì)——很多平臺(tái)上AI生成的漂亮小姐姐跳舞視頻,雖然還有流量?jī)r(jià)值,但要帶貨已經(jīng)非常困難。這就是升值和貶值正在發(fā)生的過程。

筱寧:你們反復(fù)提到IP這個(gè)詞。在AI時(shí)代,IP應(yīng)該怎么理解?

修涵:AI時(shí)代的IP可能不是我們現(xiàn)在理解的商業(yè)意義上的IP。知識(shí)產(chǎn)權(quán)這個(gè)概念本身是隨著印刷業(yè)誕生的,本質(zhì)上是印刷業(yè)技術(shù)推演出來的制度。AI在一定程度上完全打破了“單件內(nèi)容生產(chǎn)需要付出人類勞動(dòng)”這個(gè)基礎(chǔ)假設(shè)。

我比較相信的本質(zhì)是:IP就是對(duì)某類內(nèi)容的共識(shí)。不管它是一個(gè)形象的共識(shí),還是某個(gè)故事環(huán)境的共識(shí),大家對(duì)這個(gè)東西有一個(gè)共同的認(rèn)知。有時(shí)候表現(xiàn)為MEME,有時(shí)候表現(xiàn)為某種梗。這些本質(zhì)上就是大家反復(fù)使用的“復(fù)讀機(jī)”,長(zhǎng)期來看都是某種意義上的IP。

03

Creation與Recreation,

UGC的真實(shí)邏輯與應(yīng)用層的機(jī)會(huì)

“要拆分清楚creation和recreation的區(qū)別。Recreation——消遣——是非常廣泛的UGC行為,對(duì)過程質(zhì)量要求很高,對(duì)結(jié)果質(zhì)量要求不高?!?/strong>

筱寧:我們這一代人被PGC內(nèi)容服務(wù)得非常好。那我們真的有那么多UGC需求嗎?如果消費(fèi)本質(zhì)依賴用戶自己參與生成過程,是不是拔高了對(duì)人的要求?

戴勃:回到修涵說的,真正的消費(fèi)過程發(fā)生在創(chuàng)作過程中,產(chǎn)出的內(nèi)容更像一個(gè)trailer。這個(gè)空間仍然存在,因?yàn)槊總€(gè)人都有表達(dá)的欲望。抖音通過相機(jī)記錄生活瞬間,就提供了UGC的途徑。

第二個(gè)問題,creativity有兩方面:有沒有動(dòng)機(jī),有沒有能力。生成式AI提供了能力。而為什么我強(qiáng)調(diào)應(yīng)用應(yīng)該是主動(dòng)式的?就是為了解決動(dòng)機(jī)問題。你會(huì)有靈感,但創(chuàng)作的過程不易,比如很多作家會(huì)說創(chuàng)作其實(shí)很痛苦。互動(dòng)式的創(chuàng)作模式讓你從小的靈感開始,慢慢保持熱度。生成式AI恰恰能回答這個(gè)悖論。

修涵:從另一個(gè)角度補(bǔ)充。這個(gè)播客的聽眾可能更多從游戲視角看問題,我們不否認(rèn)游戲行業(yè)整體主導(dǎo)的是PGC。但如果從廣義的娛樂型游玩體驗(yàn)來看,UGC無處不在。

服務(wù)型體驗(yàn)的特點(diǎn)是創(chuàng)作者要非常盡心盡力地為受眾做設(shè)計(jì),要求很高,所以必然收束在一小群人中。但很多UGC本質(zhì)上是悅己的,帶有社交性,本質(zhì)是表達(dá)自我。從抖音的濾鏡玩法,到線下織毛衣、做拼豆、搭樂高,都是先享受那個(gè)心流過程,然后幻想自己能做出很好的東西去展示。炫耀是派生的,但有這個(gè)幻想空間很重要。

沒聽說過誰去搞攝影是不希望自己拍出來的東西好的。但買了設(shè)備自娛自樂的人里,全部分享出來的可能也很少,但它依然構(gòu)成了一種很強(qiáng)的娛樂行為。

Recreation——初期不以純粹表達(dá)目的為核心的行為——對(duì)過程質(zhì)量要求很高,對(duì)結(jié)果質(zhì)量要求不高。有一個(gè)小圈子持續(xù)捧你,就很開心了。這符合長(zhǎng)尾效應(yīng)的內(nèi)容價(jià)值。而且內(nèi)容不存在絕對(duì)的UGC和絕對(duì)的PGC。你用一個(gè)抖音模板做完一個(gè)東西,模板很可能是PGC的,但最后的內(nèi)容是你的表達(dá)和模板共同構(gòu)成的——誰的貢獻(xiàn)更大,有時(shí)候拆不清楚。AI其實(shí)提供了一個(gè)通用的高質(zhì)量基線保證。

在此基礎(chǔ)上,任何娛樂方式長(zhǎng)期都會(huì)有四個(gè)關(guān)鍵要件:第一,角色——你自己的代表、你的POV;第二,環(huán)境和世界;第三,規(guī)則——對(duì)應(yīng)衍生的玩法規(guī)則;第四,交互方式。

大家現(xiàn)在總想找到一種不變的交互方式來做穩(wěn)定的平臺(tái)推演,但這個(gè)點(diǎn)被Vibe Coding很大地挑戰(zhàn)了。不太容易變的是世界和規(guī)則。角色最先容易成立,但用完丟的可能性也大;環(huán)境和規(guī)則比較容易持續(xù)存在,可以打造一系列的動(dòng)力系統(tǒng)。

這些東西可以做“Creative Harness”——怎么讓AI變成一匹可以被馴服的烈馬?它不被關(guān)在籠子里,仍然有驚喜,但又被你拴著往一個(gè)方向奔馳,給大家?guī)順啡ぁ?/p>

筱寧:如果視覺一致性攻克了,什么會(huì)被改寫?

戴勃:關(guān)鍵是實(shí)時(shí)推理能力。在長(zhǎng)時(shí)間推理穩(wěn)定性的基礎(chǔ)上,把單次推理的延時(shí)降到實(shí)時(shí),你就不再是在用一個(gè)工具,而是在一個(gè)完整的世界模型里和agent一起交互。某種意義上就像是《頭號(hào)玩家》里的綠洲。

筱寧:應(yīng)用層的最大機(jī)會(huì)在哪?頭號(hào)玩家里的綠洲也是有人造了一個(gè)綠洲嘛。

戴勃:最大的不是有個(gè)人造了綠洲,而是有人提供了造綠洲的積木。最終的綠洲是由一個(gè)個(gè)星球組成的,而每個(gè)星球是用戶自己創(chuàng)造的。因?yàn)橛辛朔e木的能力,他可以構(gòu)建不同的世界觀和規(guī)則。像修涵說的,樂趣來自于構(gòu)建的過程。構(gòu)建完成之后——甚至不用完成——就可以有無數(shù)人過來接著參與、共同構(gòu)建。出發(fā)點(diǎn)是有個(gè)人提供了空間和積木,讓你去搭。

修涵:我補(bǔ)充一點(diǎn),為什么長(zhǎng)期來看這個(gè)需求存在?人對(duì)環(huán)境的感受和體驗(yàn),本質(zhì)上也是在給自己的腦子建設(shè)對(duì)世界的理解。你無法真實(shí)理解從未親身經(jīng)歷過的東西。所以本質(zhì)上是提供多重的人生。

人的需求無非就是延長(zhǎng)壽命、增加體驗(yàn)時(shí)間、在單位時(shí)間內(nèi)增加更多體驗(yàn)——通過提供更多人生體驗(yàn)的基建方式,本身就是最大的機(jī)會(huì)。這些體驗(yàn)沒辦法完全通過別人來給你構(gòu)建好再提供給你——那在一定程度上是偽命題。

戴勃:很多時(shí)候人在現(xiàn)實(shí)世界里被束縛的就是“我要做選擇,只能選其中一條路”。世界模型就應(yīng)該能創(chuàng)造這種可能性。它本質(zhì)上和游戲是同一件事——“游”就是到處走走,“戲”就是這里碰一下那里碰一下去做交互。之前的游戲有一些部分是因?yàn)榧夹g(shù)力的限制變成了當(dāng)下的形態(tài),但這不是人的想象力的限制,而是技術(shù)力的限制。這一步應(yīng)該被解放。

修涵:我稍微反向debate一下?!坝螒蚴且粋€(gè)有約束的藝術(shù)”——從傳統(tǒng)有限游戲的角度,這非常成立,也是我特別尊重游戲行業(yè)的核心原因。我們很少說“用戶能直接做出游戲來”,因?yàn)槲覍?duì)狹義游戲的定義是非常尊重的。它是一種體驗(yàn)策劃——就像人一輩子可能只經(jīng)歷一次的婚禮,它能形成現(xiàn)在的規(guī)范和要求是很精妙的,不是隨手拍個(gè)腦袋給你一個(gè)體驗(yàn)就行了。

但體驗(yàn)單元是可以被拆解和工程化的。比如現(xiàn)在很多開放世界游戲,大家會(huì)說像個(gè)“縫合怪”,里面有很多玩法,甚至巴不得把看電影的體驗(yàn)也縫進(jìn)去。這就是一種以環(huán)境和世界為驅(qū)動(dòng)、在里面縫很多種玩法的趨勢(shì)。

但從把AI發(fā)揮好的角度來說,應(yīng)該從小往上長(zhǎng),而不是從專業(yè)體驗(yàn)往下拆小。因?yàn)閺膶I(yè)體驗(yàn)往下拆會(huì)限制AI的發(fā)揮。我時(shí)常說“從游戲的視角來看,資產(chǎn)不重總讓人覺得沒法尊重”。這個(gè)視角會(huì)導(dǎo)致從游戲往UGC拆的時(shí)候總有一種說不清的味道。

所以我們?cè)谙氲氖牵簭腁I原生視角出發(fā),它最好被構(gòu)造的小模塊是什么?不好被構(gòu)造的部分先讓人來做。UGC的真實(shí)解法,很多還是從更原生的、從小往上長(zhǎng)的邏輯中長(zhǎng)出來的。

04

世界模型,

從盲人摸象到三層架構(gòu)

“世界模型應(yīng)該有一種活人感?;钊烁芯褪撬鼤?huì)動(dòng)?!?/strong>

筱寧:如果我們想要實(shí)時(shí)性、推理能力、可控的創(chuàng)造性,今天距離實(shí)現(xiàn)差距在哪里?

修涵:要素的實(shí)現(xiàn)已經(jīng)有了,只是沒有被很好地整體解壓縮出來,給大家?guī)砗芎玫捏w驗(yàn)。并不是說你現(xiàn)在不能開始建角色、建面向AI的世界、建將來可以玩的規(guī)則——比如酒館類產(chǎn)品,就是在一定程度上建玩法規(guī)則為主;我們可能更多從角色到世界的角度去關(guān)注環(huán)境和視覺共識(shí)要素。只是如果模型的實(shí)時(shí)性、持續(xù)能力這些問題都很卡、成本很高,那建好的規(guī)則最終能覆蓋的體驗(yàn)變革還是有限的。

戴勃:現(xiàn)在的狀態(tài)給我的感覺是既很近又很遠(yuǎn)。要素都具備了,但是一種大水漫灌式的具備——每個(gè)方向都有涉及,意味著你可以開始進(jìn)行要素的組合。修涵說的沉淀世界觀和規(guī)則,這些沉淀不會(huì)因?yàn)榧夹g(shù)的進(jìn)化而從頭再來。

但技術(shù)在深度、廣度和維度三個(gè)方面都有所欠缺。深度——比如酒館場(chǎng)景,劇情復(fù)雜度或演繹長(zhǎng)度拉長(zhǎng)后就開始出問題。廣度——各種類型中始終有擅長(zhǎng)和不擅長(zhǎng)的區(qū)分。維度——文字式的、語言為主的,要素更齊全;但更視覺化、更立體的世界模型方向還很缺乏。

總體來說,大家可以拿這種“不是零”的狀態(tài)去組合,但真的要往終局走,起碼從技術(shù)上還是要靜下心來思考技術(shù)審美,然后以比較快的速度持續(xù)推進(jìn)。

筱寧:你們是怎么理解“世界模型”這個(gè)概念的?

戴勃:現(xiàn)在講世界模型的人很多,用一個(gè)成語來形容最合適:盲人摸象。不同的人因?yàn)椴煌膽?yīng)用場(chǎng)景和背景,摸到了大象的不同部分。

我自己的理解很簡(jiǎn)單:它就是一個(gè)類似于元宇宙的游戲,現(xiàn)實(shí)世界有的元素它都應(yīng)該具備,我們把它拆成三層。

第一層:邏輯/想法層——每個(gè)動(dòng)態(tài)實(shí)體的想法:我為什么要進(jìn)行這些活動(dòng)?

第二層:動(dòng)態(tài)層——我有了想法之后,怎么把想法執(zhí)行出來。

第三層:靜態(tài)/表現(xiàn)層——把動(dòng)態(tài)的行動(dòng)裝載到一個(gè)環(huán)境里呈現(xiàn)出來。不管這個(gè)環(huán)境是傳統(tǒng)游戲引擎構(gòu)建的3D環(huán)境,還是AI構(gòu)建的3D環(huán)境——比如李飛飛老師的World Lab,還是以谷歌Genie 3為代表的視頻類環(huán)境。

不同的人根據(jù)場(chǎng)景,可能不需要把三層都做好。但一個(gè)真正的世界模型,就是你能不能把現(xiàn)實(shí)一一對(duì)應(yīng),它是活著的,動(dòng)態(tài)實(shí)體都有自己的想法和規(guī)劃。

修涵:我希望它至少是一個(gè)持續(xù)的、有自己內(nèi)生動(dòng)力的系統(tǒng)?,F(xiàn)在的問題是,你一個(gè)角色去到多個(gè)場(chǎng)景,中間是斷層的;或者它不主動(dòng),你不推就不動(dòng)。而人的現(xiàn)實(shí)世界和線下體驗(yàn),很多都是靠世界環(huán)境本身幫你實(shí)現(xiàn)目的。只要能解決持續(xù)性和主動(dòng)性的問題,我們之前對(duì)優(yōu)質(zhì)內(nèi)容的很多假設(shè)其實(shí)都可以改。

筱寧:視覺模型訓(xùn)練上,是不是面臨和語言模型很不一樣的挑戰(zhàn)?

戴勃:語言模型的范式是next token prediction,世界模型強(qiáng)調(diào)的是next state prediction。其實(shí)語言模型也可以在語言domain里實(shí)現(xiàn)世界模型——你用文字維護(hù)世界的state。這也是為什么代碼能力很重要:它提供了一種恒定、穩(wěn)定、一致的方式來檢查模型的思考過程和邏輯準(zhǔn)確性。如果是純自然語言描述,你會(huì)陷入“它到底是真不懂,還是沒說清楚”的困境。

視覺內(nèi)容還需要一致性——但不是邏輯的一致性,而是符合物理直覺的一致性。我想強(qiáng)調(diào):從應(yīng)用角度,我們要的不是“物理一致性”,而是“物理直覺一致性”。人不會(huì)去計(jì)算視覺內(nèi)容背后的物理規(guī)律是否一致,只要不違和,我們就覺得它符合物理直覺。

筱寧:對(duì)做互動(dòng)娛樂來說,視覺這塊需要攻克的難點(diǎn)在哪?

戴勃:傳統(tǒng)的方式是用游戲引擎構(gòu)建世界內(nèi)容。游戲引擎嵌入物理規(guī)律的方式比較“硬核”——傳統(tǒng)仿真學(xué),把公式真的寫在里面進(jìn)行計(jì)算。而神經(jīng)網(wǎng)絡(luò)只告訴它輸入和輸出,中間怎么從輸入到輸出完全是自己學(xué)的,沒有任何規(guī)律或公式的guidance,非常“軟”。但這樣帶來的問題是它會(huì)走捷徑,你無法判斷它總結(jié)的規(guī)律跟你想要的規(guī)律是否一致。

所以現(xiàn)在需要攻克的問題就是:如何把兩者的優(yōu)勢(shì)融合?既有“軟”的靈活性,又有“硬”的保證。只有這樣才能實(shí)現(xiàn)長(zhǎng)時(shí)間視覺內(nèi)容上的一致性。

從視覺內(nèi)容的結(jié)構(gòu)上來說,模型應(yīng)該知道自己在表達(dá)什么。不是“這個(gè)像素現(xiàn)在是什么顏色、下一刻應(yīng)該連續(xù)變化”,而是知道“這個(gè)像素屬于一個(gè)人的手,下一刻是整個(gè)手在變化,然后投影到像素上應(yīng)該怎么變化”。有了這種更符合現(xiàn)實(shí)結(jié)構(gòu)的認(rèn)知,就能從根本上解決幻覺問題,幻覺本質(zhì)上來自于模型不知道自己生成的像素是什么意思。

筱寧:你們最近開源的模型著重解決記憶和規(guī)劃,為什么?

戴勃:我們是三層同步演進(jìn)的——想法層、動(dòng)態(tài)層和靜態(tài)層。甚至中間的動(dòng)態(tài)層,我們?cè)跇?gòu)建動(dòng)力學(xué)世界模型,剛好完成了模型架構(gòu)的創(chuàng)新。打個(gè)比方——就好像Transformer架構(gòu)已經(jīng)確定了,剩下的就是從GPT-1到GPT-2到GPT-3的過程。

三層同步演進(jìn),每層有自己的技術(shù)成熟度和節(jié)奏。想法層因?yàn)橹悄荏w相關(guān)技術(shù)發(fā)展快、成熟好,節(jié)奏就快一些。動(dòng)態(tài)層我們覺得非常重要,又是大家目前忽略的部分,它掩蓋在具身智能的浪潮里,但對(duì)互動(dòng)娛樂同樣關(guān)鍵。

筱寧:“動(dòng)力學(xué)世界模型”怎么理解?

戴勃:動(dòng)態(tài)作為世界狀態(tài)的一部分需要遵循物理規(guī)律。人在現(xiàn)實(shí)中總結(jié)出來的動(dòng)態(tài)物理規(guī)律統(tǒng)稱為動(dòng)力學(xué):人的運(yùn)動(dòng)學(xué)、衣服的動(dòng)力學(xué)、流體動(dòng)力學(xué)、空氣動(dòng)力學(xué)等等。我們做的就是把動(dòng)力學(xué)的物理先驗(yàn)嵌入到Transformer架構(gòu)上,使得next state prediction能非常穩(wěn)定。

筱寧:為什么動(dòng)態(tài)層在交互娛樂場(chǎng)景里特別重要?

戴勃:一個(gè)靜態(tài)的環(huán)境談不上交互。沒有動(dòng)態(tài)的空間、動(dòng)態(tài)的載體,就談不上主動(dòng)和交互。靜態(tài)的東西你只能單方面參與,它沒有反饋。只有動(dòng)態(tài)才會(huì)給你反饋,你才會(huì)在反饋中產(chǎn)生新的可能性,不斷生長(zhǎng)出更龐大的體驗(yàn)和內(nèi)容。

白話來講:世界模型應(yīng)該有一種活人感?;钊烁芯褪撬鼤?huì)動(dòng),一動(dòng)不動(dòng)還挺嚇人的。

筱寧:視頻天然就是動(dòng)的。你特別把動(dòng)態(tài)拿出來強(qiáng)調(diào),想說的是什么?

戴勃:視頻確實(shí)是動(dòng)的,但像素上的連續(xù)不代表背后的規(guī)律是一致的——所以才會(huì)出現(xiàn)錯(cuò)誤累積和幻覺。要么用更多數(shù)據(jù)逼模型自己學(xué)會(huì)一套統(tǒng)一的物理規(guī)律,要么把人在現(xiàn)實(shí)中積累的物理規(guī)律當(dāng)先驗(yàn)嵌到模型里。兩種都可以。

另外,視頻生成是把靜態(tài)環(huán)境的表現(xiàn)和動(dòng)態(tài)用一個(gè)模型放在一起建模了。我認(rèn)為應(yīng)該分開。一個(gè)直觀的例子:我們坐在房間里,我揮了一下手,從合理的角度,只有人相關(guān)的狀態(tài)進(jìn)行了更新,環(huán)境不應(yīng)該跟著我一起刷新。就像游戲里角色往前走一步,整個(gè)環(huán)境重新生成一遍,這不合理。

05

高估與低估,

創(chuàng)業(yè)者如何穿越技術(shù)周期

“慢的時(shí)候公司其實(shí)挺難死的,快的時(shí)候公司很容易死。很多人有錯(cuò)覺,覺得快的時(shí)候機(jī)會(huì)來了?!?/strong>

筱寧:你們?cè)趺磪^(qū)分一件事到底只是技術(shù)看起來很強(qiáng),還是真的能長(zhǎng)出新東西?

戴勃:我們會(huì)從客觀的定性原理上去分析一個(gè)技術(shù)——拋開名詞,看它突破的那個(gè)點(diǎn)到底是什么。

什么容易被高估?一是迭代速度,二是人的適應(yīng)能力。人很難想象自己沒經(jīng)歷過的事情。即使是做這些技術(shù)的人也有局限——AnimateDiff做出來后,最后能用它做出很好內(nèi)容的人不一定是我們自己。所以我一直比較克制,不太想去定義世界模型原生的應(yīng)用到底是什么。

修涵:從技術(shù)視角容易高估應(yīng)用落地的速度,低估用戶心智的變化成本。過去幾年最容易犯的錯(cuò)誤是過于追求終局。底層成立條件如果不存在,就是過去“純產(chǎn)品經(jīng)理視角做AI產(chǎn)品”比較困難的核心原因——結(jié)果要么體驗(yàn)不可持續(xù),新鮮勁一過就完了;要么單點(diǎn)的東西不夠驚喜。這兩層一直在對(duì)抗。

筱寧:AI底層技術(shù)的發(fā)展速率一直在變——23年上半年很快,24年相對(duì)靜態(tài),最近半年又特別快。你更喜歡哪種時(shí)候?

修涵:都各有挑戰(zhàn)。核心問題是:慢的時(shí)候思考公司在積累什么,快的時(shí)候知道那些積累怎么立刻和快速變化發(fā)生關(guān)系,這樣快的時(shí)候才不會(huì)慌亂。

另一個(gè)悖論是:慢的時(shí)候公司其實(shí)挺難死的,快的時(shí)候公司很容易死。很多人有錯(cuò)覺,覺得快的時(shí)候機(jī)會(huì)來了。

筱寧:如果面對(duì)一個(gè)爆炸性的新技術(shù),你們的第一反應(yīng)是什么?

戴勃:第一時(shí)間溯源:它從哪演化來的,有什么不同,為什么引起轟動(dòng)。在我的視野范圍內(nèi),不太會(huì)有從天而降的新技術(shù)的感覺。重要的是兩層:第一,拋開噪聲,了解變化的實(shí)質(zhì);第二,反?。簽槭裁床皇俏易龀鲞@個(gè)變化的?長(zhǎng)此以往才能變成引領(lǐng)者。

修涵:我們的第一反應(yīng)是趕緊實(shí)驗(yàn),看到底是什么水平,現(xiàn)在論文的cherry pick太多了。越過判斷之后,關(guān)注的是它是否改變用戶主鏈路的體驗(yàn)。很多技術(shù)是錦上添花,主鏈路上能影響的事情不會(huì)那么多。一個(gè)核心標(biāo)準(zhǔn):用戶愿不愿意回來再多消耗token。如果對(duì)用戶核心loop有更大的提升和變化,那它就是一個(gè)非常需要把握住的變化。

筱寧:你們最近聊得挺多的,聊最多的話題是什么?

戴勃:一個(gè)是技術(shù)進(jìn)展還是太慢了。

尤其是視覺內(nèi)容這一塊。雖然視頻生成模型進(jìn)展得很好,但在關(guān)鍵維度上還是太慢了——它并不是完全為互動(dòng)娛樂方向在推進(jìn),有其他牽引力量。第二個(gè)就是探討:哪些技術(shù)是熱鬧,哪些是真東西。我們更多是希望,既然技術(shù)正在盲人摸象的階段,而我們?cè)趹?yīng)用場(chǎng)景上有一些共同的vision。

筱寧:在這種環(huán)境里做應(yīng)用方向的創(chuàng)業(yè),對(duì)創(chuàng)始人最重要的能力是什么?

修涵:從自身角度出發(fā),我覺得我們靠韌性做事。我總覺得不同的方式都能做出階段性成果,有些人沖浪,有些人爬山。更關(guān)鍵的是對(duì)自己的認(rèn)知要清楚,了解自己、了解團(tuán)隊(duì),不要強(qiáng)迫干自己不適合干的事。如果提出過高的預(yù)期,團(tuán)隊(duì)就很難發(fā)揮出最強(qiáng)長(zhǎng)項(xiàng),做出超出其他人水平的成果。

戴勃:拋開EGO,客觀看待技術(shù)演進(jìn),從第一性原理出發(fā)推演終局的架構(gòu)和元素,然后結(jié)合團(tuán)隊(duì)的擅長(zhǎng),選一條梯度下降最快的方向往前走。尤其要避免做技術(shù)帶來的EGO。

筱寧:未來兩到三年,你們最想達(dá)成什么?

修涵:我們?cè)谥饾u構(gòu)造“共同搭世界”的工作體系,人和agent協(xié)作參與。接下來兩三年最核心的問題是:能否出現(xiàn)質(zhì)量上真正足夠高的體驗(yàn)——在消費(fèi)屬性上能和其他消費(fèi)類型公平競(jìng)爭(zhēng)的體驗(yàn)?只要出現(xiàn)頭幾個(gè)這樣的模式,它的系統(tǒng)性效率就能做到更好,之后就很難剎住車了。

所以我們本質(zhì)上在解決冷啟動(dòng)的機(jī)制——定義的問題,或者說協(xié)議的問題。接下來可能圍繞海外做更多實(shí)驗(yàn),最終的爆發(fā)力會(huì)體現(xiàn)在這些組合之后帶來的涌現(xiàn)結(jié)果上。

筱寧:最近一年,商業(yè)化會(huì)是壓力和挑戰(zhàn)嗎?

修涵:既有好消息也有壞消息。好消息是:互動(dòng)型玩法的付費(fèi)意愿和付費(fèi)率在全球范圍內(nèi)都比預(yù)估的更好。壞消息是:token的成本和新模型的價(jià)格并沒有變便宜,成本壓力會(huì)持續(xù)存在。所以我現(xiàn)在傾向于盡可能用最好的能力上限,但不要把自己玩死。收入會(huì)隨過程自然增長(zhǎng),可能比大家想的更自然。

戴勃:兩三年內(nèi)我們會(huì)持續(xù)按照三層結(jié)構(gòu)構(gòu)建世界模型基模,在此基礎(chǔ)上探討原生應(yīng)用——整個(gè)技術(shù)版圖想得挺清楚的。我們也會(huì)很關(guān)注agentic AI的發(fā)展——它一方面是世界模型想法層的組成部分,同時(shí)也是一種生產(chǎn)力。如果它真的能提升效率,很多事情的時(shí)間會(huì)來得更早??赡軆赡曛髸?huì)有點(diǎn)久,AI領(lǐng)域的兩年非常非常久。

筱寧:你們是要自己做應(yīng)用的,不會(huì)滿足于只做模型?

戴勃:一定要把自己的認(rèn)知在應(yīng)用層打磨。遠(yuǎn)離應(yīng)用場(chǎng)景會(huì)讓技術(shù)迭代偏離;而且我們講的是像語言模型承載ChatGPT那樣、世界模型承載的原生應(yīng)用——從模型到應(yīng)用之間距離不會(huì)那么大。

筱寧:這個(gè)應(yīng)用形態(tài)會(huì)是工具還是內(nèi)容?

戴勃:肯定不是工具,是一種互動(dòng)娛樂的應(yīng)用,也不是傳統(tǒng)意義的內(nèi)容——用戶一進(jìn)來就同時(shí)在做內(nèi)容消費(fèi)和內(nèi)容創(chuàng)作。

筱寧:可以理解為是一個(gè)平臺(tái)嗎?

戴勃:我覺得是平臺(tái),但現(xiàn)在會(huì)比較謹(jǐn)慎地去描述它。就像ChatGPT——當(dāng)模型成熟之后,它很快變成一種共識(shí)。所以我現(xiàn)在不太想用現(xiàn)有的詞匯去定義它。


? “發(fā)送“社群”加入游戲茶館行業(yè)交流群”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷霆首輪對(duì)手四選一:誰最好打誰最難啃

雷霆首輪對(duì)手四選一:誰最好打誰最難啃

體育硬核說
2026-04-16 08:52:29
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
怎么又裝上了?朝鮮人民軍海軍“崔賢”號(hào)裝了一大堆雙聯(lián)裝高射機(jī)槍,這到底是要干啥?

怎么又裝上了?朝鮮人民軍海軍“崔賢”號(hào)裝了一大堆雙聯(lián)裝高射機(jī)槍,這到底是要干啥?

軍武速遞
2026-04-15 19:29:40
南華寺百歲高僧:人死后基本都投身畜生道,活人進(jìn)入輪回永不超生

南華寺百歲高僧:人死后基本都投身畜生道,活人進(jìn)入輪回永不超生

紙鳶奇譚
2025-01-17 14:30:03
格林:這是場(chǎng)本該贏下的比賽 輸球后大家都很憤怒

格林:這是場(chǎng)本該贏下的比賽 輸球后大家都很憤怒

北青網(wǎng)-北京青年報(bào)
2026-04-15 21:32:04
粉底液將軍卸妝了!路人拍到純素顏的張凌赫!差別太大了吧!

粉底液將軍卸妝了!路人拍到純素顏的張凌赫!差別太大了吧!

一盅情懷
2026-04-15 17:05:43
大快人心!許家印結(jié)局已定,3個(gè)女人被他連累,才懂白珊珊有多冤

大快人心!許家印結(jié)局已定,3個(gè)女人被他連累,才懂白珊珊有多冤

一盅情懷
2026-04-15 15:54:29
美民調(diào):對(duì)中國(guó)持正面看法的美國(guó)民眾,3年來“幾乎翻了一倍”

美民調(diào):對(duì)中國(guó)持正面看法的美國(guó)民眾,3年來“幾乎翻了一倍”

環(huán)球網(wǎng)資訊
2026-04-16 07:03:08
NBA緊急復(fù)核爭(zhēng)議判罰:附加賽前夜的規(guī)則博弈

NBA緊急復(fù)核爭(zhēng)議判罰:附加賽前夜的規(guī)則博弈

熱血體育社
2026-04-16 09:15:00
去年全球消失12家航空公司,中國(guó)4家上榜

去年全球消失12家航空公司,中國(guó)4家上榜

新浪財(cái)經(jīng)
2026-04-16 01:16:08
小鵬GX開啟預(yù)售,預(yù)售價(jià)39.98萬元

小鵬GX開啟預(yù)售,預(yù)售價(jià)39.98萬元

財(cái)聞
2026-04-15 20:48:22
中國(guó)空中炮艇疑似現(xiàn)身,鎖定低烈度戰(zhàn)場(chǎng)!

中國(guó)空中炮艇疑似現(xiàn)身,鎖定低烈度戰(zhàn)場(chǎng)!

楊風(fēng)
2026-04-14 21:59:39
斯波直言三球該被驅(qū)逐!鮑爾準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

斯波直言三球該被驅(qū)逐!鮑爾準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

顏小白的籃球夢(mèng)
2026-04-15 11:00:09
中日航線全部停擺后,高市終于服了軟,將得罪中國(guó)的犯人投入大牢

中日航線全部停擺后,高市終于服了軟,將得罪中國(guó)的犯人投入大牢

音樂時(shí)光的娛樂
2026-04-15 19:53:04
不出3年,貶值最快的不是現(xiàn)金,是這4樣?xùn)|西,早知道早省錢!

不出3年,貶值最快的不是現(xiàn)金,是這4樣?xùn)|西,早知道早省錢!

老特有話說
2026-04-15 15:15:15
鴻蒙五界3月銷量啞火,問界獨(dú)大,四界陪跑,華為難救二線車企?

鴻蒙五界3月銷量啞火,問界獨(dú)大,四界陪跑,華為難救二線車企?

王新喜
2026-04-14 19:49:11
蘋果官微發(fā)文提醒iPhone用戶立即更新設(shè)備

蘋果官微發(fā)文提醒iPhone用戶立即更新設(shè)備

界面新聞
2026-04-15 08:26:07
天后麥當(dāng)娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

天后麥當(dāng)娜:一生交往一百多猛男,與自己保鏢歡愛視頻,還被拍賣

七阿姨愛八卦
2026-04-09 09:32:37
CBA最令人失望球隊(duì)!10天前還是聯(lián)賽第4,如今連第8都快保不住了

CBA最令人失望球隊(duì)!10天前還是聯(lián)賽第4,如今連第8都快保不住了

后仰大風(fēng)車
2026-04-16 07:55:08
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國(guó)“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國(guó)“不可靠”

影孖看世界
2026-04-15 22:29:46
2026-04-16 09:27:00
游戲茶館 incentive-icons
游戲茶館
關(guān)注全球移動(dòng)游戲產(chǎn)業(yè)
11059文章數(shù) 20623關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號(hào)航母距伊朗200公里

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號(hào)航母距伊朗200公里

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

油輪被困波斯灣1個(gè)多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

家居
房產(chǎn)
手機(jī)
數(shù)碼
健康

家居要聞

簡(jiǎn)而不減 暖居之道

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

手機(jī)要聞

驍龍8 Elite Gen6曝光!臺(tái)積電2nm+2+3+3架構(gòu),小米18系列穩(wěn)了

數(shù)碼要聞

“反擊”蘋果MacBook Neo,微軟在美推出新一輪學(xué)生促銷方案

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進(jìn)入關(guān)懷版