亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)世界模型來臨,AI訓(xùn)練師該如何重新理解自己的工作?

0
分享至

從大語言模型的‘圖書館式智能’到多模態(tài)模型的‘視覺映射’,再到世界模型賦予AI預(yù)測物理規(guī)律的能力,這場范式轉(zhuǎn)移不僅重塑技術(shù)路線,更將訓(xùn)練師的角色從數(shù)據(jù)標(biāo)注員推向‘世界規(guī)則設(shè)計師’。本文從一線AI訓(xùn)練師的獨特視角,深度解析Sora引爆的背后邏輯與大廠布局的隱秘戰(zhàn)線。

———— / BEGIN / ————

我入行AI訓(xùn)練師,說實話,剛開始的時候我對這個職位的理解非常模糊。

標(biāo)注數(shù)據(jù)、寫prompt、做RLHF反饋、評估模型輸出質(zhì)量……每天的工作看起來像是在做一些零散的事情,很難說清楚自己到底在訓(xùn)練一個什么樣的東西,又在朝哪個方向走。

直到世界模型這個概念開始密集出現(xiàn)在我的視野里。那是我第一次真切感受到,AI正在發(fā)生一些本質(zhì)性的變化。不是更聰明了,不是更快了,而是開始理解世界了。

這篇文章,我想從一個AI訓(xùn)練師的視角,聊聊世界模型到底是什么,它和我們已經(jīng)熟悉的大語言模型、多模態(tài)模型之間是什么關(guān)系,以及這場范式轉(zhuǎn)移對于我們這些在AI訓(xùn)練一線工作的人意味著什么。

LLM讓我們誤解了”智能”

在聊世界模型之前,我想先說說大語言模型給我們帶來的一個重要誤解。

ChatGPT出現(xiàn)之后,很多人——包括我自己——有一段時間真的以為AGI快來了。GPT-4能通過律師資格考試,能寫出媲美人類的文章,能解釋量子力學(xué),能幫你調(diào)試代碼……這一系列能力疊加在一起,很難不讓人產(chǎn)生一種錯覺:這個東西已經(jīng)很”懂”了。

但在實際工作中,你會慢慢發(fā)現(xiàn)一些奇怪的縫隙。

我做RLHF標(biāo)注的時候,有一次給模型出了一道很簡單的空間推理題:桌子上有一個蘋果,蘋果旁邊有一本書,書的左邊是一杯水。問:蘋果和水的相對位置是什么?

模型給出的答案不穩(wěn)定,有時候?qū)?,有時候錯,而且你追問它為什么這么判斷,它能給出一套聽起來完全合理的解釋——無論答案是對是錯。

這讓我意識到一件事:LLM掌握的是”關(guān)于世界的語言描述”,而不是”世界本身的運作規(guī)律”。

這個區(qū)別聽起來很微妙,但其實非常根本。

打一個比方:想象一個人從來沒有離開過圖書館,他讀遍了所有關(guān)于游泳的書籍,能背誦蝶泳的技術(shù)要領(lǐng),能分析菲爾普斯的動作細(xì)節(jié),能寫出一篇專業(yè)的游泳教學(xué)文章。但是,把他扔進(jìn)游泳池,他大概率會沉下去。

LLM就是這個圖書館里的人。

它的訓(xùn)練目標(biāo)是:給定前面所有的詞,預(yù)測下一個詞的概率分布。用數(shù)學(xué)語言說就是最大化P(token_t | 所有之前的token)。這個目標(biāo)讓它學(xué)會了人類語言的統(tǒng)計模式,但語言的統(tǒng)計模式不等于世界的因果規(guī)律。

火焰是熱的,這句話在訓(xùn)練數(shù)據(jù)里出現(xiàn)了無數(shù)次,所以LLM”知道”火焰是熱的。但它不知道的是:如果你把手伸向火焰,溫度會按照什么樣的物理規(guī)律傳導(dǎo)到你的皮膚,皮膚的蛋白質(zhì)會在多少攝氏度開始變性,這個過程是可逆還是不可逆的。

這些”知道”背后的知道為什么,LLM一直缺席。

多模態(tài)讓AI”看見了”,但還沒有”經(jīng)歷”

多模態(tài)模型的出現(xiàn)是一個重要的進(jìn)步。

當(dāng)GPT-4V、Gemini這類模型能夠理解圖片的時候,我們獲得了一個新的能力維度:AI開始能夠感知視覺世界了。OCR、圖像描述、視覺問答……這些能力在很多實際應(yīng)用場景里有巨大的價值。

但多模態(tài)模型的本質(zhì),是在視覺特征和語言描述之間建立映射關(guān)系。

它學(xué)習(xí)的是:這種視覺模式,對應(yīng)這種語言描述。一張貓的圖片,對應(yīng)”貓”這個詞以及關(guān)于貓的所有語言知識。這種對應(yīng)關(guān)系學(xué)習(xí)得越精準(zhǔn),模型的多模態(tài)能力就越強(qiáng)。

問題在于,這依然是一種靜態(tài)的、表面的理解。

舉個例子:給多模態(tài)模型看一張臺球桌的照片,再給它看一張球桿擊球瞬間的照片,它能告訴你這是在打臺球,能描述球的顏色和位置。但如果你問它:球被擊中之后會往哪里運動,會不會碰到邊框反彈,最終停在哪里——這些問題涉及到物理軌跡的預(yù)測,多模態(tài)模型的表現(xiàn)就會變得非常不穩(wěn)定。

原因很簡單:多模態(tài)模型看過無數(shù)張臺球的圖片,但它從來沒有在臺球的世界里”行動”過。

看過和經(jīng)歷過,是兩種本質(zhì)上不同的智能來源。

人類之所以有直覺,有物理常識,是因為我們從嬰兒時期就在真實世界里摸爬滾打,通過無數(shù)次的行動和反饋,在大腦里建立起了一套世界的運作模型。當(dāng)你看到一個杯子放在桌子邊緣,你本能地會感到擔(dān)憂——這種直覺不是從書上學(xué)來的,而是從你某次不小心打碎杯子的經(jīng)歷里涌現(xiàn)的。

LLM沒有經(jīng)歷過,多模態(tài)模型依然沒有經(jīng)歷過。

而世界模型,正是要解決這個”經(jīng)歷”的缺失。

世界模型:AI第一次開始”預(yù)測世界”

世界模型這個概念并不新。

2018年,AI研究者David Ha和深度學(xué)習(xí)先驅(qū)Jürgen Schmidhuber發(fā)表了一篇名為《World Models》的論文,系統(tǒng)提出了這個框架。他們的核心想法是:一個智能體要在世界中行動,就必須在內(nèi)部建立一個關(guān)于世界的模型,通過這個內(nèi)部模型來預(yù)測行動的后果,再決定采取什么行動。

這個想法其實和人類的認(rèn)知方式非常接近。

你在開車的時候,大腦并不是實時處理所有傳感器數(shù)據(jù)再做決策,而是基于你對道路規(guī)律的理解,不斷預(yù)測前方會發(fā)生什么,在預(yù)測的基礎(chǔ)上做判斷。這個”對道路規(guī)律的理解”,就是你大腦里的世界模型。

用更技術(shù)性的語言來說,世界模型的核心訓(xùn)練目標(biāo)是:

給定當(dāng)前的狀態(tài)S和采取的動作A,預(yù)測下一個狀態(tài)S’。

這一個簡單的公式和LLM的訓(xùn)練目標(biāo)相比,有三個根本性的不同:

第一,引入了”動作”維度。 LLM預(yù)測的是詞,多模態(tài)模型預(yù)測的是內(nèi)容,而世界模型預(yù)測的是”行動之后世界會怎樣”。這意味著AI第一次真正把”做事”和”理解”結(jié)合在了一起。

第二,建立了因果關(guān)系而非統(tǒng)計關(guān)系。 我推了這個杯子,杯子會倒——這是因果。LLM知道”杯子倒了”和”推”經(jīng)常在語言里一起出現(xiàn),但它不理解推力、重心、摩擦力之間的因果鏈條。世界模型要學(xué)的正是這個因果鏈條。

第三,支持”反事實推理”。 這是最讓我興奮的一點。反事實推理是說:如果我不這樣做,而是那樣做,結(jié)果會有什么不同?這種”想象中的試錯”能力,是規(guī)劃和決策的基礎(chǔ),也是人類智慧的重要組成部分。一個真正的世界模型,應(yīng)該能在內(nèi)部模擬多種可能的未來,選擇最優(yōu)的行動路徑。

Sora為什么讓整個行業(yè)震驚

2024年1月,OpenAI發(fā)布Sora的那一刻,其實是世界模型概念第一次以一種所有人都看得懂的方式被呈現(xiàn)出來。

Sora表面上是一個視頻生成模型。但讓業(yè)內(nèi)人士真正震驚的,不是它生成的視頻有多漂亮,而是視頻里展現(xiàn)出來的物理一致性。

水往低處流,而不是隨機(jī)飄散。碰撞發(fā)生時,物體的形變方向符合受力分析。鏡頭從一個角度切換到另一個角度,場景里的光影關(guān)系保持正確。一個球被踢出去,它的運動軌跡符合拋物線,而不是隨機(jī)游走。

這些細(xì)節(jié),Sora并沒有被顯式地教過。沒有人在訓(xùn)練數(shù)據(jù)里標(biāo)注”這里的水應(yīng)該向左流”,也沒有人寫代碼規(guī)定光照應(yīng)該如何計算。這些物理規(guī)律,是模型在訓(xùn)練了海量視頻之后自發(fā)涌現(xiàn)出來的。

OpenAI在Sora的技術(shù)報告里有一段話,我覺得是整篇文章最重要的部分:

“我們認(rèn)為,視頻生成模型是物理世界通用模擬器的一個有前景的路徑?!?/p>

這句話的信息量非常大。它意味著:當(dāng)你訓(xùn)練一個足夠大的模型去預(yù)測視頻的下一幀,它會被迫學(xué)習(xí)世界的物理規(guī)律——因為只有理解了物理規(guī)律,才能正確預(yù)測下一幀應(yīng)該長什么樣。

這是一個非常優(yōu)雅的訓(xùn)練信號設(shè)計。視頻本身就是因果序列——每一幀都是上一幀按照物理規(guī)律演化的結(jié)果。通過預(yù)測這個序列,模型在學(xué)習(xí)語言的過程中,也在悄悄學(xué)習(xí)物理。

當(dāng)然,Sora還遠(yuǎn)遠(yuǎn)不是完美的世界模型。它有時候會生成物理上荒謬的內(nèi)容:人從椅子上站起來但椅子憑空消失,水面反光的方向和光源不一致,長時間視頻里物體的屬性前后矛盾……這些錯誤恰恰說明,它的世界模型是不完整的,是片段性的。

但它展示了一個可行的方向。

三條路線的本質(zhì)差異:一個訓(xùn)練師的理解

在工作中,我慢慢形成了一個對這三類模型的理解框架,我覺得用”認(rèn)知層次”來描述最為準(zhǔn)確。

大語言模型解決的是”知道什么”的問題。

它的核心能力是知識的存儲和檢索,以及語言的生成和理解。它知道歷史上發(fā)生了什么,知道科學(xué)定律的表述,知道如何把一件事情解釋清楚。這是一種很寶貴的能力,但它的局限在于:它知道的是”關(guān)于世界的描述”,而不是”世界本身”。

多模態(tài)模型解決的是”看到什么”的問題。

它的核心能力是感知,是把視覺、聽覺等感官信號轉(zhuǎn)化為語義理解。它能看懂圖片,能理解視頻里發(fā)生了什么,能把不同模態(tài)的信息關(guān)聯(lián)起來。這把AI的認(rèn)知范圍從語言擴(kuò)展到了感知。但它依然是靜態(tài)的,是截圖式的理解,缺少對時序動態(tài)和行動后果的建模。

世界模型解決的是”會怎樣”和”怎么做”的問題。

它的核心能力是預(yù)測和規(guī)劃。它要理解的不是事物的靜態(tài)屬性,而是動態(tài)的因果鏈條。它要能夠回答:如果我這樣做,世界會變成什么樣?哪條路徑能讓我達(dá)到目標(biāo)?這個東西碰到那個東西會發(fā)生什么?

從訓(xùn)練師的角度來看,這三種模型對數(shù)據(jù)的需求截然不同。

LLM需要的是大量高質(zhì)量的文本,核心在于覆蓋廣泛、語言準(zhǔn)確。多模態(tài)需要的是高質(zhì)量的圖文對或視頻文本對,核心在于模態(tài)之間的對齊精準(zhǔn)。而世界模型需要的是包含行動標(biāo)注的交互序列——不只是”發(fā)生了什么”,還要有”因為做了什么才發(fā)生”。

這對數(shù)據(jù)采集和標(biāo)注的要求,是一個數(shù)量級的跨越。

世界模型為什么現(xiàn)在爆發(fā)

這個問題我思考了很久,因為世界模型這個概念并不新——2018年就有奠基性的論文了,為什么偏偏是2024年前后突然成為業(yè)界最熱的話題?

我覺得有幾個因素疊加在一起,形成了這次爆發(fā)。

第一個因素是LLM的scaling law開始遇到天花板。

GPT-3到GPT-4這個階段,每一次參數(shù)量的大幅提升都帶來了令人驚嘆的能力躍遷。但GPT-4之后,這種躍遷的幅度開始明顯收窄。訓(xùn)練成本從數(shù)千萬美元漲到數(shù)億美元,但能力的提升越來越難以讓用戶感知到革命性的變化。

更麻煩的是數(shù)據(jù)問題。有研究機(jī)構(gòu)估算,互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)將在2026年到2028年之間基本被主流模型”吃完”。繼續(xù)堆數(shù)據(jù)的路線正在遭遇物理限制。

業(yè)界開始意識到:單純在語言空間里做文章,可能真的到頭了。

第二個因素是具身智能的需求突然變得非常迫切。

2024年,人形機(jī)器人賽道的融資規(guī)模達(dá)到了一個歷史高點。Figure AI、1X Technologies、Physical Intelligence……一批專注于通用機(jī)器人的公司密集獲得了大額融資。與此同時,特斯拉的Optimus機(jī)器人開始在工廠里執(zhí)行真實任務(wù),波士頓動力的機(jī)器人也在加速商業(yè)化。

機(jī)器人要在真實的物理世界里工作,必須理解物理規(guī)律,必須能夠預(yù)測行動后果,必須能在不確定的環(huán)境中實時規(guī)劃。這些需求,LLM和多模態(tài)模型都無法直接滿足。

而世界模型,正是機(jī)器人大腦的核心基礎(chǔ)設(shè)施。

第三個因素是Sora證明了這條路線的可行性。

在Sora之前,世界模型更多是一個學(xué)術(shù)概念,工程實現(xiàn)上還有很多未解決的問題。Sora的出現(xiàn)證明了:大規(guī)模視頻預(yù)訓(xùn)練可以讓模型涌現(xiàn)出物理理解能力,這條路線是走得通的。

這給了整個行業(yè)一個非常強(qiáng)烈的信號:下一個重要的范式,已經(jīng)有了第一個令人信服的工程案例。

第四個因素是Meta的LeCun持續(xù)”帶節(jié)奏”。

Yann LeCun作為深度學(xué)習(xí)的三位圖靈獎得主之一,在過去兩年里不斷公開表達(dá)一個觀點:現(xiàn)有的LLM路線永遠(yuǎn)無法實現(xiàn)AGI,真正的通用智能必須建立在世界模型的基礎(chǔ)之上。他在Meta主導(dǎo)開發(fā)的JEPA系列架構(gòu),是目前世界模型研究中最有影響力的學(xué)術(shù)路線之一。

當(dāng)這個級別的研究者持續(xù)、公開地為一個方向站臺,資本和人才的流向就會跟著改變。

這四個因素疊加在一起,形成了2024年世界模型突然爆火的背景。

大廠們在做什么

了解大廠的布局,對于理解這個領(lǐng)域的發(fā)展方向非常有幫助。

OpenAI的路線是最模糊也最讓人好奇的。Sora是目前最接近世界模型概念的商業(yè)化產(chǎn)品,但OpenAI并沒有明確把它定義為世界模型,而是稱之為”物理世界的模擬器”。與此同時,o1和o3系列模型走的是推理能力深化的方向——在回答之前讓模型進(jìn)行更長時間的”思考”。這兩條線最終如何融合,是整個行業(yè)都在猜測的問題。

Meta的路線是最明確的。LeCun主導(dǎo)的JEPA架構(gòu),加上V-JEPA 2.0對視頻動態(tài)的建模,是目前學(xué)術(shù)界最系統(tǒng)的世界模型研究路線。Meta的策略是把這些研究開源,在學(xué)術(shù)影響力上建立優(yōu)勢,同時為自家的AR眼鏡和機(jī)器人項目提供技術(shù)儲備。

Google DeepMind走的是多線并行的路線。Gemini負(fù)責(zé)通用多模態(tài)能力,Genie系列專注于從視頻中學(xué)習(xí)可交互的世界模型,還有專門針對機(jī)器人控制的RT系列。DeepMind的優(yōu)勢在于強(qiáng)化學(xué)習(xí)的深厚積累——從AlphaGo到AlphaFold,他們在讓AI通過與環(huán)境交互來學(xué)習(xí)這件事上有最豐富的經(jīng)驗。

國內(nèi)方面,字節(jié)跳動、騰訊、華為等公司都在布局,但公開信息相對有限。比較明確的是自動駕駛賽道——理想汽車、文遠(yuǎn)知行等公司都在把世界模型作為下一代自動駕駛系統(tǒng)的核心技術(shù)。Wayve的GAIA-1是目前自動駕駛世界模型里最受關(guān)注的案例,它能夠根據(jù)文字描述生成不同天氣、不同交通狀況下的駕駛場景,用來訓(xùn)練自動駕駛系統(tǒng)。

回到訓(xùn)練師:這場變革對我們意味著什么

說了這么多宏觀的內(nèi)容,我想回到一個更具體的問題:作為AI訓(xùn)練師,這場世界模型的浪潮對我們的日常工作意味著什么?

我在思考這個問題的時候,有一個感受越來越強(qiáng)烈:訓(xùn)練師這個職業(yè),正在從”數(shù)據(jù)標(biāo)注工人”向”世界規(guī)則設(shè)計師”演變。

在LLM時代,訓(xùn)練師的核心工作是:提供高質(zhì)量的文本示例,告訴模型什么樣的回答是好的,什么樣的是不好的。RLHF標(biāo)注本質(zhì)上是在幫模型建立一套語言層面的偏好系統(tǒng)。

這個工作很重要,但它的邊界是清晰的——你在評估的是語言輸出的質(zhì)量。

但在世界模型的訓(xùn)練體系里,問題變得復(fù)雜得多。

你需要評估的不再只是語言,而是物理合理性。

模型生成了一段視頻,一個機(jī)器人伸手抓取桌上的物體。你作為訓(xùn)練師,需要判斷:這個抓取動作的角度是否合理?手指的彎曲是否符合人體工程學(xué)?物體被抓起的那一刻,桌子是否有正確的反應(yīng)力?這些判斷需要的不是語言能力,而是對物理世界的直覺。

你需要設(shè)計的不再只是問答示例,而是場景和規(guī)則。

在強(qiáng)化學(xué)習(xí)的框架里,智能體是通過在環(huán)境中行動并獲得獎勵來學(xué)習(xí)的。訓(xùn)練師的一個重要職責(zé),是設(shè)計合理的獎勵函數(shù)——告訴模型什么樣的行為應(yīng)該被獎勵,什么樣的應(yīng)該被懲罰。獎勵函數(shù)設(shè)計得好,模型會學(xué)到我們期望的行為;設(shè)計得不好,模型會鉆空子,用我們意想不到的方式來最大化獎勵,而完全偏離了真正的目標(biāo)。

這在業(yè)內(nèi)被稱為”獎勵黑客”(Reward Hacking),是強(qiáng)化學(xué)習(xí)里最經(jīng)典也最棘手的問題之一。解決這個問題需要訓(xùn)練師對任務(wù)目標(biāo)有深刻的理解,并且有足夠的創(chuàng)造力來預(yù)判模型可能找到的”作弊路徑”。

你需要面對的不再只是語言幻覺,而是物理幻覺。

LLM會產(chǎn)生事實性錯誤,這我們都知道。但世界模型會產(chǎn)生物理性錯誤——生成在物理上不可能發(fā)生的場景,或者在長時間的模擬中讓誤差不斷累積,最終偏離現(xiàn)實。

如何識別這些物理幻覺,如何設(shè)計測試場景來暴露模型的物理盲區(qū),如何構(gòu)建評估體系來量化模型的物理理解能力——這些都是世界模型時代訓(xùn)練師需要具備的新能力。

你需要參與的不再只是數(shù)據(jù)標(biāo)注,而是數(shù)據(jù)生態(tài)的設(shè)計。

世界模型最大的數(shù)據(jù)瓶頸,是缺乏包含行動標(biāo)注的交互序列數(shù)據(jù)?;ヂ?lián)網(wǎng)上有海量的視頻,但這些視頻大多數(shù)只有”發(fā)生了什么”,沒有”因為什么動作才發(fā)生”。

如何設(shè)計數(shù)據(jù)采集框架,如何利用仿真環(huán)境生成合成訓(xùn)練數(shù)據(jù),如何確保合成數(shù)據(jù)和真實世界之間的分布匹配——這些工作需要訓(xùn)練師深度參與,而不只是在標(biāo)注界面上點點鼠標(biāo)。

作為訓(xùn)練師,我在嘗試做的事

說到這里,我想分享一些自己在工作中開始嘗試的轉(zhuǎn)變。

第一,主動建立對物理世界的系統(tǒng)認(rèn)知。

這聽起來很奇怪——你需要重新學(xué)物理?但我是認(rèn)真的。我開始系統(tǒng)地復(fù)習(xí)基礎(chǔ)物理知識:力學(xué)、流體、光學(xué)……不是為了去做物理計算,而是為了在評估模型輸出的時候,有更扎實的物理直覺作為判斷基礎(chǔ)。

我們評估語言模型輸出的時候,依賴的是我們從小積累的語言直覺——這句話聽起來自然不自然,這個邏輯通不通順。評估世界模型輸出的時候,我們需要的是物理直覺——這個運動軌跡對不對,這個形變合不合理。

而物理直覺是需要刻意培養(yǎng)的。

第二,開始學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念。

我不需要成為強(qiáng)化學(xué)習(xí)的研究者,但我需要理解獎勵函數(shù)、策略優(yōu)化、探索與利用的權(quán)衡這些基本概念。因為在世界模型的訓(xùn)練體系里,這些概念會直接影響我的工作方式和判斷標(biāo)準(zhǔn)。

知道強(qiáng)化學(xué)習(xí)的基本原理,我才能理解為什么某些獎勵設(shè)計會導(dǎo)致模型產(chǎn)生意料之外的行為,才能在設(shè)計評估任務(wù)的時候,提前考慮到潛在的獎勵黑客風(fēng)險。

第三,開始關(guān)注具身智能和機(jī)器人相關(guān)的場景。

世界模型目前最重要的落地方向是自動駕駛和機(jī)器人控制。這些場景和我們?nèi)粘=佑|的對話AI非常不同,但它們正在成為訓(xùn)練師工作的重要組成部分。

我開始主動了解機(jī)器人操作的基本知識,學(xué)習(xí)自動駕駛場景的評估標(biāo)準(zhǔn),嘗試建立對這些具身智能場景的感性認(rèn)知。

第四,把”數(shù)據(jù)設(shè)計”而不只是”數(shù)據(jù)標(biāo)注”作為自己的核心能力目標(biāo)。

標(biāo)注是執(zhí)行層面的工作,數(shù)據(jù)設(shè)計是策略層面的工作。前者關(guān)注的是”這個樣本應(yīng)該打什么標(biāo)簽”,后者關(guān)注的是”我們需要什么樣的數(shù)據(jù),才能讓模型學(xué)到我們想要的能力”。

我在試圖讓自己的思維層次向后者遷移。每次做標(biāo)注任務(wù)的時候,我會多想一步:這個任務(wù)的數(shù)據(jù)設(shè)計合不合理?有沒有系統(tǒng)性的盲區(qū)?如果我來設(shè)計這個標(biāo)注方案,我會有什么不同的選擇?

三者的未來:不是替代,而是融合

在整理這篇文章的思路時,我反復(fù)在思考一個問題:LLM和多模態(tài)是否已經(jīng)走到了盡頭?

我的結(jié)論是:沒有,但它們正在走到”獨立存在”的盡頭。

LLM不會消亡。它積累的語言理解和知識存儲能力,是任何通用智能系統(tǒng)都必須具備的基礎(chǔ)設(shè)施。未來的智能系統(tǒng)一定需要一個能夠理解和生成語言的模塊——LLM就是這個模塊最好的實現(xiàn)方式。

多模態(tài)模型也不會消亡。感知世界的能力是具身智能不可或缺的基礎(chǔ)。攝像頭的數(shù)據(jù)需要被理解,場景需要被語義化,這些工作多模態(tài)模型做得最好。

但它們作為獨立產(chǎn)品形態(tài)的價值邊界,正在變得越來越清晰。繼續(xù)在LLM框架內(nèi)堆參數(shù)、堆數(shù)據(jù),邊際收益正在快速遞減。繼續(xù)在多模態(tài)框架內(nèi)做更精準(zhǔn)的圖文對齊,也難以突破感知理解的天花板。

世界模型不是來取代它們的,而是來整合它們的。

用一個不太精確但很直觀的比喻:如果未來的通用AI系統(tǒng)是一個人,那LLM是這個人的語言中樞,多模態(tài)是這個人的感知系統(tǒng),而世界模型是這個人的認(rèn)知中樞——把感知到的信息、理解到的知識,整合成對世界的動態(tài)理解和行動規(guī)劃能力。

沒有任何一個部分是多余的,但只有任何一個部分,都不足以成為完整的智能。

我剛?cè)胄械臅r候,有個前輩跟我說:做AI訓(xùn)練師,最重要的不是技術(shù)能力,而是對”什么是真正好的輸出”有清晰的判斷。

我當(dāng)時理解這句話的層次很淺——好的輸出就是準(zhǔn)確、流暢、有用的語言回答。

但現(xiàn)在,隨著世界模型的概念越來越清晰,我開始理解這句話有更深的含義:

“好的輸出”這個標(biāo)準(zhǔn)本身,正在隨著AI的演進(jìn)而不斷擴(kuò)展。

從”語言是否準(zhǔn)確”,到”感知是否正確”,再到”物理是否合理”,再到”規(guī)劃是否有效”——每一次AI范式的轉(zhuǎn)移,都是在把”好的輸出”的定義往更接近真實智能。

本文來自作者:冒泡泡

想要第一時間了解行業(yè)動態(tài)、面試技巧、商業(yè)知識等等等?加入產(chǎn)品經(jīng)理進(jìn)化營,跟優(yōu)秀的產(chǎn)品人一起交流成長!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

自困愁城:伊朗將為封鎖霍爾木茲海峽付出最慘重代價

民間胡扯老哥
2026-04-13 22:30:45
中國歷史第7人!楊瀚森晉級NBA季后賽 躋身姚明阿聯(lián)周琦之列

中國歷史第7人!楊瀚森晉級NBA季后賽 躋身姚明阿聯(lián)周琦之列

醉臥浮生
2026-04-15 13:07:44
知名博主B太稱花18萬幫“大山女孩”被騙:父親體弱多病、哥哥弟弟去世是劇本…律師:可主張撤銷該贈與合同

知名博主B太稱花18萬幫“大山女孩”被騙:父親體弱多病、哥哥弟弟去世是劇本…律師:可主張撤銷該贈與合同

上觀新聞
2026-04-15 06:54:03
伊朗高層兵馬未動,資金先逃

伊朗高層兵馬未動,資金先逃

生命可以承受之輕
2026-04-13 08:50:39
謝娜帶娃現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛,駐足停留讓粉絲拍照

謝娜帶娃現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛,駐足停留讓粉絲拍照

扒蝦侃娛
2026-04-15 14:43:28
廣東3消息!新大外自宣加盟,徐杰獲絕配幫手,杜鋒最新病情

廣東3消息!新大外自宣加盟,徐杰獲絕配幫手,杜鋒最新病情

多特體育說
2026-04-15 23:08:51
公安部公布5起危害生態(tài)安全犯罪典型案例

公安部公布5起危害生態(tài)安全犯罪典型案例

界面新聞
2026-04-15 10:22:27
收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

得得電影
2026-04-15 09:48:34
從大陸回來,李鴻源感慨:我們連人家的車尾燈都看不見!

從大陸回來,李鴻源感慨:我們連人家的車尾燈都看不見!

有態(tài)度的何總
2026-04-15 12:18:14
黃燦燦自曝為了防止《浪姐》惡意剪輯,每天都會梳不一樣的頭發(fā)

黃燦燦自曝為了防止《浪姐》惡意剪輯,每天都會梳不一樣的頭發(fā)

韓小娛
2026-04-13 16:42:00
外媒推測:中國正研制射程更遠(yuǎn)超遠(yuǎn)程空空導(dǎo)彈,霹靂17只是個開始

外媒推測:中國正研制射程更遠(yuǎn)超遠(yuǎn)程空空導(dǎo)彈,霹靂17只是個開始

阿龍聊軍事
2026-04-15 10:48:15
哪種運動性價比最高,柳葉刀給出答案了

哪種運動性價比最高,柳葉刀給出答案了

新浪財經(jīng)
2026-04-15 05:09:31
格林:這是場本該贏下的比賽 輸球后大家都很憤怒

格林:這是場本該贏下的比賽 輸球后大家都很憤怒

北青網(wǎng)-北京青年報
2026-04-15 21:32:04
互聯(lián)網(wǎng)大廠開始清退組內(nèi)的印度人!

互聯(lián)網(wǎng)大廠開始清退組內(nèi)的印度人!

黯泉
2026-04-15 20:34:55
長腿格格也玩劇組夫妻了

長腿格格也玩劇組夫妻了

毒舌扒姨太
2026-04-15 22:42:11
反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn),發(fā)明附加賽的人是天才

反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn),發(fā)明附加賽的人是天才

只關(guān)于籃球
2026-04-15 12:44:10
理想的至暗時刻

理想的至暗時刻

新浪財經(jīng)
2026-04-15 03:08:52
暴跌!價格幾乎腰斬!一女子連吃兩天,劇烈腹痛胃底被堵死!很多人愛吃

暴跌!價格幾乎腰斬!一女子連吃兩天,劇烈腹痛胃底被堵死!很多人愛吃

南方都市報
2026-04-13 16:44:33
一哥成軟柿子?丁俊暉成唯一未進(jìn)決賽種子,難進(jìn)十六強(qiáng)再戰(zhàn)趙心童

一哥成軟柿子?丁俊暉成唯一未進(jìn)決賽種子,難進(jìn)十六強(qiáng)再戰(zhàn)趙心童

夜深聊球
2026-04-15 22:31:16
渴望回國的加拿大華裔,陷入“回來不甘心,不回受不了”的糾結(jié)中

渴望回國的加拿大華裔,陷入“回來不甘心,不回受不了”的糾結(jié)中

阿訊說天下
2026-04-14 12:43:26
2026-04-16 00:32:49
人人都是產(chǎn)品經(jīng)理社區(qū) incentive-icons
人人都是產(chǎn)品經(jīng)理社區(qū)
想要成為大牛先從學(xué)做產(chǎn)品開始
64631文章數(shù) 311586關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

旅游
藝術(shù)
房產(chǎn)
本地
公開課

旅游要聞

美翻了!成都植物園100余種月季迎來盛花期

藝術(shù)要聞

這山水,蕩滌胸中塵埃

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版