无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

統(tǒng)治AI十年的Transformer,要被親爹親手砸碎?

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】80分鐘的拳擊式辯論!Transformer聯(lián)合發(fā)明人親自下場(chǎng)為自己的作品辯護(hù),對(duì)面三位挑戰(zhàn)者直指五大死穴。這是AI架構(gòu)十年來(lái)最硬的一次正面交鋒。統(tǒng)治AI黃金十年的架構(gòu),地基是不是已經(jīng)松了?

Transformer憑什么統(tǒng)治AI這么久?

長(zhǎng)上下文、記憶、推理這些短板,新架構(gòu)真能突破嗎?

所謂「后Transformer」,到底是更強(qiáng)的記憶機(jī)制、更高效的序列建模,還是從訓(xùn)練到系統(tǒng)都得換一套?

5月5日,舊金山,Pathway搞了場(chǎng)拳擊擂臺(tái)式的辯論賽。

這不是比喻,是真擂臺(tái)。


一邊是Transformer的共同發(fā)明人?ukasz Kaiser,另一邊是主張「后Transformer時(shí)代」的新架構(gòu)派。


注意一個(gè)細(xì)節(jié):注意力機(jī)制的兩位聯(lián)合發(fā)明人,「Transformer八子」之一Llion Jones,坐在了Kaiser的對(duì)立面。。

話(huà)題就一個(gè):下一代AI架構(gòu)到底長(zhǎng)什么樣。

現(xiàn)場(chǎng)坐滿(mǎn)研究者、創(chuàng)業(yè)者和投資人。輸贏不靠投票,靠「clapometer」——拍手計(jì)分器,誰(shuí)掌聲響誰(shuí)贏。

這是一場(chǎng)刀刀見(jiàn)紅、指名道姓的硬碰硬。

當(dāng)裁判宣布比賽開(kāi)始,統(tǒng)治了全球AI架構(gòu)近十年的神話(huà),第一次被它的締造者親自拉上了被告席進(jìn)行自衛(wèi)辯護(hù)。

這場(chǎng)思想界的重量級(jí)對(duì)決,從Transformer的五大死穴開(kāi)始。

苦Transformer久矣

五大死穴

?ukasz Kaiser的身份讓這場(chǎng)辯論的分量直接拉滿(mǎn)。

他是Transformer的聯(lián)合發(fā)明人。

2017年那篇改變整個(gè)AI格局的論文「Attention Is All You Need」,他是作者之一。之后他參與了ChatGPT、GPT系列和o1的實(shí)際工程開(kāi)發(fā)。

他是當(dāng)事人。他今天坐在這里,是為自己的作品做辯護(hù)。

對(duì)面的三位挑戰(zhàn)者,來(lái)頭同樣不小。

Llion Jones,Transformer的另一位聯(lián)合發(fā)明人,Sakana AI聯(lián)合創(chuàng)始人。

Adrian Kosowski,Pathway首席科學(xué)官,BDH架構(gòu)的發(fā)明人。

Matthias Lechner,Liquid AI首席技術(shù)官,MIT液態(tài)神經(jīng)網(wǎng)絡(luò)的共同發(fā)明人。


這本身就是技術(shù)史上極其罕見(jiàn)的畫(huà)面。創(chuàng)造同一個(gè)東西的人,對(duì)它的未來(lái)產(chǎn)生了根本性分歧。

Kaiser開(kāi)場(chǎng)用了一個(gè)類(lèi)比。

他說(shuō)Transformer的注意力機(jī)制,就像圖書(shū)管理員的卡片索引系統(tǒng)

你走進(jìn)圖書(shū)館,說(shuō)出你要找的內(nèi)容(query),管理員翻開(kāi)卡片目錄(key),找到對(duì)應(yīng)的書(shū)架位置,把書(shū)取出來(lái)交給你(value)。


簡(jiǎn)潔。高效。全局檢索。

但挑戰(zhàn)者們要問(wèn)的是:如果這個(gè)圖書(shū)館有一億本書(shū)呢?每次查詢(xún)都要翻遍所有卡片,這個(gè)系統(tǒng)還能撐住嗎?

這就是O(n2),懸在Transformer頭上的達(dá)摩克利斯之劍。

三位挑戰(zhàn)者沒(méi)有籠統(tǒng)地說(shuō)「Transformer不行了」。他們拆出了五個(gè)具體的、當(dāng)前Transformer架構(gòu)無(wú)法在設(shè)計(jì)層面解決的開(kāi)放難題。

每一個(gè)都直指要害。


挑戰(zhàn)者們最尖銳的隱喻,直指Transformer的記憶與持續(xù)學(xué)習(xí)缺陷:「土撥鼠之日」

在電影《土撥鼠之日》中,主角每天醒來(lái),世界都會(huì)重置,昨天的記憶蕩然無(wú)存。


目前,Transformer也是如此。

每一次推理(Forward Pass),它的權(quán)重(Weights)都是完全凍結(jié)的。

哪怕你今天跟它聊了十個(gè)小時(shí),它學(xué)到了絕妙的新知識(shí),在下一次會(huì)話(huà)啟動(dòng)時(shí),它依然是一個(gè)失憶的白癡。

現(xiàn)在工業(yè)界為了解決這個(gè)問(wèn)題,拼命往里塞RAG(檢索增強(qiáng)生成)、長(zhǎng)上下文(KV Cache)。

但這根本不是架構(gòu)級(jí)的解法,而是用昂貴的算力在傷口上貼創(chuàng)可貼。

五大死穴,每一個(gè)單拎出來(lái)都不是小事。合在一起,構(gòu)成了一張完整的起訴書(shū)。

但起訴書(shū)不等于判決書(shū)。

Kaiser的底牌

你行你上,拿曲線(xiàn)說(shuō)話(huà)

面對(duì)五大攻擊,Kaiser沒(méi)有一一辯駁。

他沒(méi)說(shuō)O(n2)不是問(wèn)題,沒(méi)說(shuō)災(zāi)難性遺忘不存在,沒(méi)說(shuō)Transformer完美無(wú)缺。

他拋出了一句話(huà),成了整場(chǎng)辯論的核心:

除非Post-Transformer證明更好的scaling曲線(xiàn),否則Transformer仍然是主流。


這句話(huà)的殺傷力在于,它把舉證責(zé)任推回了挑戰(zhàn)者。

什么是scaling曲線(xiàn)?

簡(jiǎn)單說(shuō),就是「投入更多算力和數(shù)據(jù),AI能力提升多少」。


Transformer統(tǒng)治近十年,最核心的原因不是它沒(méi)缺陷,而是它的scaling曲線(xiàn)至今沒(méi)被任何架構(gòu)超越。

這是OpenAI敢砸?guī)资畠|美元訓(xùn)練GPT、Anthropic持續(xù)擴(kuò)大Claude規(guī)模的底氣。

Kaiser的邏輯極其清晰:

你說(shuō)Transformer有五個(gè)問(wèn)題?我同意。

但有問(wèn)題的東西和應(yīng)該被替換的東西之間,有一道鴻溝。跨過(guò)它,你需要的不是五篇論文,是一條更好的scaling曲線(xiàn)。

然后,他展開(kāi)了更具體的辯護(hù),而且?guī)еこ态F(xiàn)場(chǎng)的鐵銹味。

并行性是硬道理。

上周,在最新的Nvidia硬件上,Kaiser重新實(shí)現(xiàn)了Transformer和幾個(gè)老式RNN,并做了對(duì)比。

非常小的GRU,比一個(gè)大得多的Transformer還要慢50倍。


RNN確實(shí)優(yōu)美,但它的順序執(zhí)行特性在當(dāng)前硬件上就是一場(chǎng)災(zāi)難。

如果真存在一種更好的架構(gòu),你需要用50倍的時(shí)間去證明它——而大多數(shù)實(shí)驗(yàn)室沒(méi)有這個(gè)耐心。

十年的工程積累。

不只是GPU優(yōu)化,編譯器、訓(xùn)練框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整個(gè)AI工程棧都圍繞Transformer搭建。


換架構(gòu)意味著這一切都要重來(lái)。

隱式的「持續(xù)學(xué)習(xí)」,早已發(fā)生。

Kaiser指出,Transformer在大規(guī)模預(yù)訓(xùn)練后,前向傳播中表現(xiàn)出的上下文學(xué)習(xí)(In-Context Learning),在數(shù)學(xué)上其實(shí)完美模擬了反向傳播中的梯度下降。


換句話(huà)說(shuō),你們說(shuō)它不會(huì)學(xué),它其實(shí)在以另一種方式偷偷地學(xué)。

他的辯護(hù)不是「Transformer永遠(yuǎn)是最優(yōu)解」,而是「Transformer現(xiàn)在是最優(yōu)解,除非你證明不是」。

然后他甩出一句讓對(duì)面啞口無(wú)言的話(huà):

也許找到下一個(gè)架構(gòu)的,恰恰會(huì)是Transformer本身——而不是你們。

全場(chǎng)笑聲。

但大家都聽(tīng)出來(lái)了:這是認(rèn)真的。

AI:無(wú)人可擋的光明未來(lái)

Kaiser的結(jié)束陳詞,沒(méi)有說(shuō)「Transformer永遠(yuǎn)是最優(yōu)解」。他說(shuō)的是:「目前,Transformer仍然贏。」

「目前」這個(gè)詞,是他留給挑戰(zhàn)者的唯一縫隙。

更微妙的是,他親手交出了一件本屬于自己陣營(yíng)的武器。

后Transformer陣營(yíng)此前最大的短板,是「缺乏大算力的工程和硬件驗(yàn)證」——新架構(gòu)跑得慢、沒(méi)人愿意為它改芯片。但Kaiser自己承認(rèn),這道壁壘正在被瓦解:

現(xiàn)在,AI Agent已經(jīng)學(xué)會(huì)了寫(xiě)極高難度的CUDA和Triton核函數(shù)。


即便一個(gè)新架構(gòu)最初運(yùn)行慢50倍,你只需要把代碼丟給Agent,它就能在短時(shí)間內(nèi)幫你優(yōu)化出幾乎能榨干GPU算力的專(zhuān)用內(nèi)核。

硬件彩票的壁壘,正在被智能體開(kāi)發(fā)生態(tài)自己砸碎。


這意味著,一旦有人在百萬(wàn)Token、千萬(wàn)Token的極長(zhǎng)上下文任務(wù)上,用Post-Transformer架構(gòu)跑出一條更漂亮的困惑度曲線(xiàn),哪怕只有一點(diǎn)點(diǎn)優(yōu)勢(shì),也會(huì)在scaling的放大鏡下,形成對(duì)舊帝國(guó)的致命一擊。

Kaiser甚至主動(dòng)提議:應(yīng)該建立一個(gè)統(tǒng)一的測(cè)試標(biāo)準(zhǔn)——用困惑度衡量所有架構(gòu)在同等條件下的學(xué)習(xí)能力。

「我們應(yīng)該在這件事上達(dá)成共識(shí),然后各自去證明自己的架構(gòu)更好?!?/p>

這句話(huà)的潛臺(tái)詞是:挑戰(zhàn)賽正式開(kāi)始。

而Jones的最后一句話(huà)更直接:

今天我沒(méi)有得到任何理由讓我懷疑自己的信念:有更好的東西存在。當(dāng)那個(gè)突破到來(lái),我們所有人都會(huì)進(jìn)入后Transformer時(shí)代,?ukasz也不例外——因?yàn)樗麑脮r(shí)別無(wú)選擇。

這場(chǎng)「拳擊賽」看似戲謔,但它的勝負(fù)直接決定了Claude、ChatGPT等硅谷雙雄的底層地基是否需要被全部推倒重建。

如果后Transformer(Post-Transformer)陣營(yíng)擁有更優(yōu)越的Scaling Law(縮放定律)曲線(xiàn),整個(gè)人類(lèi)通往AGI的物理路線(xiàn)圖都將被改寫(xiě)。

參考資料:

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ

編輯:大衛(wèi)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
法網(wǎng)再爆冷!王欣瑜橫掃大滿(mǎn)貫冠軍,送其七次一輪游

法網(wǎng)再爆冷!王欣瑜橫掃大滿(mǎn)貫冠軍,送其七次一輪游

林子說(shuō)事
2026-05-27 08:18:28
三十萬(wàn)頂大蓋帽,一夜之間說(shuō)沒(méi)就沒(méi)了。

三十萬(wàn)頂大蓋帽,一夜之間說(shuō)沒(méi)就沒(méi)了。

筆墨V
2026-05-26 06:09:38
53歲袁立病房照曝光!錢(qián)再多有什么用?她給所有中年女人提了個(gè)醒

53歲袁立病房照曝光!錢(qián)再多有什么用?她給所有中年女人提了個(gè)醒

文刀貳
2026-05-24 21:21:45
發(fā)現(xiàn)一個(gè)無(wú)奈的現(xiàn)象:城市八九十歲老人活著,基本是在“養(yǎng)”保姆

發(fā)現(xiàn)一個(gè)無(wú)奈的現(xiàn)象:城市八九十歲老人活著,基本是在“養(yǎng)”保姆

千秋歷史
2026-05-26 19:19:28
6歲小天賜頭發(fā)蓬亂無(wú)人管,72歲媽媽癱在床,75歲爸爸騎上代步車(chē)

6歲小天賜頭發(fā)蓬亂無(wú)人管,72歲媽媽癱在床,75歲爸爸騎上代步車(chē)

嫹筆牂牂
2026-05-27 07:54:51
一月八萬(wàn)不夠花,李雙江“賴(lài)”學(xué)校不退休,兒子改名出國(guó)后再作妖

一月八萬(wàn)不夠花,李雙江“賴(lài)”學(xué)校不退休,兒子改名出國(guó)后再作妖

一盅情懷
2026-05-16 20:12:47
馬正勇任四川省副省長(zhǎng)

馬正勇任四川省副省長(zhǎng)

新京報(bào)
2026-05-27 09:39:14
俄羅斯讓中國(guó)心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

俄羅斯讓中國(guó)心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

混沌錄
2026-04-09 16:27:09
世界上最揭露人心的十句話(huà),第一句我就信了

世界上最揭露人心的十句話(huà),第一句我就信了

詩(shī)詞世界
2026-05-18 06:05:48
湖人東契奇兌現(xiàn)承諾,在與未婚妻爭(zhēng)女兒撫養(yǎng)權(quán)時(shí)與女兒們共度時(shí)光

湖人東契奇兌現(xiàn)承諾,在與未婚妻爭(zhēng)女兒撫養(yǎng)權(quán)時(shí)與女兒們共度時(shí)光

好火子
2026-05-26 21:40:13
向華強(qiáng)揭向太老底,做手術(shù)前將隱藏資產(chǎn)全都告知老公,事后又要回

向華強(qiáng)揭向太老底,做手術(shù)前將隱藏資產(chǎn)全都告知老公,事后又要回

嫹筆牂牂
2026-05-27 07:45:08
2006,廣東太子酒店,幾位年輕姑娘的青春倩影

2006,廣東太子酒店,幾位年輕姑娘的青春倩影

娛你同歡
2026-05-26 22:05:53
博主硬剛稻城亞丁后續(xù):省道劃分內(nèi)部路,員工遭處罰,多方回應(yīng)

博主硬剛稻城亞丁后續(xù):省道劃分內(nèi)部路,員工遭處罰,多方回應(yīng)

青橘罐頭
2026-05-27 07:36:38
接受中廣專(zhuān)訪卻跑到飛碟電臺(tái)遲到半小時(shí) 趙少康:金溥聰你失智?

接受中廣專(zhuān)訪卻跑到飛碟電臺(tái)遲到半小時(shí) 趙少康:金溥聰你失智?

金牛傳聲
2026-05-27 10:11:01
黃仁勛引爆臺(tái)北市長(zhǎng)攻防戰(zhàn),羅智強(qiáng)轟沈伯洋:臺(tái)灣用電最大絆腳石

黃仁勛引爆臺(tái)北市長(zhǎng)攻防戰(zhàn),羅智強(qiáng)轟沈伯洋:臺(tái)灣用電最大絆腳石

海峽導(dǎo)報(bào)社
2026-05-27 08:37:03
養(yǎng)老徹底變天!國(guó)家不再全額兜底,普通人如何自救?

養(yǎng)老徹底變天!國(guó)家不再全額兜底,普通人如何自救?

了舞天下
2026-05-25 20:03:13
格局!張雪:我不是因?yàn)閻?ài)國(guó)而不買(mǎi)蘋(píng)果 不認(rèn)為買(mǎi)蘋(píng)果的人不愛(ài)國(guó)

格局!張雪:我不是因?yàn)閻?ài)國(guó)而不買(mǎi)蘋(píng)果 不認(rèn)為買(mǎi)蘋(píng)果的人不愛(ài)國(guó)

念洲
2026-05-26 21:45:21
絕不當(dāng)?shù)诙€(gè)馬杜羅,普京立下新規(guī)矩,一旦有事俄軍出兵境外

絕不當(dāng)?shù)诙€(gè)馬杜羅,普京立下新規(guī)矩,一旦有事俄軍出兵境外

嘆知
2026-05-27 07:08:32
印度網(wǎng)民:明明印軍能在一兩周內(nèi)占領(lǐng)中國(guó),為什么莫迪還不宣戰(zhàn)?

印度網(wǎng)民:明明印軍能在一兩周內(nèi)占領(lǐng)中國(guó),為什么莫迪還不宣戰(zhàn)?

健身狂人
2026-05-26 11:45:50
吉倫沃特陽(yáng)性后還給廣東隊(duì)打了一場(chǎng),大白邊就不能給上海隊(duì)打了?

吉倫沃特陽(yáng)性后還給廣東隊(duì)打了一場(chǎng),大白邊就不能給上海隊(duì)打了?

稻谷與小麥
2026-05-27 09:36:09
2026-05-27 11:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15315文章數(shù) 66893關(guān)注度
往期回顧 全部

科技要聞

美光股價(jià)大漲超19% 市值破萬(wàn)億美元

頭條要聞

媒體:魯比奧訪印 美印之間"蜜里藏刀"三大痛點(diǎn)很微妙

頭條要聞

媒體:魯比奧訪印 美印之間"蜜里藏刀"三大痛點(diǎn)很微妙

體育要聞

這群老阿姨,是最硬核的馬刺球迷

娛樂(lè)要聞

小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

財(cái)經(jīng)要聞

ST巖石退市背后:A股“炒殼”時(shí)代終結(jié)

汽車(chē)要聞

試駕新紅旗HQ9 2.0T混動(dòng)+雙電機(jī)四驅(qū)

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
時(shí)尚
游戲

房產(chǎn)要聞

招商地產(chǎn)接盤(pán)碧桂園!海口這個(gè)爛尾豪宅,要徹底改命?

藝術(shù)要聞

這個(gè)夏天去蘇州過(guò)幾天清閑安逸的日子

教育要聞

尋找優(yōu)秀實(shí)習(xí)生|北京大學(xué)出版社經(jīng)管圖書(shū)事業(yè)部崗位開(kāi)放中

這款來(lái)自千年前的“扎染盲盒”你拆過(guò)嗎?

PS PLUS港服會(huì)員折扣上線(xiàn)!最高可享67折 不容錯(cuò)過(guò)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版