无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

統治AI十年的Transformer,要被親爹親手砸碎?

0
分享至


新智元報道


【新智元導讀】80分鐘的拳擊式辯論!Transformer聯合發明人親自下場為自己的作品辯護,對面三位挑戰者直指五大死穴。這是AI架構十年來最硬的一次正面交鋒。統治AI黃金十年的架構,地基是不是已經松了?

Transformer憑什么統治AI這么久?

長上下文、記憶、推理這些短板,新架構真能突破嗎?

所謂「后Transformer」,到底是更強的記憶機制、更高效的序列建模,還是從訓練到系統都得換一套?

5月5日,舊金山,Pathway搞了場拳擊擂臺式的辯論賽。

這不是比喻,是真擂臺。


一邊是Transformer的共同發明人?ukasz Kaiser,另一邊是主張「后Transformer時代」的新架構派。


注意一個細節:注意力機制的兩位聯合發明人,「Transformer八子」之一Llion Jones,坐在了Kaiser的對立面。。

話題就一個:下一代AI架構到底長什么樣。

現場坐滿研究者、創業者和投資人。輸贏不靠投票,靠「clapometer」——拍手計分器,誰掌聲響誰贏。

這是一場刀刀見紅、指名道姓的硬碰硬。

當裁判宣布比賽開始,統治了全球AI架構近十年的神話,第一次被它的締造者親自拉上了被告席進行自衛辯護。

這場思想界的重量級對決,從Transformer的五大死穴開始。

苦Transformer久矣

五大死穴

?ukasz Kaiser的身份讓這場辯論的分量直接拉滿。

他是Transformer的聯合發明人。

2017年那篇改變整個AI格局的論文「Attention Is All You Need」,他是作者之一。之后他參與了ChatGPT、GPT系列和o1的實際工程開發。

他是當事人。他今天坐在這里,是為自己的作品做辯護。

對面的三位挑戰者,來頭同樣不小。

Llion Jones,Transformer的另一位聯合發明人,Sakana AI聯合創始人。

Adrian Kosowski,Pathway首席科學官,BDH架構的發明人。

Matthias Lechner,Liquid AI首席技術官,MIT液態神經網絡的共同發明人。


這本身就是技術史上極其罕見的畫面。創造同一個東西的人,對它的未來產生了根本性分歧。

Kaiser開場用了一個類比。

他說Transformer的注意力機制,就像圖書管理員的卡片索引系統

你走進圖書館,說出你要找的內容(query),管理員翻開卡片目錄(key),找到對應的書架位置,把書取出來交給你(value)。


簡潔。高效。全局檢索。

但挑戰者們要問的是:如果這個圖書館有一億本書呢?每次查詢都要翻遍所有卡片,這個系統還能撐住嗎?

這就是O(n2),懸在Transformer頭上的達摩克利斯之劍。

三位挑戰者沒有籠統地說「Transformer不行了」。他們拆出了五個具體的、當前Transformer架構無法在設計層面解決的開放難題。

每一個都直指要害。


挑戰者們最尖銳的隱喻,直指Transformer的記憶與持續學習缺陷:「土撥鼠之日」

在電影《土撥鼠之日》中,主角每天醒來,世界都會重置,昨天的記憶蕩然無存。


目前,Transformer也是如此。

每一次推理(Forward Pass),它的權重(Weights)都是完全凍結的。

哪怕你今天跟它聊了十個小時,它學到了絕妙的新知識,在下一次會話啟動時,它依然是一個失憶的白癡。

現在工業界為了解決這個問題,拼命往里塞RAG(檢索增強生成)、長上下文(KV Cache)。

但這根本不是架構級的解法,而是用昂貴的算力在傷口上貼創可貼。

五大死穴,每一個單拎出來都不是小事。合在一起,構成了一張完整的起訴書。

但起訴書不等于判決書。

Kaiser的底牌

你行你上,拿曲線說話

面對五大攻擊,Kaiser沒有一一辯駁。

他沒說O(n2)不是問題,沒說災難性遺忘不存在,沒說Transformer完美無缺。

他拋出了一句話,成了整場辯論的核心:

除非Post-Transformer證明更好的scaling曲線,否則Transformer仍然是主流。


這句話的殺傷力在于,它把舉證責任推回了挑戰者。

什么是scaling曲線?

簡單說,就是「投入更多算力和數據,AI能力提升多少」。


Transformer統治近十年,最核心的原因不是它沒缺陷,而是它的scaling曲線至今沒被任何架構超越。

這是OpenAI敢砸幾十億美元訓練GPT、Anthropic持續擴大Claude規模的底氣。

Kaiser的邏輯極其清晰:

你說Transformer有五個問題?我同意。

但有問題的東西和應該被替換的東西之間,有一道鴻溝。跨過它,你需要的不是五篇論文,是一條更好的scaling曲線。

然后,他展開了更具體的辯護,而且帶著工程現場的鐵銹味。

并行性是硬道理。

上周,在最新的Nvidia硬件上,Kaiser重新實現了Transformer和幾個老式RNN,并做了對比。

非常小的GRU,比一個大得多的Transformer還要慢50倍。


RNN確實優美,但它的順序執行特性在當前硬件上就是一場災難。

如果真存在一種更好的架構,你需要用50倍的時間去證明它——而大多數實驗室沒有這個耐心。

十年的工程積累。

不只是GPU優化,編譯器、訓練框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整個AI工程棧都圍繞Transformer搭建。


換架構意味著這一切都要重來。

隱式的「持續學習」,早已發生。

Kaiser指出,Transformer在大規模預訓練后,前向傳播中表現出的上下文學習(In-Context Learning),在數學上其實完美模擬了反向傳播中的梯度下降。


換句話說,你們說它不會學,它其實在以另一種方式偷偷地學。

他的辯護不是「Transformer永遠是最優解」,而是「Transformer現在是最優解,除非你證明不是」。

然后他甩出一句讓對面啞口無言的話:

也許找到下一個架構的,恰恰會是Transformer本身——而不是你們。

全場笑聲。

但大家都聽出來了:這是認真的。

AI:無人可擋的光明未來

Kaiser的結束陳詞,沒有說「Transformer永遠是最優解」。他說的是:「目前,Transformer仍然贏。」

「目前」這個詞,是他留給挑戰者的唯一縫隙。

更微妙的是,他親手交出了一件本屬于自己陣營的武器。

后Transformer陣營此前最大的短板,是「缺乏大算力的工程和硬件驗證」——新架構跑得慢、沒人愿意為它改芯片。但Kaiser自己承認,這道壁壘正在被瓦解:

現在,AI Agent已經學會了寫極高難度的CUDA和Triton核函數。


即便一個新架構最初運行慢50倍,你只需要把代碼丟給Agent,它就能在短時間內幫你優化出幾乎能榨干GPU算力的專用內核。

硬件彩票的壁壘,正在被智能體開發生態自己砸碎。


這意味著,一旦有人在百萬Token、千萬Token的極長上下文任務上,用Post-Transformer架構跑出一條更漂亮的困惑度曲線,哪怕只有一點點優勢,也會在scaling的放大鏡下,形成對舊帝國的致命一擊。

Kaiser甚至主動提議:應該建立一個統一的測試標準——用困惑度衡量所有架構在同等條件下的學習能力。

「我們應該在這件事上達成共識,然后各自去證明自己的架構更好。」

這句話的潛臺詞是:挑戰賽正式開始。

而Jones的最后一句話更直接:

今天我沒有得到任何理由讓我懷疑自己的信念:有更好的東西存在。當那個突破到來,我們所有人都會進入后Transformer時代,?ukasz也不例外——因為他屆時別無選擇。

這場「拳擊賽」看似戲謔,但它的勝負直接決定了Claude、ChatGPT等硅谷雙雄的底層地基是否需要被全部推倒重建。

如果后Transformer(Post-Transformer)陣營擁有更優越的Scaling Law(縮放定律)曲線,整個人類通往AGI的物理路線圖都將被改寫。

參考資料:

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ

編輯:大衛

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
寧波知名法餐廳老板娘吳優琴去世,年僅39歲,嫁老外定居中國11年

寧波知名法餐廳老板娘吳優琴去世,年僅39歲,嫁老外定居中國11年

裕豐娛間說
2026-05-30 18:31:41
文班談挺進總決賽:這是一生一次的機會,幾乎是我生命的意義

文班談挺進總決賽:這是一生一次的機會,幾乎是我生命的意義

懂球帝
2026-05-31 13:20:12
快訊!關于鄭麗文的消息!

快訊!關于鄭麗文的消息!

故事終將光明磊落
2026-05-31 10:59:46
杰拉德:不理解為什么埃澤要搞這些花樣,點球直接用力踢就行

杰拉德:不理解為什么埃澤要搞這些花樣,點球直接用力踢就行

懂球帝
2026-05-31 10:40:08
“沒穿幾次壞到離譜!”知名品牌淘寶旗艦店,上海消費者質疑買到“陳年老鞋”,客服:庫存信息屬店鋪隱私,無法提供

“沒穿幾次壞到離譜!”知名品牌淘寶旗艦店,上海消費者質疑買到“陳年老鞋”,客服:庫存信息屬店鋪隱私,無法提供

新民晚報
2026-05-31 11:03:40
"香會"期間 英美澳官宣為無人潛航器研制新武器

"香會"期間 英美澳官宣為無人潛航器研制新武器

看看新聞Knews
2026-05-31 12:16:11
金融危機要來了?專家預測:未來12到18個月,世界將爆發金融風暴

金融危機要來了?專家預測:未來12到18個月,世界將爆發金融風暴

別人都叫我阿腈
2026-05-30 20:32:28
隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預測如下

隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預測如下

小火箭愛體育
2026-05-31 11:29:29
央媒調查稻城亞丁“道路設卡擺渡收費”:收的什么費?景區有權設卡嗎?

央媒調查稻城亞丁“道路設卡擺渡收費”:收的什么費?景區有權設卡嗎?

澎湃新聞
2026-05-31 07:54:04
你慶幸自己看過哪本含金量極高的書?網友:顛覆了認知,再不內耗

你慶幸自己看過哪本含金量極高的書?網友:顛覆了認知,再不內耗

夜深愛雜談
2026-05-30 08:34:39
香會現場反差拉滿:美國不敢提臺灣,我方直接點名敲打日本

香會現場反差拉滿:美國不敢提臺灣,我方直接點名敲打日本

南宗歷史
2026-05-31 06:51:48
阿斯利姆,遇襲身亡

阿斯利姆,遇襲身亡

極目新聞
2026-05-31 10:30:10
一男子家中被盜10萬,嫌狗不叫把它賣了300元,誰料,3天后警察上門,說出一句話,男子瘋了一樣沖出去...

一男子家中被盜10萬,嫌狗不叫把它賣了300元,誰料,3天后警察上門,說出一句話,男子瘋了一樣沖出去...

背包旅行
2026-05-31 11:50:15
哈珀:文班做到了作為偉大領袖的一切,無論如何我們都跟隨他

哈珀:文班做到了作為偉大領袖的一切,無論如何我們都跟隨他

懂球帝
2026-05-31 15:17:08
50歲后才懂,夏天的熱是最好的補藥

50歲后才懂,夏天的熱是最好的補藥

詩詞天地
2026-05-30 06:00:13
法學博士牛學輝被執行死刑,新婚12天殺害妻子,行刑前拒見親人

法學博士牛學輝被執行死刑,新婚12天殺害妻子,行刑前拒見親人

深夜探案館
2026-05-30 12:00:12
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

涼州辭
2026-05-30 10:15:03
萬萬沒想到:李連杰主演的《少林寺》,絕大多數鏡頭居然都不是在“少林寺”拍的!

萬萬沒想到:李連杰主演的《少林寺》,絕大多數鏡頭居然都不是在“少林寺”拍的!

良有方
2026-05-31 05:38:41
哺乳期選手參賽隱私被直播,萬人圍觀無人管,賽事方的敷衍太離譜

哺乳期選手參賽隱私被直播,萬人圍觀無人管,賽事方的敷衍太離譜

老特有話說
2026-05-30 16:48:20
單親媽媽蹬三輪賣粽子孩子車斗里寫作業,這一幕感動全網,當事媽媽拒絕網友捐款

單親媽媽蹬三輪賣粽子孩子車斗里寫作業,這一幕感動全網,當事媽媽拒絕網友捐款

瀟湘晨報
2026-05-31 02:42:18
2026-05-31 15:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
本地
手機
數碼
公開課

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

本地新聞

用剪紙的方式,打開江蘇揚州

手機要聞

國產旗艦單品過百萬盤點,這個結果意外嗎?

數碼要聞

小米米家無線吸塵器4 Pro開啟預售,以舊換新1219元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版