![]()
新智元報道
![]()
【新智元導讀】80分鐘的拳擊式辯論!Transformer聯合發明人親自下場為自己的作品辯護,對面三位挑戰者直指五大死穴。這是AI架構十年來最硬的一次正面交鋒。統治AI黃金十年的架構,地基是不是已經松了?
Transformer憑什么統治AI這么久?
長上下文、記憶、推理這些短板,新架構真能突破嗎?
所謂「后Transformer」,到底是更強的記憶機制、更高效的序列建模,還是從訓練到系統都得換一套?
5月5日,舊金山,Pathway搞了場拳擊擂臺式的辯論賽。
這不是比喻,是真擂臺。
![]()
一邊是Transformer的共同發明人?ukasz Kaiser,另一邊是主張「后Transformer時代」的新架構派。
![]()
注意一個細節:注意力機制的兩位聯合發明人,「Transformer八子」之一Llion Jones,坐在了Kaiser的對立面。。
話題就一個:下一代AI架構到底長什么樣。
現場坐滿研究者、創業者和投資人。輸贏不靠投票,靠「clapometer」——拍手計分器,誰掌聲響誰贏。
這是一場刀刀見紅、指名道姓的硬碰硬。
當裁判宣布比賽開始,統治了全球AI架構近十年的神話,第一次被它的締造者親自拉上了被告席進行自衛辯護。
這場思想界的重量級對決,從Transformer的五大死穴開始。
苦Transformer久矣
五大死穴
?ukasz Kaiser的身份讓這場辯論的分量直接拉滿。
他是Transformer的聯合發明人。
2017年那篇改變整個AI格局的論文「Attention Is All You Need」,他是作者之一。之后他參與了ChatGPT、GPT系列和o1的實際工程開發。
他是當事人。他今天坐在這里,是為自己的作品做辯護。
對面的三位挑戰者,來頭同樣不小。
Llion Jones,Transformer的另一位聯合發明人,Sakana AI聯合創始人。
Adrian Kosowski,Pathway首席科學官,BDH架構的發明人。
Matthias Lechner,Liquid AI首席技術官,MIT液態神經網絡的共同發明人。
![]()
這本身就是技術史上極其罕見的畫面。創造同一個東西的人,對它的未來產生了根本性分歧。
Kaiser開場用了一個類比。
他說Transformer的注意力機制,就像圖書管理員的卡片索引系統。
你走進圖書館,說出你要找的內容(query),管理員翻開卡片目錄(key),找到對應的書架位置,把書取出來交給你(value)。
![]()
簡潔。高效。全局檢索。
但挑戰者們要問的是:如果這個圖書館有一億本書呢?每次查詢都要翻遍所有卡片,這個系統還能撐住嗎?
這就是O(n2),懸在Transformer頭上的達摩克利斯之劍。
三位挑戰者沒有籠統地說「Transformer不行了」。他們拆出了五個具體的、當前Transformer架構無法在設計層面解決的開放難題。
每一個都直指要害。
![]()
挑戰者們最尖銳的隱喻,直指Transformer的記憶與持續學習缺陷:「土撥鼠之日」。
在電影《土撥鼠之日》中,主角每天醒來,世界都會重置,昨天的記憶蕩然無存。
![]()
目前,Transformer也是如此。
每一次推理(Forward Pass),它的權重(Weights)都是完全凍結的。
哪怕你今天跟它聊了十個小時,它學到了絕妙的新知識,在下一次會話啟動時,它依然是一個失憶的白癡。
現在工業界為了解決這個問題,拼命往里塞RAG(檢索增強生成)、長上下文(KV Cache)。
但這根本不是架構級的解法,而是用昂貴的算力在傷口上貼創可貼。
五大死穴,每一個單拎出來都不是小事。合在一起,構成了一張完整的起訴書。
但起訴書不等于判決書。
Kaiser的底牌
你行你上,拿曲線說話
面對五大攻擊,Kaiser沒有一一辯駁。
他沒說O(n2)不是問題,沒說災難性遺忘不存在,沒說Transformer完美無缺。
他拋出了一句話,成了整場辯論的核心:
除非Post-Transformer證明更好的scaling曲線,否則Transformer仍然是主流。
![]()
這句話的殺傷力在于,它把舉證責任推回了挑戰者。
什么是scaling曲線?
簡單說,就是「投入更多算力和數據,AI能力提升多少」。
![]()
Transformer統治近十年,最核心的原因不是它沒缺陷,而是它的scaling曲線至今沒被任何架構超越。
這是OpenAI敢砸幾十億美元訓練GPT、Anthropic持續擴大Claude規模的底氣。
Kaiser的邏輯極其清晰:
你說Transformer有五個問題?我同意。
但有問題的東西和應該被替換的東西之間,有一道鴻溝。跨過它,你需要的不是五篇論文,是一條更好的scaling曲線。
然后,他展開了更具體的辯護,而且帶著工程現場的鐵銹味。
并行性是硬道理。
上周,在最新的Nvidia硬件上,Kaiser重新實現了Transformer和幾個老式RNN,并做了對比。
非常小的GRU,比一個大得多的Transformer還要慢50倍。
![]()
RNN確實優美,但它的順序執行特性在當前硬件上就是一場災難。
如果真存在一種更好的架構,你需要用50倍的時間去證明它——而大多數實驗室沒有這個耐心。
十年的工程積累。
不只是GPU優化,編譯器、訓練框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整個AI工程棧都圍繞Transformer搭建。
![]()
換架構意味著這一切都要重來。
隱式的「持續學習」,早已發生。
Kaiser指出,Transformer在大規模預訓練后,前向傳播中表現出的上下文學習(In-Context Learning),在數學上其實完美模擬了反向傳播中的梯度下降。
![]()
換句話說,你們說它不會學,它其實在以另一種方式偷偷地學。
他的辯護不是「Transformer永遠是最優解」,而是「Transformer現在是最優解,除非你證明不是」。
然后他甩出一句讓對面啞口無言的話:
也許找到下一個架構的,恰恰會是Transformer本身——而不是你們。
全場笑聲。
但大家都聽出來了:這是認真的。
AI:無人可擋的光明未來
Kaiser的結束陳詞,沒有說「Transformer永遠是最優解」。他說的是:「目前,Transformer仍然贏。」
「目前」這個詞,是他留給挑戰者的唯一縫隙。
更微妙的是,他親手交出了一件本屬于自己陣營的武器。
后Transformer陣營此前最大的短板,是「缺乏大算力的工程和硬件驗證」——新架構跑得慢、沒人愿意為它改芯片。但Kaiser自己承認,這道壁壘正在被瓦解:
現在,AI Agent已經學會了寫極高難度的CUDA和Triton核函數。
![]()
即便一個新架構最初運行慢50倍,你只需要把代碼丟給Agent,它就能在短時間內幫你優化出幾乎能榨干GPU算力的專用內核。
硬件彩票的壁壘,正在被智能體開發生態自己砸碎。
![]()
這意味著,一旦有人在百萬Token、千萬Token的極長上下文任務上,用Post-Transformer架構跑出一條更漂亮的困惑度曲線,哪怕只有一點點優勢,也會在scaling的放大鏡下,形成對舊帝國的致命一擊。
Kaiser甚至主動提議:應該建立一個統一的測試標準——用困惑度衡量所有架構在同等條件下的學習能力。
「我們應該在這件事上達成共識,然后各自去證明自己的架構更好。」
這句話的潛臺詞是:挑戰賽正式開始。
而Jones的最后一句話更直接:
今天我沒有得到任何理由讓我懷疑自己的信念:有更好的東西存在。當那個突破到來,我們所有人都會進入后Transformer時代,?ukasz也不例外——因為他屆時別無選擇。
這場「拳擊賽」看似戲謔,但它的勝負直接決定了Claude、ChatGPT等硅谷雙雄的底層地基是否需要被全部推倒重建。
如果后Transformer(Post-Transformer)陣營擁有更優越的Scaling Law(縮放定律)曲線,整個人類通往AGI的物理路線圖都將被改寫。
參考資料:
https://x.com/probnstat/status/2057522470760914957?s=20
https://www.youtube.com/watch?v=hCjoMLuCuLQ
編輯:大衛
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.