无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

統治AI十年的Transformer，要被親爹親手砸碎？

2026-05-27 09:15:55　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】80分鐘的拳擊式辯論！Transformer聯合發明人親自下場為自己的作品辯護，對面三位挑戰者直指五大死穴。這是AI架構十年來最硬的一次正面交鋒。統治AI黃金十年的架構，地基是不是已經松了？

Transformer憑什么統治AI這么久？

長上下文、記憶、推理這些短板，新架構真能突破嗎？

所謂「后Transformer」，到底是更強的記憶機制、更高效的序列建模，還是從訓練到系統都得換一套？

5月5日，舊金山，Pathway搞了場拳擊擂臺式的辯論賽。

這不是比喻，是真擂臺。

一邊是Transformer的共同發明人?ukasz Kaiser，另一邊是主張「后Transformer時代」的新架構派。

注意一個細節：注意力機制的兩位聯合發明人，「Transformer八子」之一Llion Jones，坐在了Kaiser的對立面。。

話題就一個：下一代AI架構到底長什么樣。

現場坐滿研究者、創業者和投資人。輸贏不靠投票，靠「clapometer」——拍手計分器，誰掌聲響誰贏。

這是一場刀刀見紅、指名道姓的硬碰硬。

當裁判宣布比賽開始，統治了全球AI架構近十年的神話，第一次被它的締造者親自拉上了被告席進行自衛辯護。

這場思想界的重量級對決，從Transformer的五大死穴開始。

苦Transformer久矣

五大死穴

?ukasz Kaiser的身份讓這場辯論的分量直接拉滿。

他是Transformer的聯合發明人。

2017年那篇改變整個AI格局的論文「Attention Is All You Need」，他是作者之一。之后他參與了ChatGPT、GPT系列和o1的實際工程開發。

他是當事人。他今天坐在這里，是為自己的作品做辯護。

對面的三位挑戰者，來頭同樣不小。

Llion Jones，Transformer的另一位聯合發明人，Sakana AI聯合創始人。

Adrian Kosowski，Pathway首席科學官，BDH架構的發明人。

Matthias Lechner，Liquid AI首席技術官，MIT液態神經網絡的共同發明人。

這本身就是技術史上極其罕見的畫面。創造同一個東西的人，對它的未來產生了根本性分歧。

Kaiser開場用了一個類比。

他說Transformer的注意力機制，就像圖書管理員的卡片索引系統。

你走進圖書館，說出你要找的內容（query），管理員翻開卡片目錄（key），找到對應的書架位置，把書取出來交給你（value）。

簡潔。高效。全局檢索。

但挑戰者們要問的是：如果這個圖書館有一億本書呢？每次查詢都要翻遍所有卡片，這個系統還能撐住嗎？

這就是O(n2)，懸在Transformer頭上的達摩克利斯之劍。

三位挑戰者沒有籠統地說「Transformer不行了」。他們拆出了五個具體的、當前Transformer架構無法在設計層面解決的開放難題。

每一個都直指要害。

挑戰者們最尖銳的隱喻，直指Transformer的記憶與持續學習缺陷：「土撥鼠之日」。

在電影《土撥鼠之日》中，主角每天醒來，世界都會重置，昨天的記憶蕩然無存。

目前，Transformer也是如此。

每一次推理（Forward Pass），它的權重（Weights）都是完全凍結的。

哪怕你今天跟它聊了十個小時，它學到了絕妙的新知識，在下一次會話啟動時，它依然是一個失憶的白癡。

現在工業界為了解決這個問題，拼命往里塞RAG（檢索增強生成）、長上下文（KV Cache）。

但這根本不是架構級的解法，而是用昂貴的算力在傷口上貼創可貼。

五大死穴，每一個單拎出來都不是小事。合在一起，構成了一張完整的起訴書。

但起訴書不等于判決書。

Kaiser的底牌

你行你上，拿曲線說話

面對五大攻擊，Kaiser沒有一一辯駁。

他沒說O(n2)不是問題，沒說災難性遺忘不存在，沒說Transformer完美無缺。

他拋出了一句話，成了整場辯論的核心：

除非Post-Transformer證明更好的scaling曲線，否則Transformer仍然是主流。

這句話的殺傷力在于，它把舉證責任推回了挑戰者。

什么是scaling曲線？

簡單說，就是「投入更多算力和數據，AI能力提升多少」。

Transformer統治近十年，最核心的原因不是它沒缺陷，而是它的scaling曲線至今沒被任何架構超越。

這是OpenAI敢砸幾十億美元訓練GPT、Anthropic持續擴大Claude規模的底氣。

Kaiser的邏輯極其清晰：

你說Transformer有五個問題？我同意。

但有問題的東西和應該被替換的東西之間，有一道鴻溝。跨過它，你需要的不是五篇論文，是一條更好的scaling曲線。

然后，他展開了更具體的辯護，而且帶著工程現場的鐵銹味。

并行性是硬道理。

上周，在最新的Nvidia硬件上，Kaiser重新實現了Transformer和幾個老式RNN，并做了對比。

非常小的GRU，比一個大得多的Transformer還要慢50倍。

RNN確實優美，但它的順序執行特性在當前硬件上就是一場災難。

如果真存在一種更好的架構，你需要用50倍的時間去證明它——而大多數實驗室沒有這個耐心。

十年的工程積累。

不只是GPU優化，編譯器、訓練框架（PyTorch、JAX）、推理引擎（vLLM、TensorRT-LLM）、量化工具——整個AI工程棧都圍繞Transformer搭建。

換架構意味著這一切都要重來。

隱式的「持續學習」，早已發生。

Kaiser指出，Transformer在大規模預訓練后，前向傳播中表現出的上下文學習（In-Context Learning），在數學上其實完美模擬了反向傳播中的梯度下降。

換句話說，你們說它不會學，它其實在以另一種方式偷偷地學。

他的辯護不是「Transformer永遠是最優解」，而是「Transformer現在是最優解，除非你證明不是」。

然后他甩出一句讓對面啞口無言的話：

也許找到下一個架構的，恰恰會是Transformer本身——而不是你們。

全場笑聲。

但大家都聽出來了：這是認真的。

AI：無人可擋的光明未來

Kaiser的結束陳詞，沒有說「Transformer永遠是最優解」。他說的是：「目前，Transformer仍然贏。」

「目前」這個詞，是他留給挑戰者的唯一縫隙。

更微妙的是，他親手交出了一件本屬于自己陣營的武器。

后Transformer陣營此前最大的短板，是「缺乏大算力的工程和硬件驗證」——新架構跑得慢、沒人愿意為它改芯片。但Kaiser自己承認，這道壁壘正在被瓦解：

現在，AI Agent已經學會了寫極高難度的CUDA和Triton核函數。

即便一個新架構最初運行慢50倍，你只需要把代碼丟給Agent，它就能在短時間內幫你優化出幾乎能榨干GPU算力的專用內核。

硬件彩票的壁壘，正在被智能體開發生態自己砸碎。

這意味著，一旦有人在百萬Token、千萬Token的極長上下文任務上，用Post-Transformer架構跑出一條更漂亮的困惑度曲線，哪怕只有一點點優勢，也會在scaling的放大鏡下，形成對舊帝國的致命一擊。

Kaiser甚至主動提議：應該建立一個統一的測試標準——用困惑度衡量所有架構在同等條件下的學習能力。

「我們應該在這件事上達成共識，然后各自去證明自己的架構更好。」

這句話的潛臺詞是：挑戰賽正式開始。

而Jones的最后一句話更直接：

今天我沒有得到任何理由讓我懷疑自己的信念：有更好的東西存在。當那個突破到來，我們所有人都會進入后Transformer時代，?ukasz也不例外——因為他屆時別無選擇。

這場「拳擊賽」看似戲謔，但它的勝負直接決定了Claude、ChatGPT等硅谷雙雄的底層地基是否需要被全部推倒重建。

如果后Transformer（Post-Transformer）陣營擁有更優越的Scaling Law（縮放定律）曲線，整個人類通往AGI的物理路線圖都將被改寫。

參考資料：

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ

編輯：大衛

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI 編程終于有全局視野了！3 萬 Star 項目補齊最大短板

鈦媒體APP 2026-05-30 10:22:27
37 跟貼 37
倒反天罡，AI開始給人類打分！Claude評分標準曝光: 優秀人類得7.5分

新智元 2026-05-30 15:07:01
13 跟貼 13

Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
39 跟貼 39
英偉達提出Gamma-World：世界模型從「一個人玩」到「多人共處」

量子位 2026-05-30 11:16:51
0 跟貼 0

AI原生時代，讓世界適應Agent而非教AI做人 | 港大黃超@AIGC2026

量子位 2026-05-31 11:56:06
0 跟貼 0

從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
3 跟貼 3
黃仁勛親臨現場！COMPUTEX 2026終極前瞻：AI計算統治一切？

雷科技 2026-05-30 21:29:07
2 跟貼 2

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
復旦鐵三角：開辟最優物理AI路徑！時空一體世界動作模型問世

新智元 2026-05-31 13:08:37
1 跟貼 1
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
小學生畫了撇胡子騙過AI年齡驗證，硅谷工程師沉默了

機器之心Pro 2026-05-31 14:27:31
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
面試官：說一下 Agent 的常見范式

新浪財經 2026-05-31 10:41:28
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
451 跟貼 451
中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
8431 跟貼 8431
被禁8年仍奪命！百草枯發明人：我只想除草，沒想讓人喝啊！

暖心萌阿菇涼 2026-05-29 15:03:04
8 跟貼 8
你花了四年學編程，卻要用一輩子補寫作

一隅安穩 2026-05-31 01:29:48
0 跟貼 0
人類感知系統架構圖佛學與神經科學的驚人撞車

湯湯是小生活家 2026-05-30 06:02:03
0 跟貼 0
熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
178 跟貼 178
人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
929 跟貼 929
環球下周看點：英偉達芯片帝國擴張博通、慧與科技發布財報

財聯社 2026-05-31 06:29:13
1 跟貼 1
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1898 跟貼 1898
今晚，上海男籃迎來最嚴峻考驗！

新民晚報 2026-05-31 11:02:21
43 跟貼 43
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
227 跟貼 227
野球場籃球對抗升級球員無技術全靠身體碰撞沖突場面頻發引熱議

我很乖 2026-05-30 03:47:24
0 跟貼 0
搭載華為全系技術，啟境GT7發布，預售價21.99萬起，也是卷啊！

貓meme團子 2026-05-30 02:49:41
0 跟貼 0
中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
127 跟貼 127
比亞迪自研芯片太牛！玄機架構助力智駕，如何實現兜底承諾？

懶大王教剪輯 2026-05-30 04:35:08
1 跟貼 1
國泰航班降落滑行時有幼童哭鬧，男乘客高聲怒斥！航司回應

南方都市報 2026-05-30 20:52:09
614 跟貼 614
比亞迪技術實力鑄就底氣，承諾車主智駕雙兜底

數碼小甜 2026-05-30 15:11:58
3 跟貼 3
印度邏輯里是看不起美國的！

乍閃超新星 2026-05-31 14:16:53
0 跟貼 0
NBA｜西部決賽搶七大戰，馬刺擊敗雷霆奪得總決賽門票

澎湃新聞 2026-05-31 10:50:28
205 跟貼 205
梁實第30次參加高考：我覺得有把握

極目新聞 2026-05-30 16:28:58
1756 跟貼 1756
C-130引擎模型！可變槳！可調速！收藏級還原太酷了#航模

制造科技 2026-05-29 08:05:14
0 跟貼 0
麻省理工出品，AI時代人人必修的最佳公開課！教AI玩狼人殺，玩著做出一個AI項目

麻省理工AI公開課 2026-05-30 14:10:53
3 跟貼 3
胖東來調整營業時間

界面新聞 2026-05-31 10:21:42
24 跟貼 24

寧波知名法餐廳老板娘吳優琴去世，年僅39歲，嫁老外定居中國11年

寧波知名法餐廳老板娘吳優琴去世，年僅39歲，嫁老外定居中國11年

裕豐娛間說

2026-05-30 18:31:41

文班談挺進總決賽：這是一生一次的機會，幾乎是我生命的意義

文班談挺進總決賽：這是一生一次的機會，幾乎是我生命的意義

懂球帝

2026-05-31 13:20:12

快訊！關于鄭麗文的消息！

故事終將光明磊落

2026-05-31 10:59:46

杰拉德：不理解為什么埃澤要搞這些花樣，點球直接用力踢就行

杰拉德：不理解為什么埃澤要搞這些花樣，點球直接用力踢就行

懂球帝

2026-05-31 10:40:08

“沒穿幾次壞到離譜！”知名品牌淘寶旗艦店，上海消費者質疑買到“陳年老鞋”，客服：庫存信息屬店鋪隱私，無法提供

“沒穿幾次壞到離譜！”知名品牌淘寶旗艦店，上海消費者質疑買到“陳年老鞋”，客服：庫存信息屬店鋪隱私，無法提供

新民晚報

2026-05-31 11:03:40

"香會"期間英美澳官宣為無人潛航器研制新武器

"香會"期間英美澳官宣為無人潛航器研制新武器

看看新聞Knews

2026-05-31 12:16:11

金融危機要來了？專家預測：未來12到18個月，世界將爆發金融風暴

金融危機要來了？專家預測：未來12到18個月，世界將爆發金融風暴

別人都叫我阿腈

2026-05-30 20:32:28

隨著雷霆3-4出局，NBA總決賽確定：馬刺vs尼克斯！總冠軍預測如下

隨著雷霆3-4出局，NBA總決賽確定：馬刺vs尼克斯！總冠軍預測如下

小火箭愛體育

2026-05-31 11:29:29

央媒調查稻城亞丁“道路設卡擺渡收費”：收的什么費？景區有權設卡嗎？

央媒調查稻城亞丁“道路設卡擺渡收費”：收的什么費？景區有權設卡嗎？

澎湃新聞

2026-05-31 07:54:04

你慶幸自己看過哪本含金量極高的書?網友：顛覆了認知，再不內耗

你慶幸自己看過哪本含金量極高的書?網友：顛覆了認知，再不內耗

夜深愛雜談

2026-05-30 08:34:39

香會現場反差拉滿：美國不敢提臺灣，我方直接點名敲打日本

香會現場反差拉滿：美國不敢提臺灣，我方直接點名敲打日本

南宗歷史

2026-05-31 06:51:48

阿斯利姆，遇襲身亡

極目新聞

2026-05-31 10:30:10

一男子家中被盜10萬，嫌狗不叫把它賣了300元，誰料，3天后警察上門，說出一句話，男子瘋了一樣沖出去...

一男子家中被盜10萬，嫌狗不叫把它賣了300元，誰料，3天后警察上門，說出一句話，男子瘋了一樣沖出去...

背包旅行

2026-05-31 11:50:15

哈珀：文班做到了作為偉大領袖的一切，無論如何我們都跟隨他

哈珀：文班做到了作為偉大領袖的一切，無論如何我們都跟隨他

懂球帝

2026-05-31 15:17:08

50歲后才懂，夏天的熱是最好的補藥

50歲后才懂，夏天的熱是最好的補藥

詩詞天地

2026-05-30 06:00:13

法學博士牛學輝被執行死刑，新婚12天殺害妻子，行刑前拒見親人

法學博士牛學輝被執行死刑，新婚12天殺害妻子，行刑前拒見親人

深夜探案館

2026-05-30 12:00:12

我國最大遺憾！1994年將領土劃給俄羅斯，如今還能再收回來嗎？

我國最大遺憾！1994年將領土劃給俄羅斯，如今還能再收回來嗎？

涼州辭

2026-05-30 10:15:03

萬萬沒想到：李連杰主演的《少林寺》，絕大多數鏡頭居然都不是在“少林寺”拍的！

萬萬沒想到：李連杰主演的《少林寺》，絕大多數鏡頭居然都不是在“少林寺”拍的！

良有方

2026-05-31 05:38:41

哺乳期選手參賽隱私被直播，萬人圍觀無人管，賽事方的敷衍太離譜

哺乳期選手參賽隱私被直播，萬人圍觀無人管，賽事方的敷衍太離譜

老特有話說

2026-05-30 16:48:20

單親媽媽蹬三輪賣粽子孩子車斗里寫作業，這一幕感動全網，當事媽媽拒絕網友捐款

單親媽媽蹬三輪賣粽子孩子車斗里寫作業，這一幕感動全網，當事媽媽拒絕網友捐款

瀟湘晨報

2026-05-31 02:42:18

AI產業主平臺領航智能+時代

15349文章數 66894關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經要聞

醫學首席轉崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

本地

手機

數碼

公開課

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

本地新聞

用剪紙的方式，打開江蘇揚州

手機要聞

國產旗艦單品過百萬盤點，這個結果意外嗎？

數碼要聞

小米米家無線吸塵器4 Pro開啟預售，以舊換新1219元

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版