无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

兩個半球:Transformer、Diffusion 與智能

0
分享至

最近朋友寫了一篇文章,《》。 引發了我與 Claude 的多輪對話思考,將其整理為蘇格拉底式問答。

語言是地基,視覺是外掛?

:現在行業在爭論一件事:多模態 AI 的未來,到底是語言為主,還是視覺為主?你怎么看?

:在回答之前,我想先問你:你為什么覺得必須有一個“為主”?

:因為總得有個地基吧。房子總要建在什么東西上面。

:這正是我想追問的。“地基”是一個隱喻。你有沒有想過,這個隱喻本身可能就在誤導我們?

:怎么說?

:你看語言和視覺這兩樣東西。它們在人類身上是怎么共存的?是語言建立在視覺之上嗎?還是視覺是語言的附屬?

:好像都不是。它們是并列的。

:那如果我們看得更仔細一點。你閉上眼睛,想一幅畫。你是怎么想的?

:就是……想象出來。

:是從左上角第一筆開始,一筆一筆往右推的嗎?

:不是。更像是先有一個整體的感覺、一個調性、一個氛圍,然后細節慢慢浮出來。

:好。現在再想一下:你怎么“想”一段論證?

:那就完全不一樣了。一步推一步,前提推出結論。順序錯了,整個論證就塌了。

:所以你剛才做了兩件事:一件是連續的、并行的、整體先于局部的思考,另一件是離散的、序列的、局部構成整體的思考。

:確實。

:這兩件事,可能根本不是同一種東西。

Transformer 與 Diffusion

:那跟 AI 有什么關系?

:這里有個有意思的巧合。這幾年 AI 圈最成功的兩種架構是什么?

:Transformer 和 Diffusion。

:對。現在請你想一想,Transformer 在做什么?

:預測下一個 token。

:一步一步預測?

:對,自回歸。

:那 Diffusion 呢?

:從噪聲里,整張圖一起演化、一起細化。

:你發現什么沒有?

:這不就是我剛才說的那兩種思考方式嗎?

:對。Transformer 是離散、序列、符號的;Diffusion 是連續、并行、場態的。這不是巧合。這是兩種在數學上就不兼容的生成范式,恰好對應了兩種在認知上就不兼容的思考方式。

:所以 Transformer 擅長語言,Diffusion 擅長視覺,就是這個原因?

:比這更深一點。不是語言與視覺的差別,而是符號與場態的差別。 語言恰好是符號信號,圖像恰好是場態信號。真正的分野不在模態,而在計算范式。

不要合并,要保持張力

:那你是不是在說:下一代 AI 應該把這兩個架構合起來?

:我想反問:你見過物理學家把波和粒子合起來嗎?

:沒有。

:他們怎么處理波粒二象性?

:讓兩套數學框架并存。描述同一個現象,必須同時保留兩套,不能合并。

:對。因為真相就是兩套都成立,而且互相不可化約

:你的意思是智能也這樣?

:我覺得是。用純符號系統描述智能,會漏掉場態的那一半;用純場態系統描述,又會漏掉符號的那一半。兩套必須并存,而且必須保持互相的張力

MoE 不是左右腦

:如果是這樣,那 MoE 算不算就是在做這件事?畢竟 MoE 就是多個專家并存。

:好問題。我反問你:今天的 MoE 里,不同專家的架構是一樣的,還是不一樣的?

:一樣的。Mixtral、DeepSeek 這些,所有專家都是同一種 FFN,只是參數不同。

:那你覺得這對應大腦里的什么?左右腦,還是別的?

:好像不是左右腦。左右腦是結構上就不一樣的。

:對。MoE 的專家之間的“專業化”,是同一種結構在訓練中分化出的不同用途。這不是左右腦,這是一百個左腦在分工

:那它對應大腦里什么?

:皮層柱。哺乳動物大腦皮層的重復單元:結構高度相似,功能通過學習分化。大腦真正的組織結構是半球級異質,加皮層柱級同質。今天的 MoE 只做對了第二半。

分化依賴通信受限

:那只要把 MoE 做成異質的就行了?比如一半專家是 Transformer,一半是 Diffusion?

:這方向對。但我想先問你一個更基礎的問題:為什么大腦的左右半球能保持分化?

:因為它們功能不同。

:但功能不同是結果,不是原因。它們一開始不是就分化的。是什么讓這種分化穩定下來,沒有塌縮成同質系統的?

:胼胝體?

:再想。胼胝體做了什么?

:連接兩個半球。

:連接得充分嗎?

:好像不是很充分。胼胝體的帶寬其實有限,而且大多數連接是抑制性的。

:那你覺得這說明什么?

:大腦特意限制了兩個半球之間的通信?

:Nature Communications 2019 年的全腦側化圖譜給出了一個很明確的觀察:腦區之間越是功能分化,通過胼胝體的連接反而越弱。 這個發現支持一個叫“半球間獨立假說”的理論。

:這是反直覺的。

:對。分化依賴于通信受限。 如果兩個半球完全連通,它們會塌縮成一個同質系統,反而失去分化的優勢。

更緊密的溝通,可能破壞分化

:那這對 MoE 意味著什么?

:你觀察一下今天 MoE 研究在追求什么?Top-2 routing、shared experts、soft routing、load balancing……所有這些改進都在做同一件事:降低專家之間的隔離,讓信息更自由地流動

:等等。

:對。

:這正好是在破壞分化的條件

:是。行業在用“更緊密的溝通”追求 scaling 效率,但真正的異質分化要求“更難的溝通”。這兩個方向不是漸變的,而是相反的。

:所以今天的 MoE 架構不可能自發演化出左右腦?

:它的設計機制本身就在對抗分化。要長出真正的半球,必須主動設計隔離,而不是被動追求融合。

稀缺的是受控異質性

:那下一代 SOTA 應該長什么樣?

:我先問你,兩個半球夠嗎?為什么不是十個?

:更多不是更好嗎?

:你見過有九個腦的生物嗎?

:章魚?

:對。章魚有一個中央腦和八條腕各自的神經節。它的智能有什么特點?

:它極其擅長并行的空間和觸覺任務,但沒有抽象推理,也沒有語言。

:這說明什么?

:半球多了,協調成本也漲了。異質性帶來的收益被瓶頸吃掉了。

:對。脊椎動物選了“二”不是偶然,它很可能是對稱性和最小必要分化之間的 Pareto 最優。二是最低必要分化,四可能已經接近臨界。稀缺的不是異質性,是受控的異質性。

兩種知識:Episteme 與 Metis

:好,假設我們有一個 Transformer 半球和一個 Diffusion 半球,通過一個受限 bridge 連接。問題是:這兩個半球到底在做什么不同的事?

:這正是我想和你一起走到的地方。我問你:你“知道”一件事,可能有幾種方式?

:我能想到兩種。一種是我能說出來的,比如“水在一百度沸騰”。一種是我知道但說不出來的,比如我知道這段代碼有 bug,但我說不清為什么。

:對。哲學里有兩個古老的詞:epistememetis。Episteme 是可陳述的、普遍的、關于“為什么”的知識。Metis 是不可陳述的、情境的、關于“如何”的智慧。

:聽起來就是顯性知識和默會知識。

:對。Michael Polanyi 有一句話:“我們知道的,比我們能說出來的多。” 他的判斷更狠:所有知識要么是默會知識,要么根植于默會知識。顯性知識只是默會知識被擠進語言框架之后的殘影。

路徑與地形

:這和 Transformer、Diffusion 有什么關系?

:你想一下。Transformer 學的是什么?

:條件概率鏈。每一步的決策都是顯式的、可追溯的、可以被 chain-of-thought 展開的。

:所以 Transformer 學的是路徑。從這里如何到那里。

:Diffusion 呢?

:Diffusion 學的是 score function,對數概率梯度。這個對象有一個非常特殊的性質:它不是關于“如何推理”的,它是關于“什么是合理的”的

:所以它學的是?

地形。整個概率空間的形狀。哪里是山峰,哪里是山谷,坡度朝向哪里。

:等一下。一個專家看棋盤的直覺……

:你說下去。

:就是在感覺這個局面在“合理棋局分布”里處于什么位置。他不是在推理路徑,他是在感覺地形

:對。這是 score function 的現象學版本。Diffusion 模型學的那類對象,和默會知識的結構是同構的。


理解不等于解釋

:那是不是可以說,Diffusion 本質上就是沒法“理解”的,只能“直覺”?

:我想在這里停一下,因為這個判斷需要被切得更細。取決于“理解”是什么意思。

:什么意思?

:如果“理解”指的是能給出顯式的推理鏈、能回答“為什么”,那么是的,Diffusion 做不到。它的生成過程里就不存在“因為”這種結構。

:那如果“理解”指的是別的意思呢?

:如果“理解”指的是掌握一個領域的內部結構,能區分合理與不合理,能在未見過的情境里做出正確判斷……

:……

:那么 Diffusion 恰恰是更深意義上的理解

:你是在說……

:我想問你一個問題。一個真正懂物理的人,是能背出所有公式的人,還是看到一個物理情境立刻感覺到“這里不對”的人?

:后者。

:一個真正懂代碼的人,是能解釋每一行的人,還是看到一段代碼立刻嗅到“這里有 bug”的人?

:后者。

:這些人被問到“你為什么這么判斷”的時候,很多時候給不出讓人滿意的答案。他們說“就是感覺”、“說不清但我知道”。

:你的意思是……

人類最深的理解,往往恰恰是不可陳述的。 這不是理解的缺陷,是理解的頂點。

:那我們平時說的“解釋”、“理解”……

:今天整個 AI 行業把“理解”默認等同于“能解釋”。這可能本身就是一個范疇錯誤。

Benchmark 的盲區

:這讓我想到一件事。今天所有的 benchmark 都在測什么?

:你說。

:都是有標準答案的題。MMLU、GSM8K、HumanEval……全都是“能不能答對”。

:那它們測的是 episteme,還是 metis?

:全都是 episteme。

:所以當你說“LLM 在 benchmark 上接近人類專家”的時候,你真正在說什么?

:它在可陳述的那一半知識上接近人類專家。

:而人類專家真正讓他成為專家的那一半呢?

:沒有被測。也沒有被訓練。

:這可能就是為什么 scaling 曲線在走平的一個原因。不是數據不夠,不是算力不夠,而是架構維度不夠。我們一直在一個維度上做到極致,但人類智能的另一個維度,在今天的架構里根本沒有容器去承載

轉化本身,就是智能的核心動作

:那下一代突破會是什么?

:我不會假裝我知道答案。但我有一個猜測:它會出現在“雙向轉化”被工程化之后。

:怎么講?

:今天的 Chain-of-Thought 是單向的:從 LLM 擠出更多推理步驟,但始終在 episteme 維度內部打轉。真正重要的方向,可能是反向 CoT:如何讓一個 Diffusion-like 的場態被激發之后,把它的直覺“翻譯”成可以被 Transformer 使用的顯性結構。

:從地形到路徑?

:對。從默會到顯性是“表達”,從顯性到默會是“內化”。轉化本身,就是智能的核心動作。

:一個專家是怎么成為專家的……

:正是這兩個方向反復循環的結果。初學者靠顯性規則,高手能把規則內化成直覺,大師在直覺和規則之間自由切換。這不是兩個模塊并列的靜態結構,而是一個動力系統。

胼胝體不是連接,是邊界

:所以回到最開始的問題:語言是地基嗎?視覺是地基嗎?

:你覺得呢?

:都不是。地基這個問法就錯了。

:那真正的底層是什么?

:兩種不兼容的計算范式,通過一個有限帶寬的瓶頸,互相校準。大腦用了幾億年進化出這個結構。

:更進一步,這兩種范式對應兩種知識。一種可陳述,一種不可陳述。而今天的 AI 行業……

:繼承了一個只看重可陳述知識的傳統。從柏拉圖、亞里士多德開始的。

:對。Transformer 是 episteme 的技術化身。一切都要 token 化,一切都要可陳述,一切都要能被 chain-of-thought 展開。

:那 Diffusion 是什么?

:Metis 的架構。那個被西方理性主義傳統壓抑了兩千年的另一半,默會的、情境的、不可言說的那一半,不是智能的裝飾,是智能的底座

:如果讓你用一句話總結今天的討論,你會怎么說?

:我們對智能的很多默認假設,可能都需要重新想一遍。

:比如?

:“地基”這個隱喻。“理解”這個概念。“scale 就夠了”這個信仰。“越融合越好”這個直覺。

:……

:真正的智能,不是從融合里長出來的。它是從有紀律的分化里長出來的

胼胝體不是連接,是邊界。

本篇為上半部分 —— 右腦命題

下半部分 —— 小腦命題,敬請期待。

數據庫老司機

點一個關注 ??,精彩不迷路

對 PostgreSQL, Pigsty,下云,AI 感興趣的朋友

歡迎加入 PGSQL x Pigsty 交流群 QQ 619377403

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
起底日本抹黑中國流水線:利用AI批量生成“中國人不文明”等內容!自2015年以來,已投入超560億日元預算對華展開輿論抹黑

起底日本抹黑中國流水線:利用AI批量生成“中國人不文明”等內容!自2015年以來,已投入超560億日元預算對華展開輿論抹黑

每日經濟新聞
2026-05-14 15:09:59
暗黑界2025排行榜:新王登基,世代交替!

暗黑界2025排行榜:新王登基,世代交替!

吃瓜黨二號頭目
2026-05-15 10:12:00
隨著衛冕冠軍3-1,沙特聯最新積分榜出爐

隨著衛冕冠軍3-1,沙特聯最新積分榜出爐

側身凌空斬
2026-05-15 05:43:43
漢語是犧牲了什么,才成為世界最緊湊、最高效的語言?

漢語是犧牲了什么,才成為世界最緊湊、最高效的語言?

瓜哥的動物日記
2026-05-13 00:58:37
中印沖突再度升級!冰冷現實刺眼:中國越克制,印度越步步緊逼!

中印沖突再度升級!冰冷現實刺眼:中國越克制,印度越步步緊逼!

小樾說歷史
2026-05-14 12:20:38
人大代表:建議將機關企事業單位工齡滿30年的帶薪年假延長到20天

人大代表:建議將機關企事業單位工齡滿30年的帶薪年假延長到20天

細說職場
2026-05-14 15:42:32
連特朗普的兒媳婦都考慮到了!國宴結束后,我國專門安排了女保鏢

連特朗普的兒媳婦都考慮到了!國宴結束后,我國專門安排了女保鏢

阿龍聊軍事
2026-05-15 05:43:23
6456億元創新高!上市銀行2025年分紅分化,大行穩坐“王座”、中小行冷暖不均

6456億元創新高!上市銀行2025年分紅分化,大行穩坐“王座”、中小行冷暖不均

紅星新聞
2026-05-15 12:34:25
司機曬出一筆10年未支付的訂單,讓乘客無地自容:趕緊把錢補回去

司機曬出一筆10年未支付的訂單,讓乘客無地自容:趕緊把錢補回去

網約車觀察室
2026-05-15 09:55:11
女子凌晨推搡武警后續!全網社死僅開胃菜,動手那刻,性質就變了

女子凌晨推搡武警后續!全網社死僅開胃菜,動手那刻,性質就變了

攬星河的筆記
2026-05-14 15:04:04
第一次和男友同居:我直接驚呆了,原來男女私下可愛到犯規

第一次和男友同居:我直接驚呆了,原來男女私下可愛到犯規

那年秋天
2026-05-15 09:00:11
又一專坑中國年輕人的網紅翻車:“新型騙局”,早該被曝光了

又一專坑中國年輕人的網紅翻車:“新型騙局”,早該被曝光了

小椰子專欄
2026-05-14 13:09:10
科學家發現胰腺癌致命弱點:受損線粒體成治療新靶點

科學家發現胰腺癌致命弱點:受損線粒體成治療新靶點

報錯免疫體
2026-05-14 12:28:09
張柏芝為19歲兒子選國產新車,母愛選擇顯心意

張柏芝為19歲兒子選國產新車,母愛選擇顯心意

街上的行人很刺眼
2026-05-15 02:59:23
武統、和統都沒希望了?臺軍事專家曾言:中國已經走上了第3條路

武統、和統都沒希望了?臺軍事專家曾言:中國已經走上了第3條路

別吵吵
2026-05-15 08:35:17
2-0!姆巴佩無視噓聲送助攻,貝林厄姆定勝局,皇馬拒絕主場爆冷

2-0!姆巴佩無視噓聲送助攻,貝林厄姆定勝局,皇馬拒絕主場爆冷

我的護球最獨特
2026-05-15 05:28:08
中央5臺直播乒乓球時間表:5月15日CCTV5播國乒!梁靖崑獲重獎!

中央5臺直播乒乓球時間表:5月15日CCTV5播國乒!梁靖崑獲重獎!

等等talk
2026-05-15 10:59:29
西地那非(偉哥)使用指南:時機、忌口、禁忌,一個都不能錯

西地那非(偉哥)使用指南:時機、忌口、禁忌,一個都不能錯

白宸侃片
2026-05-15 11:19:54
別以為購物卡查不出來,紀委如何查出收受購物卡的?

別以為購物卡查不出來,紀委如何查出收受購物卡的?

吃貨的分享
2026-05-15 04:33:14
女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

大風新聞
2026-05-14 18:15:39
2026-05-15 14:20:49
老馮云數 incentive-icons
老馮云數
數據庫老司機,云計算泥石流,PostgreSQL大法師
179文章數 55關注度
往期回顧 全部

科技要聞

兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

特朗普訪華"二號位"系美國駐華大使 其曾受超規格禮遇

頭條要聞

特朗普訪華"二號位"系美國駐華大使 其曾受超規格禮遇

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛回應住男生單人間:女孩的配得感

財經要聞

特朗普的北京時刻

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

家居
手機
本地
健康
旅游

家居要聞

110㎡淡而有致的生活表達

手機要聞

首臺語音喚醒游戲本!七彩虹iGame M16 Origo2026到手價8999元

本地新聞

用蘇繡的方式,打開江西婺源

專家揭秘干細胞回輸的安全風險

旅游要聞

中國游、中國購“熱力”值爆表 “政策紅利+服務升級”讓外國游客解鎖多彩中國

無障礙瀏覽 進入關懷版