淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。
AI 的“終極設計圖”是什么樣子?
文|史中
我寫這篇文章的時候,正值 DeepSeek 撕開防線,和人類最強的智能 ChatGPT 隔空對峙。
DeepSeek R1 的兇猛,并不在于它超越了對手 o1 模型的邏輯推理能力(實際上只是幾乎追平),而在于它實現這些能力,只需要十分之一的成本。
換句話說,它的智能密度相當之高。
具體實現方式,DeepSeek 已經公布了論文,很多大神也做了詳細解讀,不多說了。
今天咱們試著潛入智能的最深處,討論三個層層遞進的話題:
1、用“顯微鏡”看,智能的微觀結構究竟是什么?
2、什么東西在決定“智能的密度”?
3、我們有辦法做出智能密度達到極限的 AI 嗎?
這么深刻的話題,中哥確實沒能力自己構建理論體系。給你介紹一個高手,他就是計算機科學家,被稱為目前活著的最聰明的人——史蒂芬·沃爾夫勒姆。
這篇文章的核心觀點,就是來自這位大神。
Stephen Wolfram
友情提示,接下來 20 分鐘,我們要和最聰明的大腦打交道,也許有些觀念過于抽象,需要一些額外的“思維墊腳石”。
有些墊腳石乍看和主題無關。但相信我,它們都是通向最終結論所必須的。如果卡住,延伸開去琢磨一下,再回到主題,最后一定會有收益。
讓我們開始吧!
(一)智能的蓮花開在淤泥上
沃爾夫勒姆從一個簡單的人工智能神經網絡開始:
上圖是一個很有“二極管”風格的函數,它其實和人腦很像。
你可以理解為它就是你的大腦在戀愛中所做的判斷:當 x 滿足某些條件時,你會上頭,和 ta 結婚,此時 f[x]=1;當 x 不滿足這個條件時,你會下頭,和 ta 分手,此時 f[x]=0。
現在,我們想“克隆”一下自己的大腦——用人工智能來模擬和這個“目標函數”一模一樣的操作。
該怎么做呢?
我們可以搞一個神經網絡,然后從這個目標函數上做數據采樣,用這些采樣去訓練神經網絡。
經過 1000 輪訓練,最后出來的結果是醬的:
一堆神經元分層傳導,每條連線都定了不同的參數權重,它們形成了一個類似于方程的計算系統。你給出一個 x 的值,它就能給你算出 f[x]的值。
你可以代入數值驗證一下,它雖然不和原始方程精準重合,但確實是非常接近的——這是個好使的人工智能。
不過這里有兩個問題:
1、在訓練開始時,你無法預知最終每個參數會是什么。
上圖顯示從第1輪到 1000 輪的訓練過程中,函數曲線不斷接近目標函數的過程。由于參數是在一步步迭代中確定的,所以無法預知后續如何變化。
2、訓練結束后,你很難講出每個具體神經元參數對最終結果的影響是什么。
隨著 X 的變化,中間參數取值也在變化。在曲線的轉折點,你能看出發生了變化,但很難說清楚每根線具體彎折的意義。
所以整個訓練過程有點兒“解釋不清楚”:你只知道最后這個神經網絡能用,但是,一不知道它是怎么能用的;二不知道它是怎么變成能用的。。。
這不是很奇怪嗎?
其實也沒那么怪。
我猜你上學時,一定有過這樣的經歷:試卷上一道題,你能直接說出正確答案。同桌問你怎么做的,你就是沒辦法拆成他能理解的步驟給他講明白。
還有的人,可以控制自己的耳朵動。可是你問他具體怎么控制,他肯定沒辦法和你說清楚,因為這是神經系統整體的運作,無法用語言邏輯拆分。
沃爾夫勒姆的意思是:
“解釋”這件事情,根本就是個幻覺。
比如我要給你解釋:“汽車為什么會走?”
我可以從宏觀層面解釋:
能源的化學能轉化成了動能,汽車就能走。
但你還不明白,讓我詳細說說。
于是我從更細節的層面解釋:
發動機的四個沖程讓燃料燃燒,推動了傳動桿,傳動桿又連通了底盤和車輪,車輪轉動,與地面摩擦,汽車向前。
但你還不明白,讓我再詳細說說的。
于是我從微觀層面解釋:
分子層面的化學反應,剛體物理的諸多性質。
但你還不明白,讓我繼續深入解釋。
于是我發現,細微到一定程度,解釋就失去意義了:
汽車的微觀層面就是一堆原子。。。它們在遵循特定的規則震動。無數震動效果的總和就是汽車向前移動。
這算啥解釋?
沃爾夫勒姆在上個世紀就提出一個簡潔又兇殘的洞見:世界的本質是“計算不可約”的。(這是迄今為止對我震撼最大的認知之一,我在 中也詳細介紹過。)
簡單說就是:
1、微觀粒子遵循基本規律; 2、宏觀世界是微觀粒子的直接累積,無法被簡化。
但我們的大腦一廂情愿希望找到“簡單解釋”。
哪怕這些解釋不是100%事實,而是舍棄一部分事實之后,形成粗簡的“故事”,以便大腦(可憐的)計算力能夠與其他的故事類比起來,以此才能對改造世界的工作進行一些(不一定正確的)指導。
越往微觀層面走,我們保留的事實就越多,故事就越不好理解,但離真相更近。
越往宏觀層面走,我們舍棄的事實越多,故事就越好理解,但離真相越遠。
這種感覺很奇妙。它暗示:我們的世界就像一朵蓮花,花瓣分明,艷麗異常,但追根溯源,卻根植在一坨爛泥上。
回到我們的主題。
神經網絡每個神經元是干啥的,之所以不好解釋,就是因為我們試圖用微觀事實在宏觀上拼出一個的“簡化的”故事,這本質上是無法做到的。
說了半天,意思就是。。。此題無解嗎??!!
誒,沃爾夫勒姆的兇悍之處正在于此。他的觀點是:
通過深刻理解智能為什么不能解釋,可以指導人類造出更厲害的 AI!
下面扶穩坐好,我們從最微觀的一磚一瓦開始,一點點描繪這幅圖景。
(二)大腦是“離散”的!
計算機是會死機的。
如果程序里存在嵌套的邏輯,計算機就只能一直算一直算,死而后已。
之所以這樣,是因為它試圖用有限的資源模擬出一個“無限的數學空間”。
這個數學空間里,任何東西都是連續的。
例如,一個小數字都可以分成更小的數字:
0.001 夠小了吧,你給 1 前面再塞個 0,它就是 0.0001,妥妥更小。
同理,任何一個大數字都可以組成更大的數字。
在這個數學空間里,你可以砍一刀,再砍一刀,無限逼近但永遠也砍不完,跟拼多多一個德性。
實際上,現代數學的危機與榮光,微積分、群論這種高深的理論,都必須建立在各種極限概念之上。它們共同構成了“形式計算”的恢宏大廈。
但是,這個完美的數學空間只存在于純粹邏輯之中。
最近一百年的科學證據已經瘋狂暗示:真實宇宙的基本結構不是連續的,也不是無限可分的,而是“離散的”。
你可以不嚴謹地把宇宙想象成一個屏幕。
在最小的尺度上看,全是像素點。一個粒子要么在 1 號點位,要么在 2 號點位,不可能在中間的 1.5 號點位,因為宇宙的基本結構決定了就沒有這么個“像素”。
一個粒子從 1 號位置移動到 2 號位置,不可能是“滑”過去,必須從 1 號位置消失,然后瞬間在 2 號位置出現。
沃爾夫勒姆想強調的是,在這種不連續的底層結構上進化出來的大腦,也必然“遺傳”了這個離散化的底色。
現實情況也在印證,大腦不是計算機:
首先,我們的大腦真的不擅長算數,兩位數都容易算錯,而計算機最擅長的就是算數。 其次,大腦如果真的是計算機,一定會經常死機,但大腦從不死機。
殘酷的自然選擇,要求我們的大腦必須具備“反智”的能力:把任何問題都快速坍縮成一個確定的答案,同時可以不要求準確!
原始人在野外看到一個長條的物體,第一要務不是搞清楚它到底是蛇還是藤,第一要務是——跑。
于是,下次你聽到“不買華為是漢奸”,“日本人都該死”之類的二極管論斷時,可以更加心平氣和。
因為大腦本來就是這樣工作的,它進化出來是為了在有限的資源下幫人做出決定的,而不是用來探尋真相的。
接下來的問題是:大腦究竟是怎么通過“離散化的結構”給出“又快又不準”的答案呢?
是時候請出“元胞自動機”了。
(三)宇宙里的“邏輯碎片”
元胞自動機最早是馮·諾依曼提出來的設想。
簡單來說就是把世界簡化成一個充滿格子的平面,然后給出一定的規則,再給出一個初始條件。然后就像上帝一樣放手不管,只是隔空俯瞰這個世界的演化。
示例如下:
第一排:初始條件
第二排:規則
第三排:通過規則對下一行進行計算的過程
沃爾夫勒姆把元胞自動機玩出了花,他強烈地相信元胞自動機里暗示了宇宙和生命的密碼。
我們一直在強調的“計算不可約化”原理,也是從元胞自動機里觀察出來的。
這個規則叫做“30 號規則”,從初始的一個黑點,可以衍生出復雜的完全沒有規律的圖案。
現在,他設想了一個“三色”元胞自動機。意思就是每個格子可以填入兩種顏色:紅、藍,加上空白時的白色,一共是三色。
上面一排的三個格子的狀態,決定了正下面一個格子的狀態。
也就是說,要讓這個元胞自動機啟動,你只需要設定一個由 27 條規則(也就是 33 條)組成的規則集,還有第一行的初始狀態。
這就是一種規則集(包含 27 條規則)。
任務來了:假設初始狀態只有正中一個紅格子,那么有沒有一套規則,可以讓這個系統正好演化 40 步,然后就停止了呢?
就像下圖:
由于計算不可約化,沒有算法可以預知答案,只能進行實驗。
而且,這里有超過 7 萬億種組合情況(32?),枚舉法太慢。
有一種比較聰明的方法:
在 27 個規則中,每次隨機突變一個,如果生命長度接近 40,就保留這個突變;如果生命長度沒變或者原理目標,就不保留。
這個方法叫做“連續隨機突變”。
就這樣,經過 300 多次的嘗試,突然碰到了一套規則,讓生命的長度恰好是 40。
上圖的每一行都只顯示了 27 條規則的輸出結果(輸入沒顯示,和之前的那張圖里順序相同),從 27 個白格子開始逐步迭代某些規則的結果。右側的數字顯示了兩排之間發生變化的規則數量。
下面這張圖就是隨著規則不斷進行突變,最終結果不斷接近目標的過程。
但是,如果你問我為什么 40 的生命長度對應這套規則,我無法解釋,因為是我“碰”出來的。
“即便不能解釋,但它真的好使。”
這句話是否似曾相識?
沒錯,這個特點和神經網絡一!毛!一!樣!
看到這,你有沒有一種不踏實的感覺?上學時老師可不樣這么解題啊。萬一我沒“碰”出來正確的方法,怎么辦?
為了打消你的疑慮,沃爾夫勒姆又多做了幾次。由于每次的隨機性不同,他找到很多套規則,結果都可以是 40。
以下就是五種情況:
這說明啥?說明正確答案不止一個,想要碰出來,也沒那么難。
這里有一個隱藏的關鍵前提,沃爾夫勒姆選擇了“三色元胞自動機”,它在邏輯上就內涵了 7 萬億種情況。
如果選擇“二色元胞自動機”,則一共就有 256 種規則組合,這里面的可能性就大大降低了。
我甚至可以都列出來給你:
元胞自動機里設置的顏色種類,在某種意義上對應了宇宙空間中的“維度”概念。三維宇宙,就對應著元胞自動機的三色。
通過元胞自動機你可以感受到一個類比:三維宇宙比二維宇宙的邏輯豐富性可是大了不止一點半點。
為啥咱們的宇宙是三維的?
很可能是因為二維宇宙可能無法產生復雜生命,也就無法追問宇宙為什么是二維的。
根據沃爾夫勒姆的宇宙模型,空間可以理解為一種由點線組成的網狀結構。維度越高,點之間的連線就越多,從 A 到 B 可能的路徑也更多,也就是邏輯更豐富。
由此,我們能得到如下三條啟示:
1、我們的宇宙充滿了 邏輯碎片 。 2、簡單的邏輯碎片通過排列組合,可以成為擁有特定功能的 工具 。 3、用邏輯碎片組合出特定工具的方法并不需要多高的智慧,僅僅通過 “突變”+“篩選” 就可以。
而智能系統沒啥神秘的,本質上就是一個可以實現特定功能的(復雜一點兒的)工具嘛。
既然這么說,用類似的方法,也可以做出一個大腦咯?!
可以試試。
(四)用“小方塊”做出一個大腦
為了方便你理解,先做一個小小的熱身。
我們使用一個“二維元胞自動機”。但這次我們不對規則進行突變,而是給定如下兩套規則。(沃爾夫勒姆給他們的編號是規則 4 和規則 146)
在我們的元胞自動機中,具體每一個格子使用規則 4 還是規則 146,由突變決定。
為了突出展示,我們把采用規則 4 的格子用綠色填充,把采用規則 146 的格子用粉色填充。
以下是幾個示例:
下面我們開始實操:
假設我們的目的是讓這個元胞自動機活 50 步。然后我們從純綠色開始,在隨機的地方把綠色變成粉色,篩選距離 50 步更近的突變。
不出所料,我們能碰出來符合條件的突變:
而且還不止一種。
下圖就是另一些例子:
下圖顯示的是很多次實驗中,找到結果分別所需花費的步驟。
好,你應該已經明白了基本玩法,熱身結束。
接下來我們把這個元胞自動機做一點兒小改動。
首先,我們把結構改成蜂窩狀,每個細胞的狀態只由最近的兩個決定。
然后,我們使用如下兩套規則:
略懂邏輯學的童鞋肯定看出來了,這不就是兩個基礎的邏輯函數么:與&異或。
這里我們用綠色代表“與”,用橘色代表“異或”。
厲害的來了!使用“與”、“異或”排列組合,還可生成無數其他規則,有種“一生二二生三三生萬物”的意思。
系統在隨機突變中,理論上會制造出各種函數!
別急,我們一步步來。
先采用我們熟悉的方法進行突變,讓這個系統存活 30 步。顯然可以做到:
但我們已經不滿足于這一點了,接下來上點兒強度:
我們想讓系統從某個特定細胞出發,30 步之后,恰好到達另一個特定細胞。
通過突變,可能創造出這樣的系統嗎?
事實證明,可以!
我們繼續上強度,讓這個系統變得更“智能”:
能不能用一個系統同時滿足多個要求?
例如,點亮第 0 排的 x 細胞,就一定能點亮第 30 排的 y 細胞?
就像下面這樣:
注意,要用一套固定的系統(綠橘色塊位置不能動)來完成這些不同的任務哦!
事實證明,依然可以。上面展示的這個系統就可以嘛!
說到這,你有沒有發現什么?
你再仔細看看上面那張圖。沒錯,我們訓練出了最早給你展示的那個神經網絡 f[x]。
這個用元胞自動機做出來的像“蜂巢”的 AI 和我們之前的那個神經網絡是幾乎等價的。
下圖是這個系統訓練過程中各個“中間形態”的突變點位和與之對應的方程 f[x]:
但是,敲黑板!這個元胞自動機可不是經典的神經網絡結構,它們不僅是長得不一樣,在基礎結構上也是不一樣的。
經典的神經網絡人工智能也是“離散”的,不過每個神經元的權重最初都是通過形式計算得到的,可能是循環的、無限的小數。
為了不讓 AI 在運行時死機,必須強制把他們小數點后面的位數切斷才能用。屬于是“強制離散化”。
但“蜂巢 AI”的結構天然就是離散的,從頭到尾都不會遇到小數點的困擾。
這個離散的結構有兩個巨大的優勢:
1、它是自然的產物:沒有經過人類設計,是通過演化得來的,基本結構和我們的大腦更接近。 2、它的性價比極高:哪怕它得到的結果不太準確,但運行時耗費的計算力非常非常小。
不過,這樣做出來的智能系統,它的穩定性如何呢?會不會稍微有點兒擾動就“神經錯亂”呢?
沒關系,是騾子是馬拉出來遛遛!
這個系統從不同的初始值出發,所有過程中被點亮的細胞的熱力圖。可見:無論取什么初始值,最后結果都落在固定的“0”和“1”上。
(五)模糊的正確
就拿人類來說,我們的大腦時刻要面對的信號都不是“純凈”的。
比如現在,你的大腦正在接受很多信號:手機屏幕上的文字,視野里的背景信息,耳朵里的聲音,肢體感覺,等等。。。
這些信號永遠會糾纏在一起,你的大腦必須能應對這種狀況:耳朵里聽見別的聲音,你還得保持繼續閱讀才行。
當然信號的噪音不能太大,干擾太大誰都受不了。但你的大腦抗干擾能力越大,就說明你大腦的“魯棒性”越強。
現在我們回到“蜂巢 AI”,試著給它輸入噪音。
怎么模擬噪音呢?
可以在初始的時候,同時給它輸入兩個黑點,甚至多個黑點。
我們先選一種沒有噪音的情況下“蜂巢 AI”的表現:
從:
演化到:
也就是下圖最左邊的情況。
下圖右邊幾張是在初始值中添加不同噪音的效果:
第 0 排帶紅圈的點位就是噪音; 下面所有帶紅圈的點位就是噪音產生的擾動,也就是相對于沒有噪音的區別。
下面這張圖,顯示了蜂巢 AI 對噪音的適應情況。(沒有列舉所有可能的噪音,只是一些典型的情況。)
第一排是選定的一種沒有噪音的原始輸入。下面就是在原始輸入的基礎上添加噪音的影響。
白色橫條,意味著輸出和原本的一致。沒有受到噪音影響。 粉色的橫條,意味著輸出和原本不一致了。受到了噪音影響。
乍一看,這系統的穩定性也不咋地啊,粉色的情況那么多。
別急,我們來仔細分析一下,受到了干擾后,具體結果是啥?
沃爾夫勒姆總結了各種情況,如下圖:
其中 32.1% 其實是沒有輸出結果,系統走到半路就停了。
這就好比你在嘈雜的地方讀書,既沒有聽清別人說什么,也沒有看懂書里寫什么。這種結果其實挺好,因為系統沒有胡亂給出答案。
還有 23.8% 是給出了純純正確的答案。
還有 15.6%、2.54%、1.7% 是給出了包含正確答案的錯誤答案。
實話說,這個表現已經很牛了!
有趣的是,還有 24.2%,是給出了純純錯誤的答案,但這個錯誤答案卻對應著其他輸入的正確答案!
這說明啥?
說明這個系統也許會出錯,但它不會錯到非常離譜。進化迭代,讓這個系統冥冥中形成了兩個“吸引盆”,好像結果會自動滑落到盆底一般。
當然,要達到這種境界,也需要一些訓練技巧。
所謂技巧也不是人工干預細節,而是在演化的時候,加入一些“負樣本”,當蜂巢 AI 得出錯誤的結果時,會觸發“懲罰”機制。
這個方法,和我們熟悉的經典人工智能訓練是一樣的,也和人腦的訓練方法是一樣的。你不好好學習,老師就會邀請你媽媽來揍你一頓,這就是懲罰機制。
至此,我們已經訓練出一個丐版的智能系統。
它具有模糊的正確性,它在噪音中保持強韌,不輕易被毀滅,它拿到了“進化游戲”的入場券。
而且我們似乎還額外獲得了一個認知。
那就是:對智能祛魅。
智能的秩序和自然界的無序總是形成鮮明反差,以至于在漫長的歷史中,人們總愿意相信有個“造物主”來屈尊造人。
而“蜂巢 AI”的訓練過程恰恰告訴我們:智能的出現,不是什么了不得的偶然事件,反而是個大概率事件。
同樣模擬 f[x] 那個方程,還能探索出很多種組合形式。
(六)智能是“邏輯的搬運工”
沃爾夫勒姆嘗試了很多“蜂巢 AI”,每次都能訓練出來擬合最初那個 f[x] 方程的人工智能。
這里的關鍵是,即便它們完成的任務相同,但由于隨機性的影響,每次訓練出來的系統在微觀結構上都不一樣。(紅綠色塊的位置不同)
怎么訓怎么有,這說明什么?
說明“邏輯資源”在自然界極其豐富。
就像銅礦一樣,在地球上到處都有。古代各個地區的人類文明雖然沒有交流,但都順利發現了冶煉銅的技術,獨立進入青銅時代。
如此,我們可以試著回答最初的問題:
“智能”的微觀結構,到底是什么?
智能的運轉,就是把自然界已有的邏輯碎片給組合了起來,讓它能夠判斷輸入與輸出極其復雜的對應關系。
不過即便只是對既有邏輯的搬運和整合,也不是所有整合方法都能產生高密度的智能。
一個反直覺的結論是:
當你越佛系松弛的時候,越能造出高密度的智能;當你越想嚴格把控,恰恰越難以造出高密度的智能!
這不是一碗雞湯,而是一把鋒利的認知武器。
不信我們接著看一個實驗:
剛才我們說過,用“與”和“異或”可以組合出各種函數,而且針對某一個函數,有無數種方法可以等效出來。
但查看細節就會發現,等效的“蜂巢塊”的大小可不一樣。
比如我們找到的等效于兩色元胞自動機規則 30 的“蜂巢塊”最小只需要 4 行,并且有兩種情況:
如果允許加到 5 行,那情況就一下子多了。
可這些蜂巢塊都是進化得到的,看上去雜亂無章,無法解釋。
如果我們非要做出可以解釋的蜂巢塊也可以,就得按照人類理解的邏輯計算方式來一步步生成。
比如:
其中的 x、y、z 就代表規則 30 的三個輸入。
可以證明,這個“蜂巢塊”確實是對的 ↓↓↓
但你發現沒,人工搭建的塊,比自然進化出來的塊更多,需要 6 行。
多數情況,按照人類邏輯來搭建邏輯樂高,得出的結果要大得更多。比如規則 110。
這些是通過進化得到的:
這個是通過人工搭建得到的:
一個結論呼之欲出:
即便邏輯資源在自然界豐富存在,但是“隨機進化”冶煉出來的純度更高,而“人工搭建”的方法純度更低。
要知道,無論是規則 30 還是規則 110,都還僅僅是一個簡單的思想實驗,模擬了神經協作模式的皮毛而已。真正大腦的運作會比這個復雜千倍萬倍。
可想而知,如果使用“人類可解釋的編程方法”,在腦細胞層面每一次邏輯迭代都會比自然進化的方案更耗能,那么整體思考的代價將變得非常沉重。
這暗示了一個真相:一個系統的“邏輯密度”和“可解釋度”是一個蹺蹺板!
這也解釋了一個大問題:為什么現在我們的人工智能如此耗能?
因為我們在訓練中使用了大量“人工搭建”的邏輯,它們就像“腳手架”,增加了智能的可解釋性,但也降低了智能的邏輯密度。
這里,我們可以回到 DeepSeek。
之所以說 DeepSeek 對 AI 技術產生了極大的理論貢獻,是因為它終于找到了一種方法,在訓練的流程中拆掉了大量腳手架。
具體來說,DeepSeek 在很多重要的點位上用強化學習(RL)的方法替代掉了人類監督微調(SFT)。
簡單理解就是:強化學習就是在底層去掉人類監督,只保留一些高層的人類篩選,讓 AI 有更大的自由度自己探索適合的思考方式。
這相當于在訓練的關鍵步驟照搬了宇宙的智能設計圖——“突變”+“篩選”。
換句話說:它找到了一種更好的“搭宇宙便車的方法”!
如果回頭望,你會驚奇地發現:整個 AI 的發展歷史,就是科學家們不斷放手,不斷把智能的產生交給隨機進化,不斷更好地“搭宇宙便車”的過程!
(七)搭好宇宙的便車
在人工智能學科誕生初期,重磅科學家們幾乎都在支持“符號主義”,也就是手動匹配萬事萬物的聯系,讓 AI 的全部推理都有理有據,在最細節的層面也要能被解釋。
但逐漸,科學家承認“學會多少道理都過不好這一生”,不如放手讓 AI 自己去學習事物之間的聯系,這才倒向了羅森布拉特的“聯結主義”,乃至后續辛頓教授在這一流派基礎上開創的,以至于 ChatGPT 誕生。
由此,AI 才洶涌成蓬勃的大河。
不是因為人們喜歡放手,而是因為不放手就無法前行。
世界上第一個基于“聯結主義”的人工智能感知機,Mark I。
和這條河流所對應的,是人類計算負載從 CPU 向 GPU 的史詩級遷移。
CPU 是為形式計算而設計的,源自于人造的理想空間:它可以處理復雜的控制指令。
GPU 是為圖像處理而設計的,根植于人類的視覺進化:它可以高效處理簡單重復計算。
你還記得那個蹺蹺板嗎?
本質上,CPU 就代表了“可解釋度”,而 GPU 則代表了“邏輯密度”。
CPU 時代的領軍企業英特爾,股價腰斬,險被收購;而 CPU 時代的領軍企業英偉達,股價已經翻了無數翻。
從微觀上看,兩家公司的每一次經營決策的累積導致了如今的分野。但拉開視野來看,順應歷史的潮流,才是勝利的關鍵。
數學是人類智慧的王冠,精準形式計算的需求永遠龐大。
但宇宙的“計算不可約性”從根本上決定,更多的日常決策只適合于離散化的擬合。
聯結主義 AI 的興起、離散化結構的成功、英偉達 GPU 的崛起,不都是因為他們搭對了宇宙的便車嗎?
有個笑話講:最牛的 AI 老師傅每天上班都要默念十遍“智能的本質是壓縮”。
這恰好揭示了生命進化的真理,也揭示了離散化擬合的本質。那就是:只求神似,不求精準。
世界上的現象復雜,但凡要用有限的計算力去擬合,就需要有損壓縮。
比如在用蜂巢 AI 擬合 f[x] 時,由于系統的“離散”本質,即便不斷增加系統的計算力,我們得到的也是一個近似曲線,而不可能完全貼合形式計算的那個理想曲線。
下圖就是對 f[x] 的理想曲線進行壓縮后的結果。
但它的好處顯而易見,那就是計算時間是絕對剛性的。
無論如何,系統都可以在有限時間內快速給出擬合結果——不死機。這對于生命的生存至關重要。
剛性時間就是進化的篩選條件之一。
在此基礎上智能進化的過程,就是不斷找到更好壓縮方案的過程。
為了更直接地展示 AI 在壓縮上的能力,沃爾夫勒姆做了另一個實驗——“自編碼器”。
把第一排當做輸入,把最后一排當做輸出。系統的目標就是:經過中間步驟的演化,讓輸出無限接近于輸入。
它模擬了人“壓縮世界”的過程:在內心構建一個世界的“像”。
這個系統沒有看上去那么簡單,因為在計算的過程中,最初的信息會被“碾碎”,而在后來又要“重構”起來。
但宇宙內稟的邏輯資源太豐富了,不費什么力氣就進化出很多“自編碼器”。
接下來更騷的操作來了:他把系統的“腰部”收窄,看看還能不能訓練出自編碼器。
結果是:仍然可以。
而且,就算腰部極細,細到只有兩個格子(下圖),系統仍然能完成自編碼。( 只不過在這種極端情況下,壓縮的質量不忍直視。)
在細腰部分傳遞的信息,其實就是數據的壓縮版本; 腰部以上,是壓縮過程; 腰部以下,是解壓過程。
不同的壓縮系統,對應著不同的耗能和效果。兩個參數做簡單的除法,可知它們 智能的密度也不相同。
這個簡單的模型卻給了我們巨大的信心:
只 要能找 到更好的方式對世界進行壓縮,我們就能制造出一個和人腦平齊,甚至超越人腦的智能系統。
如今,我們已經有了 ChatGPT,有了 DeepSeek。
再往前看,我們有可能把這種“搭便車”玩到極限,造出理解萬 物、無所不能的超級智能嗎?
(八)我們的無知與歡喜
其實,如果我們接受了“計算不可約性”,很容易推出如下結論:
1、我們永遠有機會做出更好的人工智能; 2、我們永遠無法抵達人工智能的“極限”。
所謂人工智能的極限,就是對一切問題都能給出正確答案的那種神級智能。
作為“離散宇宙”的生物,我們只能基于離散化的結構創造智能。運轉的細節依靠億萬模糊的擬合,它的原理本身就內含了出現大量錯誤的可能性。
也就是說,無論我們如何掙扎,基礎的物理定律“保證”了我們永遠無法準確理解萬物,也永遠無法準確預測未來。
我們,就像被困在一個黑盒子里,再撕心裂肺的吶喊都無法透傳出去——如同進入《2021 太空漫游》里那個黑色的石碑,人類能做的只有沉默與敬畏。
沃爾夫勒姆把宇宙的底層結構想象為一種“超圖重寫”結構,這是元胞自動機的另一種抽象,也是和元胞自動機計算等價的。
簡單來說,超圖重寫就是把宇宙看成一幅“圖”。在這幅圖上運行迭代策略:隨著時間流逝,按照既定規則,以一個結構替代另一個結構。
這個規則可能很簡單,比如下面就是一個規則示例:
即便規則這么簡單,每次迭代都會產生新的結構,下一次的迭代也會在新的結構中繼續演化,并不重復。由于計算的不可約性,宇宙將會變得越來越復雜。
下圖,就是基于上面那個規則演化幾步之后的結果:
同樣因為計算不可約性,在這樣的宇宙里生活,沒人能夠先于演化精準預測超圖的全景,最多只能通過(基于離散結構的)“智能”來對某個局部的圖紙做粗略預測。
而且,由于我們用來預測的智能系統本身,也是“超圖”的一部分,這意味著智能當然也無法預測自身的未來狀態。
這個特點解決了一個終極追問:人到底有沒有自由意志?
我們可以逆向思考:
什么是沒有自由意志?就是我們可能找到預測自己在未來某一刻的思想的方法。對吧?
但計算不可約性已經預言了,我們沒有辦法準確預測大腦未來的狀態。也就是說,無論我們的思維是不是機械運動的,都不影響“我們無法預測它”這一事實。
所以,我們永遠可以認為自己“有”自由意志!
只不過,這種自由意志的代價是昂貴的:
人類,作為一個智能體,永遠無法理解宇宙的所有真相。 AI,作為一個人造的智能體,同樣永遠無法理解宇宙的所有真相。
但這種對“無法理解”本身的探尋,何嘗不是一種理解呢?
這種揭示自己渺小的真相的路程,何嘗不是一種偉大呢?
我們盛開,但我們腳踩淤泥;
我們腳踩淤泥,但我們盛開。
正如胡適所說:怕什么真理無窮,進一寸有一寸的歡喜。
真正的慰藉,也許并非“朝聞道夕死可矣”。而是在終極真理的巨大引力下跌撞前行,收獲的一路歡喜。
這,也許才是終極意義上的 Deep Seek。
參考資料:
https://writings.stephenwolfram.com/2024/08/whats-really-going-on-in-machine-learning-some-minimal-models/
《機器學習中到底發生了什么?一些極簡模型》
三生萬物
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦對了,如果喜歡文章,請別吝惜你的“在看”或“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。
Thx with in Beijing
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.