ESSAY
我們在很多地方都看到了一個詞,叫「壓縮即智能」
第一次碰到這個詞的時候,很多人會愣一下。壓縮?壓縮怎么就智能了?zip 文件很智能嗎?后來讀到劉慈欣的《詩云》,突然就通了
故事的背景是,一個技術遠超人類的外星神級文明來到地球。人類在它面前毫無還手之力,科技、軍事、能源,全面碾壓
但有一個人類詩人對它說:你寫不出超越李白的詩
這個文明不服。它決定用自己的方式解決這個問題:窮舉。把所有漢字的所有可能排列組合,全部生成出來,存進一團圍繞恒星運行的巨大存儲結構里。劉慈欣管它叫「詩云」
雕 床 欄 頭 春 故 少 光 里 更 層 朱 似 國 夜 國 鄉 欄 事 中 風 樓 雕 昨 前 千 鄉 舉 山 流 霜 國 前 改 多 又 千 改 窮 有 春 事 只 砌 小 了 樓 東 知 了 玉 水 猶 故 樓 了 往 前 夜 東 月 低 花 知 幾 國 疑 望 昨 是 流 少 能 日 昨 目 白 多 多 玉 向 向 似 山 雕 只 舉 月 樓 幾 春 花 秋 月 何 時 了 ? 50002? 種排列 · 好詩在哪里?
從數學的角度,這朵云里一定包含了超越李白的作品。所有可能的漢字排列都在里面,當然也包括最好的那幾首
但這個文明做完之后,沉默了。因為它找不到那些詩。擁有一切可能的詩句,卻沒有辦法判斷哪些是好的
一個圖書館把世界上所有的書都收齊了。這不叫智能。一個人讀完之后,用三頁紙寫清楚這些書的共同規律。這叫智能,區別在于:丟掉了什么
窮舉不產生智能。壓縮才產生智能
從 Shannon 開始
那壓縮和智能之間的關系,到底是文學直覺,還是有數學支撐?
有。而且這條線索比大多數人想象的要長
1948 年,Claude Shannon 發表「A Mathematical Theory of Communication」,定義了信息熵:一條消息的信息量,等于編碼它所需的最小比特數
最小。這兩個字是整個信息論的地基
你能用 10 個 bit 無損表達原本需要 100 個 bit 的信息,說明你找到了 90% 的冗余結構。你理解了它
1960 年代,Solomonoff、Kolmogorov 和 Chaitin 從三個不同國家獨立提出了算法信息論。Kolmogorov 復雜度:一個對象的復雜度 = 生成它的最短程序長度
最短的程序,能還原全部的信息
100 bits 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 compress 10 bits 1 0 1 0 1 90% 冗余被消除 H(X) = ?Σ p(x) log p(x) 找到冗余結構 = 理解它
100 bits → 10 bits:找到冗余,就是理解
2006 年,Marcus Hutter 發起了一個 50 萬歐元的競賽:誰能更好地壓縮維基百科的前 1GB,誰就更智能。他說,智能是一個模糊的概念,但文件大小是硬數字
Ilya Sutskever 說過,通過壓縮實現無監督學習,是創立 OpenAI 的兩個 founding ideas 之一
DeepMind 的論文「Language Modeling Is Compression」證明了語言建模和數據壓縮在數學上等價。訓練一個語言模型,就是在訓練一個壓縮器
從 Shannon 到 Kolmogorov 到 Hutter 到 Ilya,幾十年,所有人到了同一個地方:
最小化描述長度,最大化預測能力
這就是「壓縮即智能」的數學含義
F = ma
不止數學。回頭看整個科學史,「壓縮即智能」一直在場
第谷花了二十多年記錄天文觀測數據,手稿好幾米高。開普勒壓縮成了三條定律
然后牛頓來了。F = ma 加上萬有引力公式,兩行字,把前面所有東西全部裝進去了
麥克斯韋用四個方程壓縮了整個電磁學。愛因斯坦用五個符號 E=mc2 壓縮了質量和能量的關系
科學的進步史,就是壓縮率的提升史
第谷 20 年觀測 開普勒 3 條定律 牛頓 F = ma 2 行字 數據 → 定律 → 公式:壓縮率越來越高
20 年觀測 → 3 條定律 → 2 行字
每一次重大突破,都是用更少的符號解釋更多的現象
物理學最底層的原理叫最小作用量原理。光走最短路徑。物體沿作用量最小的軌跡運動。宇宙在每一個尺度上都偏好最經濟的方案
壓縮,即智能
馮·諾依曼
說到數學結構,這里有一段有意思的歷史
1928 年,馮·諾依曼證明了博弈論的基石定理:在零和博弈中,存在一個最優策略,使得最大可能損失被最小化
這個定理叫Minimax 定理
找到所有最壞情況(max loss),然后在里面選最好的(min)。反過來也成立,在所有保守策略中找收益最高的(max min)
后來這個框架到處都是。Nash 均衡、Alpha-Beta 剪枝、對抗訓練,都建立在它上面
max min loss gain min(max loss) = max(min gain) Minimax 定理:兩條線終將收斂
兩條線終將收斂:這就是 Minimax
還有一件事比較有意思,可以把前面說的「壓縮即智能」放進數學框架里看
Kolmogorov 復雜度:最短的程序,還原全部信息
min 描述長度,max 保真度
Shannon 最優編碼:最少的比特數,無損傳輸全部信息
min 碼長,max 保真
訓練語言模型:找一組參數,使得在任何未知數據上的預測誤差盡可能小
min loss,max generalization
這三個問題的數學結構是一樣的。都是 Minimax
馮·諾依曼在 1928 年就把這個結構命名好了。只是當時沒人在討論 AI
![]()
大腦
「壓縮即智能」在生物學里也有對應
人類嬰兒出生時,大腦有大約100 萬億個突觸連接。到成年,減少到 50 萬億
少了一半。這個過程叫突觸修剪。大腦主動丟棄低效連接,保留最有用的路徑。大腦在對自己做壓縮
自閉癥譜系的一種理論認為,部分患者的突觸修剪不夠充分。連接太多,信號互相干擾,無法提取清晰的模式
連接太多和信息太多,是同一類問題。詩云的困境,在生物學里也存在
人腦每秒接收大約 1100 萬 bits 的感官信息,意識只能處理大約 50 bits。99.9995%被丟棄了
意識,大概就是一個極其挑剔的壓縮器
它的工作就是決定丟掉哪些信息
10 的 103 次方
最后回到詩云,算一筆賬
假設漢字 5000 個,一首七言絕句 28 個字。所有可能的排列組合是 50002?,大約101?3
可觀測宇宙中的原子總數大約 10??。詩云里的「詩」比宇宙里的原子還多
好詩大概率不超過幾百萬首。占比 10? / 101?3 =10???
隨機抽樣找好詩,在宇宙的整個生命周期里,一首都找不到
窮舉的失敗在于搜索空間太大。什么都不壓縮,好的東西就被淹沒了
而李白不在 101?3 的空間里搜索。他對語言、情感、韻律、意象有一套高度壓縮的理解,可以直接跳到好詩的鄰域
他的腦子里裝的是一個壓縮過的生成模型
10? 首好詩 101?3 李白 壓縮 = 知道往哪里跳
李白不窮舉。他知道往哪里跳
大語言模型也是一回事。GPT 的參數量遠小于訓練數據量,但它能生成從沒見過的合理文本。因為它壓縮了數據背后的結構
外星文明輸給了李白。它的算力夠了。它不會壓縮
「壓縮即智能」這個詞表達得不好。兩個抽象概念中間一個「即」字,沒有信息論背景的人很難直覺理解
但它說的事情很簡單。用最少的符號解釋最多的現象,用最短的程序還原全部信息,用最少的參數做最好的預測。換句話說:Mini 這個 Max
我建議以后別說「壓縮即智能」了,說:MiniMax
以上內容,是認真的
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.