无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<style id="pfjj1"><tbody id="pfjj1"><noframes id="pfjj1"></noframes></tbody></style>

<track id="pfjj1"><label id="pfjj1"><progress id="pfjj1"></progress></label></track>

<noscript id="pfjj1"></noscript>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

別爭了！香農老婆，才是世界上第一個大語言模型

2026-07-05 21:48:44　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺量子位 | 公眾號 QbitAI

別爭了！

世界上第一個明牌自己是大語言模型的人，可能是香農的老婆。

1950年前后的某一天晚上，咱們的信息論鼻祖香農跟老婆貝蒂在客廳做了一個小實驗。

實驗里，香農扮演著一個拿著書本考試的教官，Betty則扮演一個做做詞語接龍的學生，根據香農的提示，猜下一個字母。

具體的，香農會從書中某一段開始，一個字母一個字母往后走。

每到一個位置，他先不報答案，而是先問貝蒂，下一個字母是什么？

就這樣，貝蒂猜，香農記。

猜錯了，香農寫下正確字母。猜對了，他畫一個短橫。

這樣一來，就像上面圖里展示的那樣，一段完整的英文被拆成了兩部分：

貝蒂已經能預測的地方，用短橫帶過；貝蒂預測不了的地方，才需要把原字母寫下來。

乍一看，這畫面有點像什么高知伉儷玩的飯后游戲。

但在3Blue1Brown最新的視頻里，這個實驗被放回了一條更大的線索里——

它可能是人類歷史上最早的一場真人版next-token prediction

更進一步，借由香農的例子，3Blue1Brown主理人Grant Sanderson還探討了一個從信息論一路通向大語言模型的問題：

為什么預測下一個token這件看起來再簡單不過的事，會和壓縮、熵，甚至智能扯上關系？

而答案，可能就藏在貝蒂畫掉的那些短橫里。

LLM只是一場猜字母實驗？

盡管Grant的視頻已經講得足夠清楚，但為了更平滑一些，咱還是先回到香農和貝蒂那個實驗。

表面上看，香農和貝蒂玩的點像雙人語音版填字游戲，一個給前文，一個猜下一個字母。

比如，在英文里t后面很可能跟著h，所以當香農給出線索t的時候，貝蒂很可能會回答h。

換成中文，其實也差不多。比如，當你看到一個「你」，后面很可能接好，來組成「你好」。

但香農真正關心在意的，可能并不是貝蒂猜得準不準，而是猜對之后，會發生什么。

就像我們開頭提到的，實驗最后得到的那個轉錄版本，真實字母比原文少得多。

貝蒂猜對的地方，只剩一個短橫。貝蒂猜錯的地方，才保留原來的字母。

看上去，字是變少了，但在某種意義上，它包含的信息量沒有變

原因也很簡單。

如果香農能復制出另一個一模一樣的貝蒂，再讓她看這份縮短版文本，她理論上仍然可以把原文復原出來。

而這，就是「可預測性允許壓縮」最直觀的版本。

這很好理解，就像你跟哥們聊天一樣。

一開始表達同意，你們會說「好的」，到后面變成「OK」，再后來只剩一個「k」，到最后甚至只是一個唐人表情包就足以心領神會。

表達越來越精簡，并不是因為信息消失了，而是因為雙方已經知道上下文，所以沒必要把完整形式再打一遍。

不過相信聰明的大伙已經發現了，香農這個實驗有點問題：

人不是機器。貝蒂這次猜對的字母，下次未必還會猜對。一個人兩次面對同一段前文，也未必會給出完全一樣的答案。

所以，雖然這個實驗能說明語言可以被預測，所以語言可以被壓縮，但它還不能精確測量語言到底有多少信息。

于是乎，香農后來把這個實驗做得更系統。

在后續發表的論文Prediction and Entropy of Printed English中，香農找來更多受試者，不再只記錄猜對還是猜錯，而是記錄一個人需要猜多少次，才能猜中正確的下一個字母。

猜一次就中，說明這個字母在當前上下文里很容易預測，如果猜很多次才中，就說明它更意外。

換句話說，香農其實在用一套方法，把猜了幾次轉換成受試者心里對正確字母的隱含概率。

這一步很關鍵。

因為同一個位置，不同人會給出不同猜法。有人第一次就猜中，有人猜到第五次才猜中。差別不在字母本身，而在每個人腦子里那套對英文的判斷。

所以，香農測的不是書本上的靜態詞頻，他測的是人如何根據自己的上下文來分配概率。

看到th，下一個字母可能是e，也可能是a。到底先猜哪個，猜到第幾次才輪到正確答案，背后都是這個人對英文的理解在排序。

到這，相信你也看出來了。

香農這是把人當成語言模型整了，而他的妻子Betty，可能就是第一個明牌自己在做next-token prediction的人。

只不過那個模型不是Transformer，是人腦。

這些人腦知道語法、常識、上下文、語感，也知道一段英文接下來大概率會怎么走。

而香農干的，就是不斷地追問：下一個字母是什么？

預測和壓縮，大模型的一體兩面

到這里，貝蒂的任務其實就已經完成了：

她用自己的模型（大腦），劃掉了一段文本里可以被預測的部分

后面香農找來更多受試者，本質上也都是在做同一件事：

能夠預測的部分劃掉，只留下那些預測不了、必須寫出來的字母。

于是，原本的長文本，就這樣被壓縮成了一份更短的新文本

所以，順理成章的，我們會想：

假如一個人，讀過一本書，就能靠自己的語言經驗，預測書里一部分字母，從而把它壓縮得更短；

那么，有沒有一個模型，能吃下整個互聯網，然后預測各種上下文里的空白呢？

或者換一個更AI的說法：模型能不能把語言里的規律，壓進自己的參數里？

答案是肯定的，但先別急著往大模型上靠。

在這之前，Grant視頻里還有一個更底層、也更值得探討的問題：

怎么判斷一種壓縮方式，到底好不好？

最簡單的標準當然是：越短越好。

如果一段信息里還有規律可找，還有冗余可刪，那它就還能被繼續壓縮。

反過來說，如果一段信息已經被壓縮到極限，所有能預測、能概括、能利用的規律都被榨干了，最后剩下的是什么？

沒錯，就是信息

在香農那里，信息有個經典的定義：

一件事到底有多出乎意料。

如果一句話的下一個字母幾乎已經板上釘釘，那它就沒攜帶多少新信息。

但如果下一個字母完全猜不到，它就真的需要被寫出來。

這也是為什么Grant會說，一個理想的壓縮算法，壓到最后，輸出應該看起來像隨機噪聲。

因為，噪聲沒有模式。

每一位都像獨立拋硬幣，50%是0，50%是1，彼此之間沒有任何可利用的關系。

沒有模式，就沒有規律可學；沒有規律可學，就沒有冗余可刪；沒有冗余可刪，也就沒有繼續壓縮的空間。

所以，隨機噪聲不是因為「亂」才重要。它重要，是因為它代表了一種極限狀態：

所有可預測的東西都已經被拿走了，剩下的每一位都必須被傳輸。

到這里，預測和壓縮這兩件事也就真正扣上了。

預測，是在問：哪些部分可以不用寫？

壓縮，是在做：把不用寫的部分刪掉。

而信息，就是最后那些無論如何都必須寫下來的東西。

信息量

如果你看到這里，香農那個著名公式也就不再像一個憑空冒出來的數學定義了。

假設一條消息出現的概率是p，那么它的信息量就是-log?(p)。

根據這條曲線，發生概率越小，信息量越大；發生概率越大，信息量越小。

用剛才那套話說就是：越容易被預測出來的東西，信息量越小。越難以預測的東西，信息量越大。

而從壓縮的角度看，這個公式問的其實是：

為了把這條消息從所有可能性里區分出來，理論上至少需要多少 bit？

這就是香農最厲害的地方。他把「預測不了的部分」，變成了可以計算的東西。

但問題在于，現實生活中，我們很少只面對一條消息。更多時候，我們面對的是一整套可能性。

視頻里，Grant舉了機器人上下左右的例子。機器人收到的指令，不只是動和不動，而是上、下、左、右四種可能。

如果四個方向出現得一樣頻繁，那它們也就一樣難猜。

這時最自然的編碼方式，就是給每個方向分配同樣長的bit。

比如：上是00，下是01，左是10，右是11。每條指令固定2bit，簡單直接。

但如果上出現得最多，下次之，左和右更少，那最高效的編碼方式就變了。

這時，我們就沒必要讓每個方向都占同樣長的編碼。

常見的方向，可以用更短的碼字表示。少見的方向，則可以用更長的碼字表示。

只要保證每個碼字不會互相混淆，也就是不會讀著讀著不知道該在哪里斷開，就能讓整體平均長度變短。

視頻里就是通過這種變長編碼，把平均每條指令需要的bit數，從固定編碼的2 bit，降到了1.75bit。

這就是壓縮里非常核心的一條直覺：

概率越高的消息，應該用越短的編碼；概率越低的消息，才值得用更長的編碼。

那么推廣開來，我們接下來要問的就不再是某一條消息有多少信息量。

而是在這一整套分布里，每來一個新符號，平均還有多少東西必須寫下來？

這種在某個分布下，每來一個新符號，平均還剩多少必須寫下來的東西，也被稱作熵。

熵越低，說明系統越容易預測，越好壓縮。熵越高，說明系統越隨機，越難壓縮。

如果四個方向完全一樣常見，機器人下一步往哪走就很難猜，熵會更高。

同理，語言也是一樣。只不過語言的可能性更多，上下文更長，麻煩也更大。

從熵到loss：大模型到底在壓縮什么？

與機器人上下左右不同，大語言模型需要成千上萬個token備選中選擇最可能的下一個。

同時，它也不是孤立選擇，而是嚴重依賴上下文。

所以，語言的熵本質上問的是：在給定前文之后，下一個token平均還有多少不確定性？

從壓縮的角度來看，就是用這個模型來壓縮真實文本，平均還要花多少bit，才能把下一個token寫出來？

這也就是為什么，大模型訓練里常見的交叉熵損失，天然會和壓縮連在一起。

模型給真實token的概率越高，說明它越不意外。越不意外，信息量就越低。信息量越低，編碼它就越省。

所以，交叉熵越低，模型就越像一個更好的壓縮器。

與此同時，模型越能預測下一個token，就越說明它已經捕捉到了語言里的可重復結構。

語法、搭配、格式、事實、代碼習慣、對話模式、推理套路，甚至一部分世界常識，都藏在這件事里面。

當然，Grant表示，這并不意味著：壓縮可以粗暴地等同于智能。

ZIP很會壓文件，但沒有人會說ZIP在思考。

更謹慎的說法是：智能至少包含一種能力——

抓住世界里可預測的結構。

這也是“壓縮即智能”最值得琢磨的地方。

它不是說，只要能壓縮，就擁有智能。

而是說，如果一個系統真的能把復雜世界里的規律壓進一個更短的表示里，并且能在新上下文里繼續用它預測，那它至少已經碰到了智能的一部分。

這時再回頭看開頭那張畫面，就不只是香農和貝蒂在家玩猜字母了。

貝蒂猜對的地方，香農畫一個短橫。七十多年后，大語言模型猜對的地方，loss降低一點。

短橫變成了loss，書頁變成了互聯網。

坐在桌邊猜字母的人，變成了GPT。

它們都在回答同一個問題：

下一個符號，能帶來多少驚訝！

[1]https://www.youtube.com/watch?v=l6DKRf-fAAM&t=745s

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

華為更新韜定律論文！

量子位 2026-07-05 21:37:12
0 跟貼 0
ECCV 2026 |悉尼大學提出Linstereo, 打通立體匹配「最后一公里」

機器之心Pro 2026-07-05 16:39:04
0 跟貼 0

Claude工程師終于交出Fable 5焚訣！教你打破和模型之間的信息差

機器之心Pro 2026-07-05 20:39:00
0 跟貼 0

首個三模式大語言模型：4倍token吞吐量，長文本秒級時代要來了？

機器之心Pro 2026-05-22 14:21:21
0 跟貼 0
自閉癥人士的思維方式有啥不同？這3組有趣實驗讓你一目了然！

大米和小米 2026-07-05 08:03:07
1 跟貼 1

AI 越記住你，越可能"帶著偏見理解你"

鈦媒體APP 2026-07-05 17:50:20
1 跟貼 1

AI智能體不是越多越強：信息冗余構成了LLM Agent Scaling的瓶頸

機器之心Pro 2026-02-27 14:45:03
1 跟貼 1
告別碎片化記憶：中科院開源輕量級內存原生Agent記憶系統Mandol

機器之心Pro 2026-07-05 21:16:02
0 跟貼 0

HUBLOT攜手姆巴佩發布全新腕表；寶珀呈現Ladybird貝蒂女士系列新作｜直男Daily

杜紹斐DUSHAOFEI 2026-07-02 20:56:33
4 跟貼 4
中國車牌有兩個字母是禁止使用的，很多人不明白，行內人給出答案

顯微鏡下的人性 2026-07-05 19:03:31
0 跟貼 0
上交大提出ICRDrag：首個上下文區域拖拽模型，精準可控圖像編輯

機器之心Pro 2026-07-05 16:59:29
0 跟貼 0
女特工在車廂內打孔，只為竊取鬼子的機密文件

飛鳥潛影 2026-07-02 09:31:18
1 跟貼 1
連線#1120到底有多好猜？我吐槽了

渡川5 2026-07-05 07:07:48
0 跟貼 0
因為印度！蘋果最不愿被人看到的文件！現在全世界都能下載了！

瘋兔AD 2026-07-04 05:49:38
35 跟貼 35
國外人模仿中國舞獅，國人沒勇氣看下去，公式正確答案錯誤

瘋狂星期四笑料館 2026-07-04 15:45:15
1 跟貼 1
馮德萊恩：中歐對話結果必須令人滿意否則將進行報復

澎湃新聞 2026-07-05 07:08:04
10115 跟貼 10115
泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
20250 跟貼 20250
數學公式解析盛宴：趣味講解，輕松掌握！

只若初見h 2026-07-03 00:48:59
1 跟貼 1
河南80后男子帶村民養蟬，高峰期一晚上可抓1.2萬只：每晚摸三輪爬叉，抓到4小時內冷凍

環球網資訊 2026-07-05 08:36:34
3987 跟貼 3987
4名大學生讓AI考0分，復旦肖仰華：學生能力差距正被AI拉大

上觀新聞 2026-07-05 20:53:22
0 跟貼 0
法國隊主帥:安排2名強壯球員保護姆巴佩以防對手報復

紅星新聞 2026-07-05 09:06:42
2775 跟貼 2775
OpenAI塌房！Scaling law原作曝bug，萬億算力全白燒

新智元 2026-07-05 12:45:19
72 跟貼 72
韓國八十年前把漢字踢出課堂，八十年后又請回教材

電動貓 2026-07-05 14:39:00
137 跟貼 137
7月15日，豆包、千問下線該功能！

濟源網 2026-07-05 11:07:47
129 跟貼 129
中央安全考核巡查組專家現場質問：你們管理人員上去過嗎？

上觀新聞 2026-07-05 14:22:38
20 跟貼 20
哈蘭德將標志性長發剪成利落短發，6日凌晨4點迎戰巴西

極目新聞 2026-07-05 17:19:25
1703 跟貼 1703
iPhone18 Pro Max測試視頻泄露，超630G機密文件被竊取

南昌晚報 2026-07-03 14:40:52
0 跟貼 0
女特工偽裝成服務員，準備竊取鬼子機密文件

飛鳥潛影 2026-07-03 11:05:10
1 跟貼 1
手機拍照三大核心：傳感器、鏡頭、算法誰更重要？

探索新高度 2026-07-05 04:59:56
3 跟貼 3
請客吃早餐花掉12萬！全網都在找他

環球網資訊 2026-07-05 16:57:11
2059 跟貼 2059
全球最大數據中心建設，終止了

上觀新聞 2026-07-05 06:41:18
47 跟貼 47
知名感冒藥沖上熱搜，全國銷量暴跌55%，網友：好難買

哈爾濱日報 2026-07-05 11:11:15
246 跟貼 246
剛剛，LeCun團隊讓世界模型學會持續學習！

量子位 2026-07-05 14:50:03
0 跟貼 0
多名演員發文抵制，業內人士：很悲哀，收入猛降八成，幾乎成“免費勞動力”

上海約飯局 2026-07-05 15:23:20
6 跟貼 6
老公式養生，滿桌子都是生蔬菜

影中見影 2026-07-03 00:00:00
0 跟貼 0
耗資33億！宮殿修了，國王不住了

中國新聞周刊 2026-07-05 07:31:05
119 跟貼 119
Codex、ChatGPT為何合體？OpenAI核心leader回應一切

機器之心Pro 2026-07-05 21:10:33
0 跟貼 0
TCL回應永樂款菩薩像現其廣告：未授權或參與涉事文物展陳

南方都市報 2026-07-05 21:14:13
1419 跟貼 1419
很多人發明水上戰艦模型，在公園小河中比賽，這是普通人的戰役！

鬧心觀點 2026-07-04 16:08:52
0 跟貼 0
“佛得角”的中文譯名是怎么來的？

中國日報 2026-07-05 19:04:17
3 跟貼 3

哇塞！超贊！恭喜哈登

體育新角度

2026-07-05 22:32:16

神奇！國足歸化球員的出生地，全進世界杯的16強

神奇！國足歸化球員的出生地，全進世界杯的16強

湖北的老球迷

2026-07-05 19:29:14

成都女生給英國留學男友寄空調，空調售價1000多運費花2000多，有留學生為省錢網上尋拼單搭子；義烏降溫產品賣爆歐洲

成都女生給英國留學男友寄空調，空調售價1000多運費花2000多，有留學生為省錢網上尋拼單搭子；義烏降溫產品賣爆歐洲

大象新聞

2026-07-05 23:46:04

王力宏治療摔傷細節曝光，去的醫美科找的頂級專家，直接半夜搖人

王力宏治療摔傷細節曝光，去的醫美科找的頂級專家，直接半夜搖人

萌神木木

2026-07-05 15:16:51

本屆世界杯，最倒霉的就是佛得角！踢了4場球，遇到3個世界冠軍

本屆世界杯，最倒霉的就是佛得角！踢了4場球，遇到3個世界冠軍

觀星娛記

2026-07-05 12:31:18

別被保質期騙了！這10種食物過期1年也能吃，第一名比黃金珍貴

別被保質期騙了！這10種食物過期1年也能吃，第一名比黃金珍貴

阿天愛旅行

2026-07-04 13:31:00

西足協主席：2030年世界杯決賽應該在西班牙辦

西足協主席：2030年世界杯決賽應該在西班牙辦

懂球帝

2026-07-05 16:57:09

給10位“毛主席扮演者”排座次：劉燁第8，唐國強第3

給10位“毛主席扮演者”排座次：劉燁第8，唐國強第3

電影聚焦

2026-06-28 10:32:34

7名志愿軍在彈藥耗盡的困境下，意外撿到美軍遺留重機槍和彈藥，成功創造了一個奇跡

7名志愿軍在彈藥耗盡的困境下，意外撿到美軍遺留重機槍和彈藥，成功創造了一個奇跡

小影的娛樂

2026-07-04 14:34:50

留洋一年英語說的不如初中生，楊瀚森的問題不只在球場內

留洋一年英語說的不如初中生，楊瀚森的問題不只在球場內

兵哥籃球故事

2026-07-05 21:37:18

一趟火車1500人，為什么連30份盒飯都賣不完？終于有人說實話了！

一趟火車1500人，為什么連30份盒飯都賣不完？終于有人說實話了！

貓叔東山再起

2026-07-04 13:20:04

西安嚴鵬追悼儀式曝光：現場全是花圈，外地網友送千束菊花

西安嚴鵬追悼儀式曝光：現場全是花圈，外地網友送千束菊花

娛樂圈圈圓

2026-07-05 13:27:55

孫驍驍爸媽帶娃卻不住一起，任重這波操作，戳中了多少夫妻心坎

孫驍驍爸媽帶娃卻不住一起，任重這波操作，戳中了多少夫妻心坎

孤傲何妨初

2026-07-03 06:37:55

蔚小理集體改口認輸，特斯拉到底憑什么顛覆整個智駕行業？

蔚小理集體改口認輸，特斯拉到底憑什么顛覆整個智駕行業？

新時代精神

2026-07-03 20:49:52

別舍不得開空調！1.5匹至3匹24小時電費，看完不用再硬扛高溫

別舍不得開空調！1.5匹至3匹24小時電費，看完不用再硬扛高溫

小柱解說游戲

2026-07-05 05:43:01

“北大畢業，月薪1600”，女孩滿臉憔悴，網友：誰讓你讀這專業？

“北大畢業，月薪1600”，女孩滿臉憔悴，網友：誰讓你讀這專業？

澤澤先生

2026-07-04 21:35:57

C羅的長子：身高超1.9米，遺傳父親的運動天賦，和喬治娜相處融洽

C羅的長子：身高超1.9米，遺傳父親的運動天賦，和喬治娜相處融洽

小書生吃瓜

2026-06-29 16:00:26

辦世界杯竟成燙手山芋，2034年申辦國僅一個，為啥沒人搶了？

辦世界杯竟成燙手山芋，2034年申辦國僅一個，為啥沒人搶了？

混沌錄

2026-07-03 21:09:26

殘忍？塞內加爾出局后全隊機場苦等數小時被告知足協已取消包機

殘忍？塞內加爾出局后全隊機場苦等數小時被告知足協已取消包機

風過鄉

2026-07-05 11:33:51

暴漲74394%，存儲龍頭殺瘋了

暴漲74394%，存儲龍頭殺瘋了

首席品牌評論

2026-07-05 23:46:07

追蹤人工智能動態

12898文章數 176510關注度

往期回顧全部

科技要聞

華為：邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

醫院給老人一次拔12顆牙種10顆官方：將頂格行政處罰

頭條要聞

醫院給老人一次拔12顆牙種10顆官方：將頂格行政處罰

體育要聞

姆巴佩點走巴拉圭：巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露有四人違規

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光用上了長聯屏設計/下半年上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

手機

親子

本地

公開課

房產要聞

總裁空缺17個月、現金缺口超1000億：金融局“局外人”入局萬科

手機要聞

消息稱HMD Skyline 2手機仍將發布

親子要聞

工程車愛游泳

本地新聞

國內足球之旅？這座小城給你高分答案

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<td id="rea38"></td>

<small id="rea38"><tbody id="rea38"><noframes id="rea38"></noframes></tbody></small>