網易首頁 > 網易號 > 正文 申請入駐

GPT-5.5參數有10T?病毒式論文剛剛被打假,實際縮水至1.5T

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導讀】五一假期前,AI社區被一篇「GPT-5.5擁有近10萬億參數」的論文刷屏,今天這項研究就被研究者打假了!研究者表示,修正論文中的各種問題后,GPT-5.5的參數很可能約為1.5T。

2026年4月底,AI界被一篇名為《不可壓縮知識探針》(Incompressible Knowledge Probes,簡稱 IKP)的論文震動了。


論文地址:https://www.alphaxiv.org/abs/2604.24827

Pine AI的首席科學家Bojie Li發表了一項研究,聲稱通過一種全新的「黑盒探測法」,推算出了那些閉源模型的真實體量。

  • GPT-5.5:9.7萬億(9.7T)參數

  • Claude Opus 4.7:4.0萬億(4.0T)參數

  • o1:3.5萬億(3.5T)參數

這個數據瞬間引爆了社交媒體。

要知道,如果GPT-5.5真的達到了10T規模,那意味著它比傳聞中的GPT-4(約1.8T)大了5倍有余。

一時間,這個參數瞬間傳遍全網。


然而,僅僅幾天后,反轉就來了。

邏輯的漏洞:從10T到1.5T的縮水內幕

最近,來自UC伯克利CHAI實驗室的Lawrence Chan和UK AISI的研究員Ben Sturgeon對這篇論文進行了深挖。


他們發現,這篇聲稱「逆推大模型規?!沟谋鹫撐?,竟然存在嚴重的邏輯與代碼偏差。


修復這些問題后,GPT-5.5的參數約為1.5T(90% 置信區間:256B-8.3T)。


被修飾的擬合曲線

在原始論文中,作者聲稱沒有對模型的得分進行「保底處理」(flooring)。但在復現代碼時,研究者發現作者在計算小模型得分時,偷偷地將負分歸零了。

科普:當模型遇到不知道的冷知識時,如果亂猜(幻覺),得分會是負數。

如果把這個「歸零」操作去掉,小模型的得分會大幅下降。這意味著原本陡峭的「得分-參數」擬合曲線會變得平緩。修正后,估算的GPT-5.5規模直接從9.7T暴跌至1.5T



「人工智障」出題:25%的題目本身就有錯

研究者發現,這套用來測試模型的「冷知識題庫」質量同樣堪憂。

  • 歧義性:約25%的專家知識題存在歧義(例如重名研究員)。

  • 事實錯誤:部分標準答案本身就是錯的。

最戲劇性的是,原作者Bojie Li后來坦言:這篇研究是他在AI智能體的輔助下,僅用4天時間完成的早期探索。

這種「AI寫論文研究AI」的模式,被Lawrence Chan戲稱為「充滿槽點的Vibe-coding」。



核心理論依然堅挺

知識「不可壓縮」

用嚴謹的話說,論文的核心思想——IKP 得分與對數參數數量之間的線性關系——仍然成立,但參數數量的估計卻不成立。


解決這兩個問題后,基于IKP的前沿模型估計的參數數量通常會下降,置信區間會擴大:

GPT 5.5:9.7T -> 1.5T

Claude Opus 4.7:4.0T -> 1.1T

DeepSeek R1(實際大小671B):424 B -> 760 B


難得的是,論文中的三種說法,承受住了各種測試,被證明依然是正確的。

比如,IKP分數和模型的參數呈對數線性關系。


總之,論文提出的核心模型依然得到了學界的認可:不可壓縮知識探針(IKP)。

這個理論認為,大模型的能力可以分為兩部分。

  1. 程序性能力(邏輯、推理、代碼):這是可以壓縮的。隨著架構優化,更小的模型可以擁有更強的推理能力。

  2. 事實性知識(某人的出生日期、冷門研究領域):這是不可壓縮的。

你可以把模型想象成一個硬盤,存一個事實就需要占幾個比特位。

因此,測試模型到底知道多少「不可壓縮」的冷知識,確實是目前探測閉源模型參數最科學的「測力計」。

誰才是真正的「知識之王」?

而且,盡管參數規模下調了,但各家模型的「有效容量」排名依然極具參考價值。

梯隊格局

  • 第一梯隊(巔峰王者):GPT-5.5。雖然可能只有1.5T左右,但它在T6級別的超冷門知識表現上依然冠絕群雄。

  • 第二梯隊(貼身肉搏):Claude Opus 4.7、o1、Grok-4。這幾款模型的有效容量高度接近,競爭進入白熱化。

  • MoE(混合專家模型)的秘密:研究發現,MoE模型的知識量取決于其總參數,而非每次運行時的「激活參數」。這意味著,如果你想讓模型博學,堆參數依然是唯一的硬道理。

「思考模式」的玄學

測試顯示,開啟「思維鏈」(Thinking Mode)并不能顯著增加模型的知識量。這再次印證了:思考能提高邏輯,但不能憑空變出你沒讀過的書。

最后,Lawrence Chan吐槽說:這項工作果然是AI智能體在四天內完成的,因為網站和代碼庫到處都體現著vibe coding的粗糙風格。


GPT-5.5參數有9.7T?

4月30日,Pine AI的首席科學家李博杰的這篇論文引發了熱議。


核心觀點是:事實性容量與模型規模呈對數線性關系。

論文展示了 7 個知識層級,其中T7對所有模型來說幾乎都是0%左右,這表明預訓練仍有巨大的提升空間。


Gemini 3.1 Pro很可能超過 10T,因為它被用作錨點,但論文中沒有對其直接估算。

這意味著,我們可以在一定程度上推斷不同模型的訓練成本,以及它們的后訓練效果——即在給定規模下,在某些非事實性任務上的表現。

在原作中,李博杰構建了一個包含1400個事實性問題的數據集,并將準確率與參數數量進行擬合。

通過反轉擬合,從閉源模型的數據集得分,研究人員推斷出其參數數量。


特別要注意最后一行的90%預測區間「Predicition interval, PI」非常大。

此前,就有網友注意到這些「規模只是推測,不應當作事實」。


現在許多人,想知道估算對方法論有多敏感——


李博杰直言,「同一個評估任務,結果橫跨60倍區間 → 任何單一的點估計都不誠實。」


不過,IKP本是一個起點,而非終點。

作者坦誠自己匆忙上傳了一篇未成熟的arXiv論文,只是為了把這個想法放出來。

論文、代碼、數據集和網站都是在 4 天內完成的,主要借助 Claude Code,發布前未經同行審閱。采用下限處理和 λ=?1,是為了在開放權重模型上最大化R2。

我們期待未來的工作能將它做得更好!

Scaling Law失效了嗎?

這次「參數神話」的破滅,給行業敲響了警鐘:盲目崇拜大數字的時代正在過去。

GPT-5.5從10T降到1.5T,并不意味著它變弱了,而是意味著OpenAI可能在數據質量和參數效率上做了更驚人的優化。

正如Lawrence Chan在總結中所說:「GPT-5.5到底有多少參數?我們依然不確定。但這種通過探測知識容量來反推規模的方法,為我們揭開黑盒模型的面紗提供了一條新路徑。」

在通往AGI的路上,我們需要的或許不再是更大的硬盤,而是更聰明的索引方式。

參考資料:

https://x.com/deedydas/status/2049523583517634862

https://x.com/justanotherlaw/status/2050399317782155726

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,享年90歲

他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,享年90歲

英子談
2026-05-02 09:30:44
細思極恐!楊采鈺還不如跟陳金飛!知三當三失敗,想借子上位也沒用

細思極恐!楊采鈺還不如跟陳金飛!知三當三失敗,想借子上位也沒用

八卦王者
2026-05-01 14:27:25
老人斷氣時誰在身邊最好?不是子女數量,而是這3種人

老人斷氣時誰在身邊最好?不是子女數量,而是這3種人

小影的娛樂
2026-05-03 15:59:30
景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

星娛叨叨社
2026-04-30 14:32:32
皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續封神

皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續封神

奶蓋熊本熊
2026-05-03 02:07:54
納因戈蘭:麥克托米奈雖然能進很多球,但他就是個普通球員

納因戈蘭:麥克托米奈雖然能進很多球,但他就是個普通球員

懂球帝
2026-05-03 09:21:12
“大家五一不逛景區嗎?怎么都來老鋪排隊!”

“大家五一不逛景區嗎?怎么都來老鋪排隊!”

上海黃浦
2026-05-02 20:01:28
相親遇到過什么惡心的事?網友:她把我當ATM機,我以為緣分來了

相親遇到過什么惡心的事?網友:她把我當ATM機,我以為緣分來了

夜深愛雜談
2026-05-03 11:35:03
銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

牛鍋巴小釩
2026-05-03 15:34:57
“我要展現自己的實力”——喬布·貝林厄姆認真起來了

“我要展現自己的實力”——喬布·貝林厄姆認真起來了

李巴喬
2026-05-03 18:55:10
5月開始,"北京特區"正式亮相!

5月開始,"北京特區"正式亮相!

大山說房
2026-05-02 17:52:42
風向變了,斯洛伐克放棄強硬,澤連斯基策略奏效,烏克蘭漸入佳境

風向變了,斯洛伐克放棄強硬,澤連斯基策略奏效,烏克蘭漸入佳境

壹只灰鴿子
2026-05-03 13:33:52
中國足球留洋7大災難名場面:從豪門寵兒到無球可踢

中國足球留洋7大災難名場面:從豪門寵兒到無球可踢

圣西羅的太陽
2026-05-03 10:09:48
發現了嗎?軍方明顯越來越“不耐煩”,說的都是外國人能聽懂的話

發現了嗎?軍方明顯越來越“不耐煩”,說的都是外國人能聽懂的話

浪子阿邴聊體育
2026-05-03 07:35:44
加拿大游客到廣州,被無現金支付整懵,直呼像日本但更激進

加拿大游客到廣州,被無現金支付整懵,直呼像日本但更激進

劉哥談體育
2026-05-03 11:26:58
梅根心心念念求三年的同框,卡米拉一句話搞定,體制才是頂級社交

梅根心心念念求三年的同框,卡米拉一句話搞定,體制才是頂級社交

樂趣紀史
2026-05-03 18:01:18
730萬香港市民鐘意首艘核航母,中央將打破慣例叫它“香港號”?

730萬香港市民鐘意首艘核航母,中央將打破慣例叫它“香港號”?

混沌錄
2026-04-30 20:35:32
斯基拉:曼城正準備向森林提供一份巨額報價,試圖簽下安德森

斯基拉:曼城正準備向森林提供一份巨額報價,試圖簽下安德森

懂球帝
2026-05-03 14:19:08
含劇毒,無解藥!每家每戶都有,千萬別亂吃,哪怕煮爛了也沒用!

含劇毒,無解藥!每家每戶都有,千萬別亂吃,哪怕煮爛了也沒用!

健康科普365
2026-04-14 16:25:08
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

番外行
2026-03-10 08:01:42
2026-05-03 19:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15123文章數 66832關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

頭條要聞

機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

時尚
藝術
教育
家居
游戲

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

藝術要聞

書法圈內秘傳的一段口訣,把草書技巧講得明明白白,90%的人沒聽說過!

教育要聞

考懵寶媽的一道二年級思考題,思維受限

家居要聞

靈動實用 生活藝術場

《刺客信條》新衍生作或將取消!內部評價過于糟糕

無障礙瀏覽 進入關懷版