網易首頁 > 網易號 > 正文 申請入駐

有人只用API就猜出了GPT、Claude、Gemini的參數量?社區吵翻了

0
分享至



機器之心編輯部

最近,研究人員李博杰在 arXiv 發布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調用,來逆向估算任意 LLM 的參數規模。



  • 論文標題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
  • 論文地址:https://arxiv.org/pdf/2604.24827

該研究的靈感源于一項持續三年的非正式測試。據李博杰介紹,其團隊成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項 CTF 網絡安全競賽)。



跨越多個版本的觀察結果,直觀展示了模型對世界知識認知的發展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續多屆賽事的具體細節。

受此啟發,在 DeepSeek-V4 發布后,研究團隊利用 AI Agent 歷時四天自主構建了完整的 IKP 正式數據集。該數據集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

研究的核心假設在于:模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾,但對冷門「事實性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數規模。

基于此,研究者在 89 個參數量已知的開源模型(規模從 1.35 億到 1.6 萬億參數)上擬合出事實準確率與參數量的對數線性關系,擬合優度 R2 = 0.917,并據此對閉源模型進行參數估算。

根據該方法,論文給出的估算數字(90% 置信區間約為 0.3 至 3 倍)如下:

  • GPT-5.5:約 9 萬億參數
  • Claude Opus 4.7:約 4 萬億參數
  • GPT-5.4:約 2.2 萬億參數
  • Claude Sonnet 4.6:約 1.7 萬億參數
  • Gemini 2.5 Pro:約 1.2 萬億參數

論文同時指出另外兩項發現:

一是引用數量和 h 指數并不能有效預測研究者是否被模型記住,模型更傾向于記住那些產生了領域性影響的工作,而非高產但影響相對分散的學者;

二是跨越三年的 96 個開源模型數據顯示,事實記憶容量的時間系數在統計上接近于零,這與此前「Densing Law」所預測的效率隨時間提升的規律相悖,研究者據此認為推理能力基準趨于飽和,而事實容量仍主要受制于參數規模。

這組直觀的數據迅速在技術社區傳播并引發廣泛討論,但也伴隨著巨大的爭議。



有博主基于這組估算數據,結合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實現了體驗上的反轉。



也有多位研究者和從業者對估算數字及方法論提出了不同程度的質疑。

對于 GPT-5.5 約 9 萬億參數的估算,部分用戶認為與實際服務能力不符,指出若規模真達到這一量級,OpenAI 現有基礎設施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數差距并不匹配。有人認為兩者規模比約在 2 倍左右更為合理。



同時,定向引入「合成數據」進行微調,同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實知識不可壓縮」的核心前提。



根據該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規模約 1.7T,而行業已知國內模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數差距僅在兩倍左右,單純的數據差異極難解釋目前兩者間的巨大性能鴻溝。



此外,業內長期流傳的 GPT-4 規模約 1.7T,這與論文估算的結果出入極大。



發起討論的另一位 X 博主也補充說明:「這些數字不應被視為事實,置信區間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠!



當然,在爭議與質疑之外,技術社區中也涌現出了許多極具建設性的正向探討。

例如,有用戶認為 MoE 架構和稠密模型在知識壓縮效率上可能存在本質不同(MoE 的事實可能被分散在不同專家中),建議將這兩類模型分開統計以觀察趨勢。







對這組數據你怎么看?

https://x.com/deedydas/status/2049523583517634862

https://x.com/bojie_li/status/2049314403208896521

https://www.zhihu.com/pin/2032769685012361774

https://x.com/yiran2037840/status/2049827667034439821

https://x.com/Yampeleg/status/2049573913399607711

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
34年后,《縱橫四海》憑什么還能收割票房?

34年后,《縱橫四!窇{什么還能收割票房?

閃存獵手
2026-04-16 11:05:49
“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

妍妍教育日記
2026-04-24 11:15:25
還能活多久,看體重就知?醫生強調:上了年紀的人,體重這些剛好

還能活多久,看體重就知?醫生強調:上了年紀的人,體重這些剛好

醫學科普匯
2026-04-18 17:05:51
菲爾茲獎獲得者埃菲?杰曼諾夫:中國的科創沃土讓基礎研究的根扎得深扎得穩

菲爾茲獎獲得者埃菲?杰曼諾夫:中國的科創沃土讓基礎研究的根扎得深扎得穩

國際在線
2026-05-01 16:48:04
川航小姐姐,紅裙黑絲,太美了

川航小姐姐,紅裙黑絲,太美了

微微熱評
2026-05-01 17:34:57
硬剛到底!黃一鳴放話起訴王思聰做親子鑒定:我要錢更要女兒名分

硬剛到底!黃一鳴放話起訴王思聰做親子鑒定:我要錢更要女兒名分

觀魚聽雨
2026-04-29 23:20:16
中國隊3-0戰勝馬來西亞隊 晉級湯姆斯杯四強

中國隊3-0戰勝馬來西亞隊 晉級湯姆斯杯四強

環球網資訊
2026-05-01 20:47:15
我退休金1萬,找個農村50歲老伴,她:你每月給我2千,其他不用管

我退休金1萬,找個農村50歲老伴,她:你每月給我2千,其他不用管

白云故事
2025-05-07 07:30:09
登山告別粗木棍,共享登山杖來了!五一期間1元租12小時游泰山

登山告別粗木棍,共享登山杖來了!五一期間1元租12小時游泰山

齊魯壹點
2026-04-30 23:26:12
黃一鳴豪門夢徹底碎成一地雞毛!

黃一鳴豪門夢徹底碎成一地雞毛!

鄉野小珥
2026-05-01 19:26:20
張玉寧現狀:兩鬢已斑白,離婚要兒子不要房,至今單身征戰蘇超

張玉寧現狀:兩鬢已斑白,離婚要兒子不要房,至今單身征戰蘇超

楠楠自語
2026-04-13 18:35:30
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
陜西11歲男孩失聯10天后確認遇難,排除刑事案件,家屬回應:孩子父親情緒崩潰不愿意和人說話,落水原因還在調查中

陜西11歲男孩失聯10天后確認遇難,排除刑事案件,家屬回應:孩子父親情緒崩潰不愿意和人說話,落水原因還在調查中

極目新聞
2026-05-01 19:12:44
家底再厚也沒用,嫁給富豪13年、獨守娘家的潘陽,點醒了年輕人

家底再厚也沒用,嫁給富豪13年、獨守娘家的潘陽,點醒了年輕人

喜歡歷史的阿繁
2026-05-01 20:31:40
破案了!杜鋒用年輕球員時間為何減少?張明池道出了原因

破案了!杜鋒用年輕球員時間為何減少?張明池道出了原因

體育哲人
2026-04-30 23:37:12
離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

離譜!許家印只喝2700一瓶水 馬桶必須噴香水 隨身配備女按摩師

念洲
2026-04-28 11:37:39
又一匹黑馬殺出!第一人出局,史上最偉大爆冷

又一匹黑馬殺出!第一人出局,史上最偉大爆冷

體育新角度
2026-05-01 17:34:43
證據有了:山海經顯示,三星堆文明,極有可能是夏朝遺民

證據有了:山海經顯示,三星堆文明,極有可能是夏朝遺民

觀史搜尋著
2026-03-21 23:23:56
22隊哄搶杜蘭特!爵士梭哈4號簽+3大核心,火箭賺翻?

22隊哄搶杜蘭特!爵士梭哈4號簽+3大核心,火箭賺翻?

夕落秋山
2026-05-01 14:38:09
杜鋒變陣雙大外!胡明軒殺紅眼造21分大勝!廣東一夜蛻變1-1廣州

杜鋒變陣雙大外!胡明軒殺紅眼造21分大勝!廣東一夜蛻變1-1廣州

后仰大風車
2026-05-01 21:37:31
2026-05-01 21:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12902文章數 142639關注度
往期回顧 全部

科技要聞

DeepSeek發布多模態論文又連夜刪除

頭條要聞

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

頭條要聞

74歲老人郵輪旅行登船次日突發急癥離世 家屬索賠90萬

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊早被炒了

娛樂要聞

馬筱梅產后身材恢復超好 現身戶外直播

財經要聞

GPU神話松動,AI真正的戰場變了

汽車要聞

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

旅游
數碼
時尚
親子
本地

旅游要聞

“五一”首日,延慶八達嶺長城、通州牡丹園等迎客流高峰

數碼要聞

戴森“迷你酷”手持無葉風扇HushJet Mini Cool上架,799元

她們看起來氣血好足,每套搭配我都想抄

親子要聞

這個爸爸老是老了點 但是真可愛

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進入關懷版