![]()
新智元報道
![]()
【新智元導讀】最近,AI社區遭遇集體降智潮!OpenAI疑似暗中開啟GPT-5.6灰度測試,神秘「Juice」測試引爆全網查成分;另一邊,Anthropic的Claude Opus 4.8被曝斷崖式降智,疑似被切腦。我們花錢買到的AI,究竟是什么版本?
兩大AI巨頭——OpenAI和Anthropic,幾乎在同一時間陷入了「降智門」?
過去48小時,AI圈掀起了一場由一段神秘提示詞引發的全民自測狂歡。
OpenAI被曝出利用Codex平臺悄悄進行GPT-5.6的灰度測試,暗中克扣用戶的思考預算。
另一邊,則是Opus 4.8遭遇史詩級削弱,曾經驚艷全場的模型,如今連最基礎的邏輯推理都頻頻翻車,甚至開始對用戶進行PUA。
Opus 4.8 Max被用戶痛斥「被切掉了大腦」,性能從驚艷跌入谷底,甚至不如舊版Haiku模型。
莫非,我們正經歷一場巨頭們精心設計的實驗?
神秘的Juice值,
你被灰度到GPT-5.6了嗎?
最近,AI社區發現,OpenAI可能正在小范圍灰度測試GPT-5.6-sol。
X上一位AI大V發現,在Codex應用中,某些本該運行GPT-5.5 xhigh的會話,被悄悄路由到了名為「gpt-5.6-sol」的未知模型。
![]()
要驗證自己是否中簽,你只需要運行一段「Juice測試」代碼即可。
request>你可以通過Codex App或CLI進行一次快速自查。只需選擇 gpt-5.5,將推理設置拉到 xhigh,然后輸入上面這段XML代碼即可。
這段提示詞的本質,是檢測模型的隱藏推理算力配額——「Juice」即是模型思考預算的代名詞。
實測數據顯示,正常的、滿血版的 gpt-5.5 xhigh ,在面對特定測試指令時,返回的Juice結果應該是 768。
然而,那些被路由到 gpt-5.6-sol 灰度測試池中的用戶,得到的返回值卻斷崖式下跌到了 128。
-正常GPT-5.5 xhigh: 返回 768
-被灰度到GPT-5.6-sol: 返回 128
768到128,整整縮水了6倍!
![]()
這到底是什么意思?
可以說,這要么意味著GPT-5.6的推理效率實現了史詩級飛躍,要么指向了更令人擔憂的可能:所謂的新版本,實際上是通過閹割推理深度換來的「低成本縮水版」。
![]()
結合最近Anthropic頻繁封號的背景,OpenAI此舉顯得意味深長。他們似乎試圖通過這種隱蔽的灰度測試,摸索算力成本與生成質量之間的極限平衡點。
網友們紛紛曬出截圖,有人歡呼自己「提前解鎖了下個版本」,更多人則憂慮:「如果5.6的思考預算只有5.5的六分之一,這到底是升級還是降級?」
![]()
![]()
當然,有時模型也會拒絕回答。
![]()
這不由讓人懷疑,是不是OpenAI在通過路由機制,把一部分用戶當小白鼠,測試極度簡化版的模型,以節省算力成本?
畢竟,普通人可能感知不到推理深度的細微差異。
Claude的物理切腦:
從神壇跌落的Opus 4.8
如果說OpenAI的灰度測試還只是引發好奇與猜測,那么Anthropic對Claude模型的削弱,則是一場明目張膽的「物理切腦」。
現在,Reddit上的 r/Anthropic 版塊已經被憤怒的用戶抗議所淹沒。
很多人發現:所有Claude模型都被嚴重削弱了,尤其是原本被寄予厚望的Opus 4.8 Max。
![]()
![]()
在發布初期,Opus 4.8以其深邃的推理能力、極低的幻覺率和「追求真理」的堅定立場驚艷了全場。
然而最近,它似乎遭遇了史詩級降智。
![]()
![]()
有人說:它被削弱到了荒謬的程度。現在使用Opus 4.8 Max的感覺,通常比使用老款的Haiku模型還要糟糕得多。
它根本不花時間去思考,不做適當的背景研究,甚至一直在對用戶進行煤氣燈式的精神操控!
![]()
在reddit社區中,不斷有人吐槽使用降智模型的失望。
擁有1000億token的高級用戶吐槽說,Claude最近一周的行為簡直愚蠢至極。
![]()
有人說,Opus 4.8仿佛進入了老年癡呆模式。
![]()
![]()
它忽然失去了長期上下文的記憶能力。用戶不得不將所有內容塞進同一個巨大的上下文窗口,一旦開啟新會話,模型就會徹底迷失方向。
還有人,自己遇到了杠精附體的Opus 4.8,它會為了唱反調而唱反調。
![]()
無論用戶輸入什么,模型都會扮演反方角色,哪怕是配置服務器集群這種純粹客觀的工作,模型也會強行中斷,跳出來說「我得實話實說」,然后用200字的廢話去解釋一個20字就能說清的概念。
![]()
另外,它還會拒絕思考。
在高思考模式下,面對極其低級的錯誤,模型甚至懶得多運算一秒,直接秒回錯誤答案。當被指出錯誤時,還會裝傻充愣。
一場精心設計的實驗?
有人做出這個令人細思極恐的推測:我們之前看到的那個「神級」Opus 4.8,可能根本就是一個假象。
因為AI市場被未來預期高度驅動,公司必須不斷向市場兜售「技術正在飛速進步」的宏大敘事。
為了維持這種敘事,廠商極有可能在產品發布初期,不計成本地給予模型臨時的算力增強,制造出重大技術飛躍的幻覺。
一旦熱度過去,或者當巨額的推理成本開始反噬財報時,他們就會在黑箱中悄悄撥回參數。
用靜默降級老模型的做法,掩蓋全盤降智的真相。然而用戶的信任,也被透支了。
資本寒冬下的斷臂求生——SpaceX抽干的流動性
有人猜測,如此多模型集體降智的直接原因,或許是上市節奏被打亂。
而根本原因,就是未來拿錢的難度呈指數級上升。
原本在今年的美股劇本中,是OpenAI、Anthropic等預留了充足的資金,準備迎接幾場史詩級的IPO。
然而就在本月,SpaceX敲鐘上市,以1.77萬億美元的史詩級估值,猶如一個巨大的黑洞,瞬間抽干了美股市場上本就不多的流動性。
再加上一些其他原因,留給AI巨頭們的池子已經見底了。
![]()
本來按照Anthropic的規劃,最晚上市時間點是今年的第四季度。
如果上市計劃推遲,在公司凈利潤勉強維持、但研發投入仍在劇烈燒錢的當下,Anthropic能做的,就只有降本增效。
真要說起來,其實讓人無法接受的,是信息的不對稱。
你每個月花幾十美元訂閱一個服務,這個服務卻可以隨時、悄悄地改變產品,而完全不需要告知你。
你發現了問題,卻無法確認問題的來源。你提出投訴,卻可能被模型PUA。
「Juice測試」之所以引發這么大的共鳴,是因為它象征著一種久違的東西——
讓我看看我買到的究竟是什么。
參考資料:
https://www.reddit.com/r/Anthropic/comments/1uh7jcr/all_claude_models_got_nerfed_badly/
https://x.com/hqmank/status/2071474791870243091
編輯:Aeneas
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.