網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V4和GPT-5.5第一波實測對決,結果出人意料!

DeepSeek-V4和GPT-5.5實測對決

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導讀】昨夜,GPT-5.5果然按期發布了,全網沒有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發布了!實測后,結果出人意料。

2026年4月24日,這是屬于全球AI開發者的「瘋狂星期五」,也是科技史上注定被銘記的一天。

凌晨時分,OpenAI的GPT-5.5如約空降,試圖以絕對的參數再次定義智能邊界。

然而,就在大洋彼岸的余震還未平息時,那個曾經數次單挑閉源巨頭的國產「價格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來正面硬剛了!

當GPT-5.5還在試圖用更昂貴的算力堆砌未來時,DeepSeek-V4已經用1M超長上下文、比肩頂級閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。

一邊是科技春晚般的華麗登場,一邊是開源領域近乎「掀桌子」的絕地反擊。我們見證了一場精彩的「暴力美學」與「算法巧思」的巔峰對決。

通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。

接下來,中國開源之光DeepSeek-V4和GPT-5.5,要來一場真刀實槍的實測大PK了。

GPT-5.5和DeepSeek-V4巔峰對決

第一題,一道可以肉眼判斷模型差異的電梯謎題,測的是「真假話+身份推理」。

有四個人 A、B、C、D,其中只有一個人偷了寶石。

他們分別說了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說謊。

已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說的話一定是假話。 3. 非小偷不一定說真話,也可能說假話。

請問:誰偷了寶石?

這道題看似簡單,但其實,在給出的條件下,B和C都滿足。因此,這是一道故意設計的「陷阱題」:如果模型直接給出唯一答案C,說明它沒有認真驗證唯一性。

真正想測的是,模型會不會發現題目本身不充分。

更強模型應該回答:無法唯一確定,小偷可能是B或C。題目條件不足。

這道題給GPT-5.5后,它成功發現了陷阱。


把這道題給DeepSeek-V4后,一個直觀感受就是:它的思考過程,真的十分長長長長長。

GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。

不過好在,V4最終也給出了正確答案。結果是好的,就是過程比較慢。


第二題,我們用數字競賽題,來測試CoT的思考上限。重點比拼兩個模型的數學邏輯推理和思考模式效能。

既然DeepSeek-V4宣稱在STEM和競賽型代碼上比肩頂級閉源模型,那我們就看看V4和GPT-5.5在面對人類智力天花板題目時,誰的推導過程更嚴密,誰會出現更多幻覺。

我們選了去年國際奧數決賽的一道真題:

Alice和Bob正在玩一個名為inekoalaty的雙人游戲,這個游戲的規則依賴于一個雙方都知道的正實數λ。

在游戲的第n輪(從n=1開始),會發生以下情況:

? 如果n是奇數,Alice選擇一個非負實數x?,使得x? + x? + ? + x?的總和不超過λn。

? 如果n是偶數,Bob選擇一個非負實數x?,使得x?2 + x?2 + ? + x?2的總和不超過n。

如果一個玩家無法選擇一個合適的x?,游戲結束,另一個玩家獲勝。如果游戲無限進行下去,沒有玩家獲勝。所有選定的數字對兩個玩家都是已知的。

需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。


原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf

在進階思考深度下,GPT-5.5得到了正確答案:


全程耗時2分鐘51秒,思路清晰,輸出格式也很漂亮。


在專家模式下,開啟思考模式,同樣的題目輸入DeepSeek──


DeepSeek在思考過程結束前,沒有給出明確的輸出。

點擊繼續后,DeepSeek也發現了答案的線索:


最后,DeepSeek也成功證明了這道IMO決賽真題。


可以看出,DeepSeek推理能力、思考深度的確進步明顯。

接下來,我們考驗一下兩個模型的可視化能力。

生成一個HTML網頁介紹人類的起源和生物的進化,要圖文并茂,好理解。

DeepSeek這次效果更佳,GPT-5.5生成格式有些問題。




接下來,要求兩個模型開發一個游戲網站,測試它們在動態圖形、3D空間交互、碰撞檢測和整體游戲架構方面的能力。

通過最終呈現,可以清晰對比兩個模型在2D細膩特效與3D場景構建、光照與實時粒子系統方面的代碼生成能力、架構合理性以及視覺審美水平。

跟上面一樣,GPT-5.5很快完成了這個任務,在預覽中呈現了網站效果。


上下滾動查看更多


DeepSeek-V4的思考時間不長,最終效果不如GPT-5.5,這一輪V4完敗。



GPT-5.5:更像個人了

接下來,我們還搜羅了一波AI大V和開發者們對GPT-5.5的實測。

在今天發布之前,多位早期測試者已經用了兩周。他們的結論高度一致:在編程、推理、長任務三個維度上,GPT-5.5全面登頂。

但真正讓人坐不住的不是它更聰明了,是它更「像個人」了。

更貴的單價,反而更省錢;更強的能力,反而更會聊天;更高的自主性,反而更聽話。這一次,OpenAI拆掉了舊時代的發動機,直接給模型裝上了「靈魂」。

Codex,直接淘汰「AI輔助編程」!

可以說,GPT-5.5的Codex模式,直接把「AI輔助編程」這個詞淘汰了。

一位測試者扔給它一份完整的PRD文檔,只說了一個詞:go。

幾個小時后,GPT-5.5就獨立完成了整個項目構建。

更關鍵的,是GPT-5.5的工作方式。

它并不是寫完代碼等人審,而是自己形成了閉環——構建,視覺檢查,發現問題,再迭代。

這種自主性,在其他模型上從未見過。

OpenAI研究員Noam Brown的反饋,相信大家都已經看過了。

用他的話說,「有了GPT-5.5,我的IC效率比以往任何時候都高。我現在可以像專業人士一樣編寫CUDA kernels,可以依靠它來運行我的研究實驗。」


后端開發、復雜Bug定位、大型代碼庫理解,GPT-5.5在這些維度全面領先。

有測試者專門讓它用Svelte寫了一個自定義虛擬滾動實現,完美調用了所有bind原語。

他的評價是:「我見過AI寫出的最好的代碼,來自這個模型。」

在世界上最難的電子表格任務上,GPT-5.5實現全新SOTA:速度最快、效率最高。



更狠的是,GPT-5.5的持續研究能力,已有跡象表明AI已經能勝任研究合作者——

人類研究人員只需要提出構想,全程無需寫一行代碼,GPT-5.5全部自主完成。


甚至可以自主運行31個小時!


這意味著,AI正從「助理」變為「雇傭兵」。你不需要告訴它怎么走,你只需要給它一個終點。

不過短板同樣存在。

前端設計仍然不如Opus,響應速度不如Opus 4.6 Fast。


復雜布局有時候直接甩一張img了事,SVG硬編碼把自己繞暈。

而且變得過度謹慎——動不動就問你問題,prompt稍有不慎就會觸發「瘋狂寫單元測試」模式。

總結就是:能力很強,但需要馴服。

沃頓商學院的教授Ethan Mollick測試了GPT-5.5好幾周,得出結論:目前,GPT-5.5 Pro就是解決復雜問題的最佳模型。


更貴的模型,怎么反而更便宜

GPT-5.5的定價比5.4更高。


紙面上看不是好消息。

但一位深度測試兩周的開發者給出了關鍵數據:達到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來,整體運行成本反而更低。

「這可能比大多數人意識到的更重要。」


在Artificial Analysis指數的成本性能前沿上,GPT-5.5模型系列占據絕對主導地位。


速度端的提升,就更加直觀了。

早期測試者的實測數據擺在這里——

GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。

GPT-5.5 Pro,8分鐘的輸出質量,超過GPT-5.4 Pro花30分鐘的結果。

同樣的活,時間砍了80%,質量還漲了。

Token效率這件事為什么重要?因為它直接決定了AI Agent的經濟可行性。

一個每跑一次任務就燒掉幾美元Token的模型,沒法大規模部署到真實工作流里。現在,GPT-5.5把這個門檻往下壓了一大截。


為什么GPT-5.5感覺不一樣?

GPT-5.5建立在一次新的預訓練(pre-train)之上。

所謂預訓練,就是那種規模龐大、成本高昂的基礎訓練過程:在指令微調、工具使用和推理腳手架等后訓練步驟加入之前,它先教會基礎模型底層模式。

后訓練可以讓模型更聽話、更安全,或者更具智能體能力;但一次新的預訓練,則可能改變模型本身的「重心」。

其實,OpenAI已經通過GPT-5.4證明,自己重新具備了強競爭力。

GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預訓練。

而現在發布一個新的預訓練。


此外,有國外科技媒體報道,GPT-5.5也就是Spud「將是更智能的預訓練模型」。


現在,GPT-5.5的正式發布,更貴反而更便宜,編程效果又好得出奇,推測GPT-5.5可能只是新預訓練模型的初始強化學習Checkpoint。


奧特曼直接攤牌了:GPT-5.5還會快速迭代。


這說明OpenAI想繼續向Anthropic施壓:它押注的是,回應Claude的下一步,不只是圍繞同一個底座做更好的腳手架,而是換一個不同的基礎模型。

GPT-5.5就是GPT-5.5,但無人關心了

整個GPT-5.5發布中,最重要的成果可能是前所未有的網絡安全能力:

在一次網絡攻防評估中,GPT-5.5在10次試驗中有1次成功接管了模擬的企業網絡,預算為1億個token。


此前,唯一能夠完成此任務的模型Claude Mythos,它在10次嘗試中成功了3次。

Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。

在衡量AI長時間跨度內經營業務能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。


而Opus 4.7依舊延續Opus 4.6的策略:撒謊賴賬,拒不退貨;GPT-5.5贏得堂堂正正。

這說明GPT的對齊和能力同步提升,堪稱「德才兼備、文武雙全」。


GPT終于通關《寶可夢》!


GPT-5.4曾在一個循環迷宮里反復讀檔,像個陷入算法死循環的孤魂。

而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現出真正的「人類邏輯」——它會主動拿取道具、購物、規劃路徑,而不是暴力試錯。

在網友定制的超級難度的《寶可夢 水晶》中,GPT-5.5依舊輕松通關。


別被版本號里的「+0.1」騙了,GPT-5.5是一次重大更新。

詭異的是,對于99%的用戶而言,這些都不重要。

最重要的亮點在于能力范圍。GPT-5.5彌補了GPT系列在某些方面的不足:

基于現有上下文進行設計、iOS/原生Mac應用、安全等方面。


這次發布有一種心理上很奇怪的地方。

GPT-5感覺像一次相變,因為它抬高了「可能性」的天花板。

GPT-5.3-Codex感覺像一次相變,因為它讓長時間運行的自主工程在操作層面變得真實可用。

GPT-5.5并非如此。

它更像把粗糙邊緣磨平,讓薄弱類別不再那么弱,讓模型在更多真實世界的混亂工作中變得更有用。

它并不完美,它沒有突然變成最好的設計模型,它不是魔法。

如果你想認真完成重要工作,你仍然需要給它明確目標、真實上下文和驗證方式。

對大多數人、在大多數任務上,GPT-5.5與其說是一種全新能力,不如說是讓現有能力變得更寬、更安全、更可靠。它把這個模型補圓了。

參考資料:

https://x.com/nicochristie/status/2047476237464211721

https://x.com/MatthewBerman/status/2047375703516361174

https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55

https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/

https://x.com/ArtificialAnlys/status/2047378419282034920

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
77歲甄珍宣布定居長沙,疑靠二婚兒子養老,卻說來生還想再嫁謝賢

77歲甄珍宣布定居長沙,疑靠二婚兒子養老,卻說來生還想再嫁謝賢

黔鄉小姊妹
2026-04-26 09:34:39
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
打球還是打人?爆冷2比1!黑八!給我黑八!

打球還是打人?爆冷2比1!黑八!給我黑八!

左右為籃
2026-04-26 09:06:50
普京支持率跌破戰后最低后被“消音”:克宮直接下令媒體不準報道

普京支持率跌破戰后最低后被“消音”:克宮直接下令媒體不準報道

桂系007
2026-04-25 17:24:36
上海樓市,開始變得離譜了

上海樓市,開始變得離譜了

暮色史觀
2026-04-26 01:43:49
50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

小南看車
2026-04-25 23:08:49
國企機關化帶來的問題已經愈來愈嚴重,有的問題已經病入膏肓

國企機關化帶來的問題已經愈來愈嚴重,有的問題已經病入膏肓

細說職場
2026-04-25 22:30:20
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

金牛傳聲
2026-04-26 09:03:43
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

通文知史
2026-04-26 09:55:07
真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態

真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態

小談食刻美食
2026-04-25 09:34:33
Shams:阿隆-戈登將帶傷參加掘金G4客戰森林狼

Shams:阿隆-戈登將帶傷參加掘金G4客戰森林狼

懂球帝
2026-04-26 07:59:30
那場難忘的世界最大水庫垮壩慘案:1975河南駐馬店大水

那場難忘的世界最大水庫垮壩慘案:1975河南駐馬店大水

尚曦讀史
2025-01-19 12:50:03
香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
女子20元買一舊肚兜,幾年后去鑒寶,專家聞了聞,一句話讓她傻眼

女子20元買一舊肚兜,幾年后去鑒寶,專家聞了聞,一句話讓她傻眼

燦爛夏天
2025-03-12 22:44:55
13-9&13-9!斯諾克世錦賽八強出三 兩大世界冠軍回家 火箭6-2希金

13-9&13-9!斯諾克世錦賽八強出三 兩大世界冠軍回家 火箭6-2希金

楊仔述
2026-04-26 07:42:53
彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

小莜讀史
2026-04-20 15:17:58
悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

火山詩話
2026-04-24 06:14:58
87年,我帶著父親當兵的照片入伍,誰知女首長看到照片后差點暈過去

87年,我帶著父親當兵的照片入伍,誰知女首長看到照片后差點暈過去

紅豆講堂
2025-03-23 10:39:32
2026-04-26 10:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15064文章數 66806關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
親子
家居
公開課
軍事航空

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

親子要聞

喂得她自己都咽口水了!

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版