无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GPT-5幾個預測:用戶翻倍,編程登頂,屠殺一眾模型

0
分享至

在GPT-4橫空出世后,始終不見新一代大模型。暌違2年半,大家的心情如下,終于在今晚等到了GPT-5。

毫無意外,GPT-5登頂了大模型各種測評榜單。OpenAI發布的GPT-5四個模型,在Artificial Analysis Intelligence Index v2.2中排名如下:

GPT-5 (high)– 得分 69

GPT-5 (medium)– 得分 68

GPT-5 (low)– 得分 63

GPT-5 (minimal)– 得分 44

解釋下,在這個綜合指數排名中,官方說明里列出了 8 個子基準——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每個模型的得分是在這 8 組測試中表現的匯總(通常是加權平均或標準化后的平均值)。

但其實GPT-5最大的跨越,是統一智能架構

現在,用戶不用費力區分什么時候用4o,什么時候用o3等眾多模型,ChatGPT將統一用GPT-5提供服務,它整合了高效響應模型和深度推理模型(GPT-5 thinking),通過實時智能路由自動判斷何時快速響應,減少不必要的算力浪費;自主判斷何時深度思考,給用戶最深刻的回答。

而在LLM Arena 更新的榜單中,GPT-5拿到幾乎所有類別的第一名,包括數學、指令遵循、多輪對話、編碼、WebDev等等,僅僅創意性寫作這個類別上稍弱于 Gemini 2.5pro。

具體看,GPT-5在多個權威基準測試中取得了突破性成績:

1)數學推理:AIME 2025 無工具輔助達到 94.6%;

2)多模態理解:MMMU 基準測試達到 84.2%;

3)科學推理:GPT-5 Pro 在 GPQA 測試中無工具輔助達到 88.4%;

4)代碼編程: 在 SWE-bench Verified(軟件工程任務)中:GPT-5直接回答準確率為 52.8%,加入思考鏈后提升至 74.9%,相比之下GPT-4o 表現為 30.8%,OpenAI o3 為 69.1%。

在 Aider Polyglot(多語言代碼編輯任務)中:GPT-5加入思考鏈后準確率達 88.0%,無思考僅 26.7%,而 GPT-4o 為 25.8%,OpenAI o3 為 79.6%。

所以,GPT-5依托思考鏈技術,在復雜任務中表現得更得心應手。

多說一句,GPT-5 在編程方面擊敗了 Claude Opus 4.1,成為全球最佳編程模型!連Cursor和微軟Copilot都第一時間接入了GPT-5 ,以后AI Coding市場要更熱鬧了。

拋開GPT-5的能力升級,更為重要的意圖改進,可能是在以下三點:

1、

相比上一代模型大幅減少幻覺和廢話,讓AI更可信。

與 GPT-4o 相比:GPT-5事實性錯誤減少 45%;開放事實上的幻覺減少 6 倍;缺失數據上的欺騙性回答減少 80%。

直播中舉例,沒有數據的問題,不會像以前直接遣詞造句,裝模做樣地編造回答。現在會直接告訴無法回答,還會給一個解決方案。這也意味著GPT-5 更準確,更誠實。

雖然宣稱GPT-5的幻覺率大幅減少,但是OpenAI的工作人員幻覺率可挺高,直播中出現了大烏龍。

這張翻車的直播PPT圖中,柱狀圖顯示 數值52.8 比 69.1 高,而 69.1 又被顯示為與 30.8 相同量級。

或許是因為AI,人類數學能力已經出現了大幅衰退,笑Cry。

2、

GPT-5 更具有多維的人類情感,而不是單純的討好人類。

GPT-5這次新增 4 個聊天個性:憤世嫉俗者、機器人、傾聽者、書呆子。可在設置中的 Customize ChatGPT 里自主選擇。而且GPT-5 將諂媚(AI 過度奉承)減少了>60%。當你犯錯時,會減少“你是對的”。

3、在健康領域的回答更實用。

GPT-5在 HealthBench 基準測試中得分創歷史新高,達到 46.2%。直播中,一位患上癌癥的女性將診斷書輸入 ChatGPT,ChatGPT 將GPT-5將難懂的語言整理得易于理解。

當然,還有這點不得不提,就是OpenAI竟然玩起了性價比。將GPT-5 與 Claude Opus 4.1 進行比較,可見GPT-5 要便宜得多。

便宜到底好不好用,以下這些海外生成的案例可參考:

1、音樂節拍器生成測試

現實世界的信息是多模態的——文字、圖像、音頻、視頻等多種形式共同構成了人類的認知輸入。我們測試Chat GPT5 對音樂領域規則的理解,也考驗其將抽象需求轉化為,可執行邏輯的工程化能力。

生成的音樂很帶感,網友直呼:“我的耳朵要懷孕了”,“也許它會徹底改變音樂產業“

@sama

2、建筑生成器

GPT-5也能協助建筑行業進行工作,全程沒碰過一行代碼,卻非常智能的生成了3D樓房。

“做一個程序化的粗野主義建筑生成器,能讓我通過拖拽以各種酷炫方式編輯建筑”,然后又讓它 “再改進一下

3、簡筆畫對比

GPT-5 在自行車測試中的表現比 4o 好得多。

GPT-5 在和Claude Sonnet 4測試繪制游戲手柄中也好很多

4、指示GPT-5創建一個音樂可視化工具 + 迷你作曲家

5、編碼能力測試

在發布會上,主講人宣稱對安全系統進行了一系列的升級,國外網友(@PranavJoshi28)對 AI 能否設計并實現一個 “安全、規范、可維護” 的后端身份認證與權限系統進行了的綜合測試,這一項測試既涉及具體技術的落地,也考驗對安全最佳實踐和工程化思想的理解。

提示詞:創建基礎的 RBAC(基于角色的訪問控制) 使用 JWT(JSON Web Token) 密碼存儲應使用 bcrypt,但首先要將密碼與 pepper(一種額外的加密鹽)結合,并用 SHA-256(生成 32 字節)進行哈希處理,之后再用 bcrypt 加密,以避免 72 字節的截斷問題 需維護遷移文件(不使用 ORM 或查詢構建器),并設有單獨的 up(升級)和 down(降級)文件夾 使用 Zod 進行類型檢查和 schema 驗證 生成訪問令牌和刷新令牌(支持令牌輪換) 使用刷新令牌數據庫來實現令牌的黑名單管理、撤銷或過期處理

國外網友評價:大部分準確,需要較少的調整。

但網友測試GPT-5,檢測出9.9-9.11=-0.21,這種難以想象的錯誤。

在GPT-5發布后,鯨哥預測:

?因為GPT-5 人人可免費使用,以及回答效率更高,OpenAI的全球用戶在今天周月活數7億基礎上將翻倍。

?AI編程將走出小眾,程序員大面積失業。因為GPT-5編程能力出眾,一直拒絕OpenAI收購的Cursor,都第一時間接入了GPT-5,你就知道未來大部分AI編程軟件,會齊刷刷都接入GPT-5,AI編程效率進一步提高。

?GPT-5的多模態,以及多尺寸,將幫助其占領大多數AI場景, 很多大模型將因為競爭性不足,而被GPT-5踢了場子。

盡管馬斯克還不服氣,認為Grok 4 Heavy還占據著最智能的大模型寶座,但是GPT-5這次務實地推進,將改變除了桂冠外的一切。

一位國外網友站在長遠的角度評價,GPT-5 只是點火器:

? GPT-5.5 Copilot+(內部測試階段)

? GPT-6 → AGI 認知層

? Sora + Sky + Whisper = 完全感官認知

? AutoCode + Memory API = 世界操作系

你認可嗎?



https://x.com/godofprompt/status/1953529048971588015

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中甲最新積分榜:長春亞泰2-1逆襲,廣州豹登頂,南京城市被逆轉

中甲最新積分榜:長春亞泰2-1逆襲,廣州豹登頂,南京城市被逆轉

足球狗說
2026-06-13 21:58:49
偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

社會日日鮮
2026-06-13 09:38:13
你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

另子維愛讀史
2026-06-12 19:50:24
高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

洞見
2026-06-12 21:22:37
中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

次元君情感
2026-06-01 14:27:53
比賽還剩4天開打 阿根廷隊卻先迎致命壞消息 取勝阿爾及利亞懸了

比賽還剩4天開打 阿根廷隊卻先迎致命壞消息 取勝阿爾及利亞懸了

零度眼看球
2026-06-13 11:06:19
韓國隊贏球,戳破中國足球借口!東亞人不行,那為何日韓能贏?

韓國隊贏球,戳破中國足球借口!東亞人不行,那為何日韓能贏?

傲傲講歷史
2026-06-14 04:57:33
大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

閑搞機
2026-06-13 11:07:02
加拿大世界杯首秀,多倫多體育場外紅白海洋

加拿大世界杯首秀,多倫多體育場外紅白海洋

溫柔且自由
2026-06-13 01:10:57
浪姐萬千惠終于發賣老頭了!網友:三百多分沒白挨

浪姐萬千惠終于發賣老頭了!網友:三百多分沒白挨

TVB的四小花
2026-06-13 02:06:49
韓國芯片專家:最快到2030年,將會出現“中國版ASML”!

韓國芯片專家:最快到2030年,將會出現“中國版ASML”!

步論天下事
2026-06-13 18:57:37
外媒:沙特王儲“婉拒”馬克龍邀其出席G7峰會,并就因事先已有安排而無法出席表示歉意

外媒:沙特王儲“婉拒”馬克龍邀其出席G7峰會,并就因事先已有安排而無法出席表示歉意

環球網資訊
2026-06-13 19:00:21
導演王晶回應與周星馳不和:很難跟他做朋友,他也不出來社交,鬧翻后在公共場合比較少見面,但周星馳的戲首映會請自己去

導演王晶回應與周星馳不和:很難跟他做朋友,他也不出來社交,鬧翻后在公共場合比較少見面,但周星馳的戲首映會請自己去

極目新聞
2026-06-12 08:41:26
美專家曾說:若中國武統,西方可凍結3.2萬億中國資產!

美專家曾說:若中國武統,西方可凍結3.2萬億中國資產!

果媽聊娛樂
2026-05-28 18:57:51
活塞2026選秀應避開三名球員

活塞2026選秀應避開三名球員

體壇周報
2026-06-14 05:17:18
南美球隊1-4首敗!14日賽程:巴西VS摩洛哥+亞洲2隊出戰 央視直播

南美球隊1-4首敗!14日賽程:巴西VS摩洛哥+亞洲2隊出戰 央視直播

何老師呀
2026-06-13 14:32:32
世界杯觀感:沒吹牛!上半場的美國能奪冠,下半場的美國只能出線

世界杯觀感:沒吹牛!上半場的美國能奪冠,下半場的美國只能出線

濤哥侃球
2026-06-13 15:33:45
全球最深鯨類大墓地被發現:超1000萬頭鯨長眠 最早可追溯到530萬年前

全球最深鯨類大墓地被發現:超1000萬頭鯨長眠 最早可追溯到530萬年前

快科技
2026-06-12 07:57:04
穿瑜伽褲跑步,不尷尬嗎?

穿瑜伽褲跑步,不尷尬嗎?

馬拉松跑步健身
2026-06-13 21:32:16
A股:股民做好準備,信號很強烈,下周6.15將迎更大的暴風雨?

A股:股民做好準備,信號很強烈,下周6.15將迎更大的暴風雨?

夜深愛雜談
2026-06-13 21:18:02
2026-06-14 05:43:00
鯨選AI incentive-icons
鯨選AI
最新AI產品化與商業化案例速遞
168文章數 38關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
房產
數碼
公開課
軍事航空

老人、小孩、孕婦,吃粽子有啥風險

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版