无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GPT-5.5智商145背后:大模型競賽,正在進入工程淘汰賽

0
分享至

文 | 舒書
什么是工程淘汰賽?

在進入正文之前,有必要先明確本文的核心概念。

所謂工程淘汰賽,是指在模型基礎能力趨同的背景下,圍繞推理成本控制、幻覺率治理、數據質量工程、Agent工具鏈可靠性、私有化交付能力、安全合規工程展開的競爭。參數不再是護城河,工程才是。

這一轉變發生在Transformer+MoE主流架構短期難以被顛覆、基礎模型能力集體拉平的周期里。當“誰能做出更聰明的模型”不再是唯一問題,“誰能把模型可靠地用起來”就成為了新的勝負手。

這與智商競賽的本質區別在于:前者比的是誰能做出更聰明的模型,后者比的是誰能把模型的能力以可控的成本和風險跑通。競賽遠未結束,但規則正在改變。

一、通用推理能力的真相:能力在提升,但需回到地面

GPT-5.5 Pro的門薩風格測試成績引發了大量討論。根據LisanBench(第三方AI能力評測平臺,測試時間2026年4月,測試數據集及方法論已公開)的測試結果:

  • 視覺邏輯推理能力:達人類前0.1%水平

  • 在線文本推理能力:達人類前2%水平(門薩入會線為前2%)

  • 線下非公開文本測試:剛好踩在門薩門檻上

這意味著GPT-5.5 Pro在視覺邏輯推理上確實達到了人類頂尖水平,但在純文本推理上,雖然也是聰明人,但并非天才。兩者的差距是前0.1% vs 前2%。

需要指出的是,將人類門薩智商測試直接套用于大模型在學術上并不嚴謹。更準確的表述是在門薩風格測試中的表現。門薩的視覺推理測試(如3x3九宮格)考察的是抽象的、非語言的邏輯推理能力,包括旋轉、鏡像、疊加、增減等復雜規則的識別與應用。


需要指出的是,Claude在長上下文邏輯一致性、實時知識更新、多模態能力等方面仍明顯落后于GPT-5.5。Gemini則在工具調用穩定性和生態成熟度上存在差距。各模型各有長短,本文聚焦幻覺率的對比,不代表全面評價。

GPT-5.5 Pro的進步主要在視覺邏輯推理維度。但這并不意味著智商競賽已經結束,而是說明能力提升的邊際收益正在變化。

二、高推理能力背后的另一面:86%的幻覺率

一個值得反復對比的數字:

GPT-5.5 Pro 幻覺率:86%

Claude Opus 4.7 幻覺率:36%

同一評測機構(Artificial Analysis AA-Omniscience)、同一測試基準、同一數據來源。差距是50個百分點。

高推理能力背后,有一個被部分討論但值得深入分析的數字。

根據第三方評測機構Artificial Analysis在其私有基準測試AA-Omniscience中發布的數據——該測試包含6000個覆蓋6大領域的問題,在無搜索條件下評估模型的知識邊界——GPT-5.5 Pro在面對不確定問題時,有86%的傾向給出錯誤答案而非承認不知道。同一測試中,Claude Opus 4.7的這一比例為36%。

這個數據的含義需要準確理解:86%不是在日常對話中的幻覺率,而是在專門設計的知識邊界探測場景中,當模型觸及知識盲區時的行為傾向。OpenAI官方聲稱的“幻覺減少”是在不同的測試場景(用戶標記的ChatGPT對話樣本)中測量的。兩者都是真實的——取決于你測量的是什么場景。

為什么GPT-5.5會出現高幻覺率?原因可歸納為三個層次:

架構與訓練內因:MoE稀疏激活可能導致專家模塊間的知識沖突;RLHF的討好偏好鼓勵模型嘗試回答而非承認不知道;超長上下文(1M tokens)中注意力可能分散,導致理解偏差。

產品路線的主動取舍:OpenAI的目標是打造一個能處理任何問題的通用推理引擎,為此它在訓練中鼓勵模型嘗試回答而非拒絕回答。Claude則選擇了相反路線:寧可沉默,不可胡說。兩種路線各有優劣——GPT-5.5在開放域推理和復雜任務上的表現遠超Claude,但代價就是更高的幻覺風險。這是能力與可靠性之間的經典權衡。

外部輸入質量:當喂給模型的文檔數據質量低下(如PDF亂碼、表格錯位、公式為圖片),模型無法準確理解上下文,只能依靠概率去猜測——這是幻覺產生的重要外部因素。

對于一個被定位為Agent原生大腦(契合OpenAI官方Agent戰略路線)、賦予自主規劃和執行任務能力的模型來說,高幻覺率是根本性挑戰:一個自信但錯誤的中間結論會污染整個決策鏈條;在財務、醫療等高風險場景,一次幻覺可能導致實際損失。

核心判斷:當一個模型在聰明的同時難以控制自己的自信虛構,它的商業價值需要被打上問號。可靠性,正在成為比推理能力更稀缺的品質。

三、競爭焦點的遷移:成本、可靠性與兩種策略

技術參數的邊際收益正在遞減。對企業級客戶來說,客服場景90分的模型已夠用,金融醫療場景客戶真正需要的是低幻覺率和高可解釋性。

與此同時,行業競爭聚焦于成本,演化出兩種策略


截至2026年4月,中國市場的價格分層已非常清晰:


*注:以上價格均為各廠商官方公布的公有云標準定價(截至2026年4月),不含限時活動、新用戶優惠、長上下文附加費等特殊場景。DeepSeek V4-Pro限時2.5折活動至2026年5月5日止。*

DeepSeek V4-Flash的輸出價格是Claude Opus的1/12。當推理能力差距縮小、價格差距拉大,企業客戶的選擇邏輯正在改變。

過去12個月,前沿大模型綜合性價比以每年數倍級速度迭代,推理落地成本持續快速下行。這一趨勢有多個信源支撐:

  • 2026年3月發表于arXiv的論文《The Price of Progress》(arXiv:2511.23455v2)基于Artificial Analysis和Epoch AI的數據分析發現:前沿模型的性價比正以每年數倍級速度提升
  • Gartner預測(2026年3月25日新聞室發布),到2030年,1萬億參數大模型的推理成本將較2025年下降90%以上

核心判斷:競爭焦點正在從誰更聰明轉向誰能以更優的綜合成本提供可靠的服務——包括單價、效率、幻覺率、數據準備成本等多個維度。

四、被忽視的工程挑戰:數據質量、工具調用與安全合規

當前關于工程能力的討論,主要集中在運行效率——如何讓模型跑得更快、更便宜。這固然重要,但還有三個同樣關鍵的維度。

4.1 數據質量工程:讓模型吃干凈的燃料

GPT-5.5被定位為Agent原生大腦,其核心能力是自主規劃和調用工具。然而,一個現實挑戰是:無論模型本身多強大,如果喂給它的文檔數據質量低下(如PDF表格亂碼、多欄排版混亂、公式是圖片),Agent就會基于這些垃圾輸入做出錯誤決策。

真正的工程能力,至少包括四個層次:

  1. 運行效率:分布式推理、模型量化、緩存策略

  2. 數據質量:文檔解析、多欄排版還原、表格與公式識別

  3. 可靠性保障:幻覺監測、輸出驗證、A/B測試

  4. 安全與合規:內容風控、數據脫敏、權限隔離、合規審計——在金融、政務、企業私有化場景中,這是工程淘汰賽的核心賽道之一

4.2 工具調用可靠性:Agent的另一只腳

Agent幻覺的另一大來源是工具調用可靠性。當前Agent的核心能力是自主選擇工具、調用API、執行操作。但在實際落地中,模型可能選錯工具、傳錯參數、陷入循環無效調用。

工具調用可靠性的工程化,涉及工具描述規范化、參數校驗機制、調用結果驗證、異常回滾策略等多個環節。這是當前Agent工程化中最容易被低估的挑戰。

五、OpenAI的組織調整:戰略收縮,還是重心轉移?

GPT-5.5的發布、Sora的關停、高管的連環離職——OpenAI近期的調整被一些人解讀為從研究型向工程型組織的范式轉移。這個判斷有道理,但需要更審慎的分析。

更準確的解讀是商業壓力下的戰略收縮。Sora每日算力成本約100萬美元,但長期未能實現可持續商業模式。關停它,不一定代表OpenAI放棄了研究優先的理念,而可能只是在商業化探索受挫后的資源重配。

但這并不意味著基礎研究的價值在降低。當前的工程紅利建立在現有架構之上。一旦行業出現根本性突破,游戲規則會再次改變。一個歷史參照:2010年代的計算機視覺領域,當深度學習突破出現時,之前幾年在工程優化上投入最多的公司并沒有成為贏家——贏家是那些在基礎研究上積累最深的組織。

更平衡的判斷:行業正從研究驅動轉向“研究+工程雙輪驅動”。研究負責突破天花板,工程負責把突破轉化為可規模化的產品。研究員的角色正在從主角轉向基礎設施,但這并不意味著他們不再重要。

六、被忽略的戰場:垂直行業大模型

通用大模型的推理能力競賽正在降溫,但垂直行業的可靠性競賽才剛剛開始。

在金融領域,模型需要的是低幻覺率和可解釋性。一份財報分析報告的準確性,遠比模型的門薩分數重要。

在法律領域,模型必須基于特定判例庫和法規條文回答,不能自由發揮。任何超出授權知識庫的回答都可能是合規風險。

在醫療領域,一次幻覺可能造成嚴重后果。保守輸出比聰明輸出更重要。

這些場景的核心訴求是:領域幻覺率可控、私有數據合規、私有化部署工程。通用推理能力在這里意義有限。

這意味著,工程淘汰賽在垂直賽道上的表現形式完全不同:不是比誰的推理成本更低,而是比誰能在特定領域把幻覺率壓到可接受范圍、誰能把模型安全地部署在客戶的內網環境。

也正是在這一輪垂直化+工程化的雙重浪潮中,中國AI公司的差異化優勢得以充分釋放。

七、中國公司的位置:優勢與邊界

在工程化這場競賽中,中國公司有獨特優勢,也需要正視邊界。

優勢:存量工程能力

字節的推薦系統、阿里的雙11技術保障——這些工程肌肉可以遷移到大模型領域:高并發架構、實時數據處理、模塊化設計、自動化運維,都是中國互聯網過去十年積累的核心能力。

獨特長板:垂直領域積累

除了通用工程能力,中國廠商在垂直領域還有獨特優勢:金融、政務、醫療等行業的私有數據積累、本地化合規經驗、中文原生的對齊能力、私有化交付的工程體系——這些都是海外巨頭短期內難以復制的壁壘。

制約:芯片生態的差距

DeepSeek在V4國產化遷移中遇到的困難,正是昇騰生態與CUDA生態差距的體現。同時需要客觀看到,國產芯片生態正在快速迭代——昇騰的CANN軟件棧持續優化,推理框架已支持主流模型的高效部署,輕量化適配方案在多個行業場景中規模化落地。差距在縮小,但追趕仍需時間。

不確定性:成本優勢的可持續性

當所有玩家都進入工程決勝期,成本優勢會被迅速追趕。價格戰的終局往往是利潤趨零,屆時競爭將回到基礎研究、品牌、生態等綜合實力的比拼。

八、結語:推理能力競賽的邊際價值遞減,工程淘汰賽開始

GPT-5.5的發布是一個標志性事件,但它的多重數據——高推理能力、高幻覺率、價格分層——共同指向一個更復雜的現實:

這里需要澄清的是:強調工程能力成為稀缺并不意味著基礎研究不再重要。沒有基礎研究的突破,工程優化終將觸及天花板。但在當前技術架構相對穩定的窗口期,工程能力是決定誰能率先跑通商業化的關鍵變量。兩者是接力關系,不是替代關系。

接下來的競爭,不再是單純的誰更聰明,而是:

  • 當文本推理能力達到人類前2%就能滿足多數場景,推理能力競賽的邊際價值正在遞減

  • 當幻覺率差距達到50個百分點,可靠性正在成為比推理能力更稀缺的品質

  • 當價格差距達到10倍以上,綜合成本成為企業客戶的核心考量

  • 當數據質量和工具調用決定Agent的生死,工程化的復雜度遠超預期

  • 當安全合規成為政企客戶的門檻,合規工程進入淘汰賽的核心賽道

誰能在可控的綜合成本下,把模型的能力可靠地用起來?

這是規則改變——從參數競賽轉向工程淘汰賽。

當高推理能力不再是稀缺品,稀缺的是讓智能變得便宜、可靠、可規模化的工程能力。

而這,既是所有AI公司的共同命題,也是中國公司的機會與挑戰所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
文班19+14+5封蓋,哈珀比肩2傳奇帶不動雙槍,馬刺1-4尼克斯

文班19+14+5封蓋,哈珀比肩2傳奇帶不動雙槍,馬刺1-4尼克斯

釘釘陌上花開
2026-06-14 11:32:20
17勝4平,巴西隊已連續21屆世界杯首戰保持不敗

17勝4平,巴西隊已連續21屆世界杯首戰保持不敗

懂球帝
2026-06-14 08:13:13
布倫森45分FMVP尼克斯時隔53年奪得總冠軍,文班孤掌難鳴

布倫森45分FMVP尼克斯時隔53年奪得總冠軍,文班孤掌難鳴

李廣專業體育評論
2026-06-14 11:35:46
大反撲!尼克斯落后16分又追上:布倫森轟16分,文班9分5蓋帽

大反撲!尼克斯落后16分又追上:布倫森轟16分,文班9分5蓋帽

體壇小李
2026-06-14 09:56:27
范喬丹清空火箭動態!謝潑德+小賈陷交易流言 休城一號位要真空?

范喬丹清空火箭動態!謝潑德+小賈陷交易流言 休城一號位要真空?

顏小白的籃球夢
2026-06-14 09:46:36
被轟26腳 26歲門將5次神撲拯救卡塔爾 絕平后跪地痛哭+動情吻隊徽

被轟26腳 26歲門將5次神撲拯救卡塔爾 絕平后跪地痛哭+動情吻隊徽

我愛英超
2026-06-14 06:16:14
尼克斯94-90再逆轉馬刺4-1奪得總冠軍,布倫森45分,文班亞馬19+14+5帽

尼克斯94-90再逆轉馬刺4-1奪得總冠軍,布倫森45分,文班亞馬19+14+5帽

懂球帝
2026-06-14 11:35:08
“一天內兩次”,外媒:瑞典稱出動“鷹獅”戰機,在波羅的海上空攔截俄戰機

“一天內兩次”,外媒:瑞典稱出動“鷹獅”戰機,在波羅的海上空攔截俄戰機

環球網資訊
2026-06-14 08:55:09
崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

火山詩話
2026-06-14 05:11:04
SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

商道童言
2026-06-13 20:05:25
曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

念洲
2026-06-13 20:33:46
因傷缺戰!34歲內馬爾戴帽亮相 全身金首飾+名表 開心與妻女互動

因傷缺戰!34歲內馬爾戴帽亮相 全身金首飾+名表 開心與妻女互動

我愛英超
2026-06-14 08:59:09
哈登涉槍被捕 騎士發聲明回應

哈登涉槍被捕 騎士發聲明回應

體壇周報
2026-06-14 06:34:18
文班墊腳慢鏡頭!布倫森有擴大圓柱體嫌疑,聯盟審查也難升級

文班墊腳慢鏡頭!布倫森有擴大圓柱體嫌疑,聯盟審查也難升級

體壇小李
2026-06-14 11:05:17
離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

十點體壇
2026-06-13 23:00:31
不懼文班墊腳布倫森45+3,唐斯全場2分,尼克斯4-1馬刺造NBA神跡

不懼文班墊腳布倫森45+3,唐斯全場2分,尼克斯4-1馬刺造NBA神跡

釘釘陌上花開
2026-06-14 11:31:25
6月12日驚天解密!美情報總監“自殺式爆料”,美國全球生物實驗室黑幕徹底崩塌

6月12日驚天解密!美情報總監“自殺式爆料”,美國全球生物實驗室黑幕徹底崩塌

環球策論
2026-06-13 11:08:49
重磅!哈登非法攜槍被捕已交保釋金 6月22日開庭不定期接受尿檢

重磅!哈登非法攜槍被捕已交保釋金 6月22日開庭不定期接受尿檢

醉臥浮生
2026-06-14 01:51:31
身價暴漲!摩洛哥18歲天才封神世界杯,多家豪門準備砸億級報價!

身價暴漲!摩洛哥18歲天才封神世界杯,多家豪門準備砸億級報價!

聽我說球
2026-06-14 08:57:24
鄒某勇,搶救無效身亡!深圳一別墅發生意外!多人涉嫌犯罪,被移送公安

鄒某勇,搶救無效身亡!深圳一別墅發生意外!多人涉嫌犯罪,被移送公安

南方都市報
2026-06-13 10:36:42
2026-06-14 11:44:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
135029文章數 862259關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
家居
旅游
數碼
公開課

老人、小孩、孕婦,吃粽子有啥風險

家居要聞

空間微調 移形換境

旅游要聞

西南最大人工湖,203個島嶼拼出一個“壽”字也太神奇了!

數碼要聞

多名球星展示新款Beats頭戴式耳機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版