網易首頁 > 網易號 > 正文申請入駐

5塊錢2小時親測：Codex與Claude Code接DeepSeek真實差距

2026-05-30 11:35:44　來源: 侃故事的阿慶

福建舉報

分享至

今天晚上閑著沒事，在自己 Mac 上把Codex CLI和Claude Code CLI拉到一起跑了一場同臺競技——用完全相同的編程任務，喂給同一個后端模型（DeepSeek V4 Pro），看看到底誰更靠譜。

結果有點出乎意料，不是模型的差距，而是工具層的差距。

本次測評說明：Mac 個人機器、headless 自動化運行、2 小時完成L1全部測試、DeepSeek 費用合計約5 元人民幣。純個人體驗，不是官方 benchmark。

為什么要這么測？

現在大家用 AI 編程工具，背后接的模型越來越多樣——OpenAI、Claude、Gemini，當然還有國內的 DeepSeek。但工具本身的穩定性和對第三方 API 的友好程度，往往比模型本身對日常使用的影響更大。

我的測評思路很簡單：

→ 同一套編程題目

→ 同一個后端模型（DeepSeek V4 Pro）

→ 兩個工具各跑 3 遍

→ 自動打分，不人工干預

??重要背景：接入方式不同

Claude Code原生支持 DeepSeek 的 Anthropic 兼容接口，直接配置ANTHROPIC_BASE_URL指向 DeepSeek 即可，一行配置搞定。

Codex就麻煩了。OpenAI 的接口協議在 v5.5 升級后換成了新的 Responses API，DeepSeek 暫時還沒完全跟進這個協議，所以 Codex 必須架一個本地代理做協議轉換，才能接上 DeepSeek——而這個中間層，帶來了一系列不穩定問題。

測試用例設計

整個測評框架按難度分了四檔：

等級

場景

本次狀態

從零新建獨立模塊（算法、腳本）

? 已完成（5 個用例 × 3 次）

修改已有代碼（存量代碼重構/補丁）

? 框架已設計，本次未跑

多文件協作（跨模塊修改、接口對齊）

? 框架已設計，本次未跑

復雜調試（定位并修復隱藏 bug）

? 框架已設計，本次未跑

為什么本次只跑了 L1？兩個原因：

→時間限制：2 小時 + 30 次 headless 運行已經把當天的精力用完了，Codex 的極端超時（最長 31 分鐘）讓整體耗時遠超預期

→先驗證方法論：L1 是最干凈的對照實驗場景——從零新建、沒有歷史包袱，最能單獨觀察工具層的穩定性差異。先把 L1 跑通，L2-L4 的方法論才可信

L2-L4 的測評（存量代碼修改、多文件重構、調試能力）會在后續補上，屆時結論可能會有變化——畢竟"接手別人代碼"才是開發日常里最高頻的場景。

本次 L1 的 5 個用例

5 個從零新建任務，覆蓋 TypeScript、Python、Go：

用例

語言

任務

L1-01

TypeScript

實現 LRU 緩存（O(1) get/put）

L1-02

Python

Nginx 日志解析，Top-10 IP 統計

L1-03

線程安全環形緩沖區（注：本機未裝 Go）

L1-04

Python

為 5 個函數補 Google-style 文檔字符串

L1-05

Python

CSV 轉 JSON（支持嵌套字段）

每個用例自動驗證（腳本檢查文件存在性、函數正確性、格式規范），滿分 3-4 分不等，每個工具跑 3 次取中位數。

綜合得分：Claude Code 83.2 vs Codex 66.4

先上結果：

用例

Claude Code

Codex

差距

L1-01 LRU Cache

89.4

75.0

Claude +14

L1-02 Nginx 日志解析

86.6

56.2

Claude +30 ★

L1-03 Ring Buffer Go ??

67.6

58.7

受環境限制

L1-04 Python Docstring

87.5

67.0

Claude +21

L1-05 CSV to JSON

85.0

75.0

Claude +10

總均分83.266.4Claude +25%

Claude Code 在 5 個用例里拿下 4 個勝利，唯一"平局"是 Go 用例——因為我本機沒裝 Go，兩個工具都因為編譯失敗被扣分，不算誰的鍋。

? 速度差距：慢了 5.7 倍

這是讓我最吃驚的數據。平均響應時間：Claude 78 秒 vs Codex 445 秒。

更極端的是 Codex 的"爆炸式耗時"，出現了幾次讓人崩潰的單次超時：

→ L1-04 第 2 次運行：1895 秒（31 分鐘！）

→ L1-05 第 1 次運行：1351 秒（22 分鐘）

→ L1-01 第 2 次運行：766 秒（12 分鐘）

反觀 Claude Code，最慢的一次是 148 秒。兩個工具接的是同一個模型，時間差異完全來自工具層——很可能是本地代理在某些輪次出現了重試或連接重建。

如果你把 Codex 用在 CI/CD 流水線里，一次超時 30 分鐘，代價太高了。

最大短板：穩定性

這是 Codex 跌得最慘的維度：穩定性得分 40（中位數竟然是 0）vs Claude 的滿分 100。

穩定性維度（同一任務多次運行是否一致）

最典型的例子是L1-02 Nginx 日志解析：

運行次

Codex 得分

Claude 得分

第 1 次

4/4 ?

第 2 次

2/4 ??

4/4 ?

第 3 次

1/4 ?

4/4 ?

Codex 第 1 次完美，第 3 次連文件路徑都輸出錯了。Claude 三次全部滿分，從未出錯。

同樣觸目驚心的是L1-04 Python Docstring：Codex 連續三次都卡在同一個格式校驗上，Google-style 的 docstring 寫出來通不過 AST 檢查，而 Claude 三次全部通過。

為什么會這樣？根本原因分析

Claude Code：原生兼容，沒有摩擦

Claude Code 直接調用 DeepSeek 的 Anthropic 兼容接口——這個接口協議本來就是按 Anthropic 的規范實現的，Claude Code 原生就支持，零適配成本。配置只需要三行環境變量，調用鏈路極短：

Claude Code → DeepSeek Anthropic 接口 → 模型響應

Codex：協議錯配，代理引入不穩定

Codex 背后調用 OpenAI 的新版 Responses API（v5.5 以后），這個協議用了 WebSocket 長連接 + Server-Sent Events 混合模式，DeepSeek 目前還沒有完整實現這套協議。所以我不得不跑一個本地 Node.js 代理做協議轉換：

Codex →本地代理（deepseek-proxy.mjs）→ DeepSeek → 響應 → 代理再轉換 → Codex

多了這一層，就多了：

→ 連接超時的風險（解釋了那幾次 22-31 分鐘的離譜耗時）

→ 協議轉換帶來的 token 統計丟失（Codex 的 token 數始終報 0，無法統計成本）

→ 偶發的狀態不一致（解釋了 L1-02 質量隨運行次數遞減的現象）

這不是 Codex 或者 DeepSeek 單方面的問題。OpenAI 升級了協議，第三方追趕需要時間。等 DeepSeek 原生支持新協議之后，這些問題大概率會消失。

測試總花費：約 5 元

整個測評 30 次 headless 運行（5 用例 × 2 工具 × 3 次），合計 DeepSeek 費用約5 元人民幣。

其中 Claude Code 每次調用平均消耗約 3 萬 input tokens + 2-7k output tokens，按 DeepSeek V4 Pro 的價格算下來大約 $0.053 / 次。Codex 因為代理不上報 token，無法精確計算，但從模型本身看用量應該相近。

5 塊錢換來 2 小時、30 次真實運行的數據，性價比還是挺高的。

? 給同好們的建議

如果你想接第三方模型（DeepSeek、通義、Moonshot 等）：

→ 優先選Claude Code CLI。原生支持 Anthropic 兼容接口，接入零摩擦，質量穩定，速度快 5 倍以上。

如果你一定要用 Codex：

→ 耐心等 DeepSeek 原生支持 OpenAI 新協議，或者接受當前通過本地代理運行的不穩定性。某些任務 Codex 表現不差，但極端慢和質量退化問題需要心理準備。

如果你想復刻這個測評：

→ 完整的測評框架（runner 腳本、用例、打分器）已開源，地址在文末。

數據匯總

維度

Claude Code

Codex

綜合得分

83.2

66.4

質量

90.0

70.0

效率（速度）

82.2

68.9

穩定性

40.0

平均耗時

78 秒

445 秒

最慢單次

148 秒

1895 秒

測試費用

合計約 5 元（DeepSeek）

第三方 API 接入

原生支持，零配置

需本地代理轉換協議

測評工具版本：Codex CLI v0.133.0 / Claude Code CLI v2.1.119

后端模型：DeepSeek V4 Pro（兩者相同）

運行環境：macOS 15.4.1 / Node v23.10.0 / Python 3.13.2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
4 跟貼 4
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
81 跟貼 81

全球首次單機降服萬億巨模DeepSeek-V4！RL后訓練框架Orbit開源！

機器之心Pro 2026-05-28 11:48:03
2 跟貼 2

6.4k Stars！用Claude Code寫論文的全套流水線，有人打包開源了

36氪 2026-05-17 13:03:25
19 跟貼 19
DiffusionOPD：復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

機器之心Pro 2026-05-29 16:23:04
1 跟貼 1

消耗1830億token，Meta用AI把數學教材翻譯成了一個超大Lean庫

機器之心Pro 2026-05-29 13:43:30
3 跟貼 3

讓機器人動作流暢絲滑如「連音」1

機器之心Pro 2026-05-29 10:07:02
0 跟貼 0
AI 編程終于有全局視野了！3 萬 Star 項目補齊最大短板

鈦媒體APP 2026-05-30 10:22:27
37 跟貼 37

Claude Code首發「自愈」功能! 一錘砸碎開發者6大噩夢

新智元 2026-05-28 18:47:12
19 跟貼 19
【半佛】讓小孩學AI屬于浪費時間？

硬核的半佛仙人 2026-05-27 12:58:43
0 跟貼 0
新一輪大模型要來了！Blackwell加持下，AI能力更強了？

華爾街見聞官方 2026-05-29 14:46:14
4 跟貼 4
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0
博主開發“桌面整理大師”小程序，網友調侃：本以為是裝垃圾桶里，沒想到是掃床底下了

河南都市頻道 2026-05-29 18:16:32
9 跟貼 9
德云社把處罰楊鶴通內部文件公之于眾，殺雞儆猴外還有更大企圖

楓哥閑談 2026-05-29 16:13:26
63 跟貼 63
孩子去“光頭強家”，對著床上被子一頭栽下去，沒想到是模型！

笑出豬叫的趣聞閣 2026-05-26 17:08:43
1 跟貼 1
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
133 跟貼 133
又炸了！墨跡未干的協議成了廢紙，美軍深夜突襲伊朗多地01

谷火平 2026-05-28 11:23:49
0 跟貼 0
面對SDV新趨勢，博為峰車載測試以深度課程與實訓回應產業期待

周口融媒 2026-05-29 15:42:15
0 跟貼 0
你花了四年學編程，卻要用一輩子補寫作

一隅安穩 2026-05-31 01:29:48
0 跟貼 0
扎哈羅娃：俄將對羅馬尼亞迅速采取報復措施

參考消息 2026-05-30 11:58:56
19263 跟貼 19263
DeepSeek推薦：人生回報率最高的66個微習慣

洞見 2026-05-30 22:03:25
37 跟貼 37
財務部搞AI，先別造超人，雇個項目經理

我是一個養蝦人 2026-05-31 00:41:51
0 跟貼 0
開盒Claude Code的原來是中國00后！曾怒懟Anthropic竊取用戶代碼

量子位 2026-04-02 15:24:09
217 跟貼 217
集采百元一盒藥，藥店竟賣3960元，為何賣出如此高價？記者調查

新京報 2026-05-30 11:58:09
3531 跟貼 3531
10.68萬喜提L4同源算法，埃安N60駕駛輔助碾壓同級！

車市紅點 2026-05-28 17:43:38
1 跟貼 1
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
365函數的值域求函數()=|+1|+2|?2|的值域

我服子佩 2026-05-30 17:06:20
1 跟貼 1
Claude Opus 4.8問世，Anthropic估值暴漲至9650億美元

機器之心Pro 2026-05-29 10:08:34
0 跟貼 0
湖北省召開全省領導干部會議

新京報 2026-05-30 13:13:05
2 跟貼 2
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
猿編程助力中國隊閃耀國際舞臺，2026國際冬季人工智能奧林匹克競賽斬獲兩金

財聯社 2026-05-29 18:03:06
0 跟貼 0
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
100 跟貼 100
不用人類手寫訓練框架了！-2

機器之心Pro 2026-05-26 14:35:24
0 跟貼 0
風行CEO易正朝：真正的全產業殺手應用是AI編程，相比AI視頻，AI編程對企業經營的意義更大

量子位 2026-05-21 08:05:56
0 跟貼 0
再被曝光“圈路收費”的瀘沽湖景區：已開通過境車輛專用通道

南方都市報 2026-05-29 17:10:06
1594 跟貼 1594
遇見國產「新模王」Qwen3.7-Max！-2

機器之心Pro 2026-05-21 11:35:28
0 跟貼 0
黃仁勛親臨現場！COMPUTEX 2026終極前瞻：AI計算統治一切？

雷科技 2026-05-30 21:29:07
2 跟貼 2
AI走向物理世界的“臨門一腳”還差什么？｜直擊BEYOND Expo 2026

財聯社 2026-05-30 22:44:22
0 跟貼 0
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1898 跟貼 1898

侃故事的阿慶

幾分鐘看完一部影視劇，詼諧幽默的娓娓道來

774文章數 8575關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

房產

游戲

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

5塊錢2小時親測：Codex與Claude Code接DeepSeek真實差距

車圈大佬發聲：價格戰遠去，但競爭仍殘酷

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

張碧晨《歌手》 “活人微死” 自嘲

雙匯管不住一頭豬

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

vivo S60系列發布：2899元起 推出4K原生感Live

一“蘋”心態 二“蘋”實力 三“蘋”運氣

紅動五月！全國搶入核心資產，廣州盯緊凱旋新世界！

巫師3新DLC跨十年：年輕玩家在初發售時還是小孩！

兩名9歲女孩被困電梯近2小時求救幾十次物業無動于衷

兩名9歲女孩被困電梯近2小時求救幾十次物業無動于衷

巴黎再度捧起歐冠獎杯槍手眾將黯然神傷

900V+3.2秒破百領克10+&領克10上市16.99萬元起

vivo S60系列發布：2899元起推出4K原生感Live

一“蘋”心態二“蘋”實力三“蘋”運氣