網易首頁 > 網易號 > 正文申請入駐

Codex、ChatGPT為何合體？OpenAI核心leader回應一切

2026-07-05 21:10:33　來源: 機器之心Pro

天津舉報

分享至

機器之心編輯部

如果你問 2026 年哪個 AI 產品的增長最令人矚目，那「Codex」肯定是排在第一位的。

自今年 1 月份以來，該產品的周活躍用戶增長了 5 倍以上，增長曲線很陡。目前，它的周活躍用戶規模已經達到 500 萬。其中，知識工作者（非開發者）采用 Codex 的速度，是開發者群體的 3 倍以上。

值得注意的是，這些陡峭的增長曲線有個重要的催化劑 ——2 月份桌面 App 的發布。這個桌面版提供了專屬、優化的使用界面，大幅降低了使用門檻，帶來了 Codex 下載和采用量的爆發式增長。

而在這條陡峭增長曲線背后，推動產品形態發生變化的，是一個相對更少被公開討論的角色 ——Codex 桌面應用團隊負責人 Andrew Ambrosino。

作為直接負責 Codex 桌面端產品演進的人，他同時站在兩個快速重疊的世界之間：一邊是以「寫代碼」為核心的開發者工具鏈，另一邊則是迅速擴張到幾乎所有知識工作場景的通用 AI 工作入口。從產品發布節奏到用戶行為變化，再到團隊內部如何重新定義「設計」「工程」和「產品」的邊界，他所看到的，往往比增長數據本身更接近這場變化的本質。

接下來這段訪談，正是從他的視角出發，去拆解 Codex 改變了什么、為何與 ChatGPT 合并，以及它未來的迭代方向是怎樣的。

視頻鏈接：https://www.youtube.com/watch?v=P3KDebPTUrw

我們對訪談的部分內容進行了整理，詳細內容請參考原視頻。

實現變便宜了，

那什么變貴了？

幾年前，整個產品開發的邏輯是這樣的：實現很貴。所以在動手寫代碼之前，你要做大量的事前去風險工作 —— 寫文檔、做研究、做原型，目的是讓設計更便宜。正是因為實現本身成本高昂，你必須在前期就把一切梳理清楚。

但現在這個假設徹底反轉了。在 OpenAI，情況變成了這樣：給人們大量的 token，每個人都有很好的想法，所以每個人都在做東西。結果是，一個需要做的功能，可能有 90 個不同的團隊在同時探索 90 種不同的實現方式。

這意味著實現不再是昂貴的部分。那什么變貴了呢？ Andrew 直言不諱：是品味。更具體地說，是策展的過程。當你面對這 90 個不同的嘗試時，你需要有眼光去判斷：哪些東西做得不錯？這些應該如何折疊進其他功能里？這個東西應該怎么框架化？這個切換按鈕應該有幾個段位？這些決策本身，才是現在最貴、最需要思考的地方。

品味到底是什么？

「品味」這個詞在硅谷被說爛了。但在 Andrew 這里，它有非常具體的含義。

有個有趣的段子是，Linear 的產品負責人曾說有人過度強調品味的美學部分，然后舉 Paul Graham 為例 ——Paul Graham 明顯品味很好，但他穿的是工裝褲。這說明品味遠不止外觀。 Andrew 把品味的內涵列舉出來：有美學層面，但那只是一部分；有系統思維的層面，即這個東西如何融入整個系統；有方向感的層面，這是什么主題的一部分；有呈現方式的層面。當然還有一些細節的層面，比如這個交互動畫是否與它想表達的語義意思相符 —— 它是不是太快速了，不適合表達這個概念。

但真正的核心品味問題是這樣的：如果我們能建造任何東西，那么我們想要什么？這是什么？我們如何到達那里？這些才是真正的品味問題。

它不僅是關于選擇做什么。也是關于如何展現信息、如何實現目標、使用什么介質。品味是這個新時代里，人類大腦仍然最有價值的地方。

為什么 AI 至今還做不好設計？

這是個有趣的悖論：Codex 在寫代碼上已經非常強大，但當用它生成設計時，輸出的質量往往平庸。很少能說「哇，它完全搞定了」。

Andrew 認為這背后有幾層原因。首先是實際的原因。設計比軟件更難評分，因為評價設計好壞的人類品味本身就是反饋機制的一部分。這讓訓練模型變得困難 —— 不像代碼，你很難用客觀標準（代碼能編譯嗎？功能正常嗎？）來衡量。其次，從研究投入的角度看，實驗室歷來投入最多資源去提升那些能加速 AI 研究本身的能力。在編碼模型早期，顯然能寫正確的代碼會加速研究。但設計能力好不好，對 AI 研究的加速作用不那么直接。

更深層的問題涉及設計工作本身的復雜性。設計中有一個文化層面—— 什么算「好設計」是由文化決定的。去年所有新網站都在復制 Linear 的設計，那是真的好設計，有品味。但如果一個模型每次都輸出 Linear 的樣子，那就不是進步，而是失敗。設計需要新穎性，而軟件工程恰恰相反，你幾乎總是希望代碼跟隨已知的模式。

最難解決的問題在于抽象層。當代碼驅動視覺設計時，兩者之間存在著深層的互動。比如，左上角的某個東西應該和下面某個地方在代碼庫中共享相同的抽象。這不僅僅是說模型需要成為更好的設計師，而是說模型需要理解這些更深的結構關系 —— 如果公司明天進行品牌重塑，淺層的做法是逐個更新 263 個組件，但深層的理解應該是：這兩個看起來不同的東西在語義上是相同的，它們都是列表，都有相同的樣式，都傳達相同的交互模式。這種抽象層的理解，目前對 AI 來說仍然遙不可及。

為什么 Codex 不能提前發？

這是一個非常深刻的觀察：產品的成功不僅取決于設計本身，還取決于模型能力的時機。

Andrew 非常確信，如果 Codex 應用在去年 11 月就推出，它會在市場上徹底失敗。而如果在 2 月推出的同一個產品形狀，卻獲得了巨大成功。唯一的變量是中間這幾個月模型能力的進步。換句話說，產品的交互設計、用戶界面、整個概念都沒有變，但模型智能程度的提升，完全改變了結果。

這揭示了一個深刻的真相：在 AI 時代，產品是否好用、是否有價值，不是由 UI 設計或交互設計單獨決定的，而是由「模型在這個時刻能做什么」決定的。同一個想法，用舊的模型實現可能毫無用處，但用新的模型就可能妙趣橫生。

這也改變了產品規劃的方式。 Andrew 在之前的公司看到過這個轉變：不再是「我們計劃全年做什么」，而是變成「我們相信模型在什么時間點能做什么，讓我們列出所有感興趣的東西，為它們全部做原型，然后決定哪些現在可以做，其他的先放著等待，等到模型有新的跨越時，再用升級后的模型嘗試那些之前擱置的想法」。因為整個功能是否好用的前提，不是設計的形狀，而是模型是否足夠聰明。

工程師、設計師、PM 的邊界消失了嗎？

Lenny 提到，看 Andrew 的履歷，工程師、設計師、產品經理、創業者他都做過，現在管著整個桌面 App，就問設計團隊是不是也歸他管。Andrew 笑說「看哪一周」—— 匯報關系一直在變，但團隊一直是緊密坐在一起、彼此嵌入地工作。

Andrew 說，外界已經在討論「角色坍縮」、說以后不會再分角色了，他們團隊還沒到那一步，但角色之間的重疊確實比公司其他部門、甚至整個行業都更明顯 —— 一部分原因是 Codex 本來就是面向工程師的技術型產品，團隊里的設計師能講工程師的語言，產品經理也能寫代碼，比如另一位產品負責人 Alexander 就有計算機科學碩士學位，Andrew 自己反而沒有。

他認為，現在更準確的說法是：一個人不再由「設計到哪結束、工程從哪開始」這樣的邊界定義，而是由他平均花時間在做什么來定義—— 這也跟團隊的工作方式有關，因為整個 App 是靠內部「吃自己的狗糧」跑出來的，大家都想盡量在 App 里把事情做完，哪怕它暫時還不是做這件事最好的工具，這樣它才能慢慢變成最好的工具。兩人也順帶聊起「member of technical staff」這個頭銜的由來，Andrew 認為最早可能是施樂（Xerox）開始這么叫的，如今在研究驅動型公司里已經算一種傳統。

Lenny 追問，這是不是意味著未來大家都會變成不分職能的「builder」，PM、設計、工程這些技能分類還會不會存在。Andrew 的態度很明確：他并不認同徹底取消角色劃分。他見過不少公司喊出「取消產品崗位，人人都是 builder」，結果是產品這個專業積累多年的最佳實踐、試錯經驗，就因為「我也能寫代碼」這種想法被當成沒用的東西丟掉了。「這不是你的地盤」這種畫地為牢式的邊界感消失，他是歡迎的，但每個專業依然有自己的技能門檻 —— 不是誰用用 Excel，就能去財務部門頂班。

他也提到，現在換角色確實比以前容易了，因為能力不再和「是否精通某個具體工具」死死綁定：他自己就曾長期覺得不該做工程師，因為不喜歡鉆研匯編語言、死記 TypeScript 語法，而這種「精通某個工具才算干得好」的門檻正在瓦解。不過他也提醒，這個趨勢目前被外界過度夸大了。

當下最前沿的 AI 輔助開發方式

Lenny 把話題往回拉了一層：從純人工寫代碼，到 AI 能寫 100% 的代碼，再到現在「寫代碼」變成了「引導 AI」—— 評估一個人寫了多少代碼，幾乎變成了「你糾正 AI 方向糾正了幾次」。他問，現在最前沿的做法是不是「loop」（自主循環開發）？那些走在最前面的 AI 團隊，現在具體是怎么運作的？

Andrew 提到，一個本質的問題是，「多少代碼是 AI 寫的」這個問題本身已經不重要了，因為按去年的標準，現在幾乎 100% 的代碼都是 AI 寫的；真正該問的是，這些代碼是「有監督」寫出來的，還是「無監督」寫出來的，這是完全不同的兩件事。他說自己樂見這種評判標準不斷被刷新，因為這恰恰說明產品在往前走。團隊做過不少「自主開發軟件」方向的探索，也包括不少「harness engineering」相關的嘗試，比如設想讓模型在夜里自己跑一遍，把代碼庫做一次「垃圾回收」式的清理。

他也坦言，目前所有模型都有一個通病 —— 傾向于讓代碼越改越復雜。他半開玩笑地說，如果哪家公司的研究團隊正好在聽，希望能把模型「刪代碼」的能力練得更好一些。這也是把開發完全交給自動駕駛時會遇到的現實問題，人和代碼庫兩頭都是如此：怎么教模型判斷該做哪些功能、該忽略哪些、哪些該合并重新歸類；怎么教模型搭建正確的抽象結構。這些能力都在變好，但他認為目前還做不到「設一個 loop 讓它自己去改進產品，同時盯著 Twitter、Slack、郵件」這種程度，不過團隊一直在朝這個方向努力。

Lenny 追問，會不會有一天，團隊干脆直接給 AI 設一個「贏」或者「給我賺一個億」這樣的終極目標就完事了。Andrew 笑著表示自己不敢把話說死，不會輕易斷言「永遠不會」或者「一定會」。

為什么非得把 Codex 和 ChatGPT 合并？

Codex 的未來將走向何方？

Codex 最早是命令行工具，后來才做成獨立 App，最初定位很明確：一個「開發者工具」—— 不是 IDE，能看代碼，但不讓編輯代碼。

App 正式對外發布前，團隊先在 OpenAI 內部做了一輪試用（1-2 月）。工程和研究場景里反饋非常清晰、非常正面。但團隊同時發現，市場、公關、財務、法務等幾乎所有部門的人也在用這個 App—— 盡管它對這些人并不友好，界面里全是代碼和命令行權限申請，根本不是為他們設計的體驗。

團隊一開始的應對，是把 Codex 的能力搬到別的產品界面里，比如 ChatGPT 桌面應用和 Atlas 瀏覽器，做成更通用的知識工作工具。但結果是沒人愿意離開 Codex App 去用那些「專門」打造的 App。這讓團隊意識到：開發者工具和通用知識工具之間的邊界正在坍塌，Codex 和 ChatGPT 更像是同一個能力的不同入口，而不是兩類獨立產品。

團隊的結論是：這套產品該做成一個足夠通用、可擴展的底層，能同時承接財務、法務、科學等深度場景。真正的挑戰只在于「怎么讓它足夠通用」—— 這也是團隊對「Codex 到底是開發者工具，還是干脆就是 ChatGPT」這個問題的回答。

主持人 Lenny 由此點出：Codex 已經做得比 ChatGPT App 本身更好用、更好玩，用戶都跑去用它了，所以合并是必然方向，能避免認知混亂。

Andrew 笑著回應說，有人把這個方向叫做「超級應用」（super app），他挺后悔當初有人說出這個詞，因為從那以后，他每天都要被這個說法包圍。

Lenny 追問：先不叫它「超級應用」，但核心思路是不是「用戶到一個地方，就能把所有事情都做完」？還是說，這件事目前還沒有定論？

Andrew 給出的回答，是「home base」（大本營）這個概念：這應該是一個很好的「主場」，一個可以讓用戶追蹤自己在不同產品界面上、所有待辦事項的地方。有些事情，用戶可以完全在 App 內部完成；另一些事情，App 則負責去調用、打開別的應用來完成 —— 比如，App 可以連接 Excel，App 內部確實也內置了一個電子表格編輯器，但對于要在 OpenAI 做幾十億美元規模融資、需要做復雜財務建模的人來說，這個內置編輯器可能還遠遠不夠。所以 App 會直接和用戶電腦桌面上的 Microsoft Excel 插件對話，等事情做完，用戶可以直接把 Excel 關掉。

也就是說，這件事從來都不是「我們在屏幕上畫一個方框，所有事情都必須發生在這個方框里」，而是 ——這個東西應該成為用戶的一個「家」：你在這里開始工作、結束工作、把工作自動化，需要用到什么工具，它就去調用什么工具。

為了說明這一點，Andrew 講了一個具體的故事。Codex App 最初發布的時候，團隊拍了一批宣傳視頻，剪輯這些視頻的活兒落在了內部的攝影師身上。結果，攝影師全程用 Codex 剪完了這些視頻 —— 這是團隊第一次真正意識到「天哪，大家居然在用這東西做這種事」的瞬間之一。

攝影師會想到用 Codex 剪視頻，純粹是出于好奇，就是想看看 Codex 到底能不能干這件事。Codex 本身完全不是一個視頻編輯器，界面里也沒有任何剪輯相關的 UI，但它能理解攝影師用的是 Premiere Pro，并且能通過直接編輯 Premiere Pro 背后、支撐屏幕顯示內容的工程文件，完成一部分剪輯操作 —— 只是這樣還不能覆蓋所有需求。于是，Codex 接下來做的事，是給自己寫了一個可以裝進 Premiere Pro 里的擴展插件，然后通過這個插件和 Premiere Pro「對話」——「嘿，Premiere Pro 擴展，能不能幫我把這個標記點改一下。」團隊第一次看到這個過程真實發生的時候，都覺得這事兒太不可思議了。

由此，Andrew 總結出了一個模型：這個世界上已經存在大量在各自領域里做到極致的專業工具，Codex—— 現在要加上 ChatGPT—— 想要同時做兩件事。

第一件事，是如何和用戶已經在用的這些工具無縫協作：團隊不需要重新造一個更好的視頻編輯器，而是讓 Codex 和 ChatGPT 學會使用現成的工具 —— 能和它交互、把任務交接給它，這通常是通過 connectors（連接器）、computer use（電腦操作能力），或者像 Premiere Pro 這個案例一樣，通過擴展插件來實現。

第二件事，則是 Dan Shipper 提到過的那種設想：用戶手里已經有一堆可以點來點去使用的網頁應用，但希望能把這些應用在 Codex 里直接打開，讓 Codex 在里面替他們多做一些事情。這兩種模式，幾乎互為鏡像，團隊目前正在同時大力推進這兩條線。

【ICML 2026首爾 · 云帆AI Talent Meetup】最后報名中

7月9日晚，首爾ICML會場旁，上海人工智能實驗室、上海科技大學、上海創智學院、階躍星辰、Sharpa Robotics等20余家上海頂尖AI單位現場設展，開放100+崗位。專場招聘、學術分享、圓桌交流、自由Networking一站式搞定。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.