![]()
新智元報道
【新智元導讀】沒人重訓模型,沒人重寫代碼,OpenAI的AI系統六周內自己把準確率從25%拉到86%。Codex自己定位bug、寫修復、跑測試,AI自我進化已在生產環境跑起來了。
最近,OpenAI悄悄干了一件細思極恐的事。
一個AI系統,沒人重新訓練模型,沒人重寫代碼,六周內自己把準確率從25%拉到了86%。
在官方博客中,OpenAI把「怎么讓AI自己變強」的完整方法論,白紙黑字全寫出來了。
![]()
結合今年2月GPT-5.3-Codex「參與構建自身」、4月Symphony開源、5月MOSS源碼級自我改寫,一條被OpenAI藏了半年的暗線,終于浮出水面。
AI自我進化,已經在生產環境里跑起來了。
180→15小時,6周準確率翻三倍
這個AI報稅系統叫Tax AI,OpenAI和Thrive Holdings聯合做的,服務于Crete會計師聯盟旗下30多家事務所。
先看一個人的故事。
去年,Crete的一位資深會計師花了整整180小時準備客戶稅表。
今年,同樣的工作量,15個小時搞定。
省下來的時間她做了件以前根本不可能的事,逐一給每位客戶打電話,親自講解報稅細節。剩下的精力,全拿來開拓新客戶。
整個賽季,Tax AI處理了7000份稅表,準確率最高97%,產能提升約50%。
但真正炸裂的不是這些數字,是增長曲線。
六周前只能處理最簡單的W-2和1099表格,連K-1都搞不定。六周后,字段完成準確率從25%飆到86%。
系統越用越強,而且在加速。
![]()
Bug自己修,測試報告自己寫
怎么做到的?
Thrive Holdings的老板Joshua Kushner,同時也是OpenAI最大投資方之一。
去年12月,OpenAI入股了Thrive Holdings,直接把工程團隊派駐到會計師的辦公桌旁邊。
看著真實的稅表、真實的客戶數據、真實的報錯,一起打磨了六個月。
傳統AI產品改進是這樣的,上線,出bug,用戶投訴,工程師排查,改代碼,重新部署。
整個循環慢得要命,每一步都卡在人身上。
Tax AI用了三招,就把這個循環的大部分環節自動化了。
第一招,讓從業者的每次糾錯變成結構化數據。
會計師審核Tax AI的輸出時,每改一個字段,系統完整記錄三件事,AI預測了什么、會計師改成了什么、最終報稅用了什么。
關鍵在于,系統把每次修改都當作改進的起點,而不是終點。
第二招,生產環境里的每一步都留痕。
從源文件上傳,到字段提取,到引用溯源,到稅務引擎映射,到會計師糾正,到最終報稅。
整條鏈路的每個節點都有trace。
出錯的時候,可以精確定位到底是OCR讀錯了手寫筆記,還是字段映射邏輯有gap,還是壓根不支持這種表格類型。
![]()
第三招,用Codex把發現變成修復。
當系統發現某類錯誤反復出現,比如Tax AI總是漏掉租賃房產的「公平出租天數」字段,而會計師每次都手動補上。
這個pattern就會被打包成一個有明確成功標準的工程任務,扔給Codex。
Codex拿到的不是一個模糊的bug報告。
它拿到的是完整的生產trace、出錯的源文件樣本、期望輸出、相關代碼路徑,外加一套專門針對這個問題的eval測試集。
然后Codex自己檢查提取邏輯、映射規則、評分器,提出修復方案,跑targeted eval驗證,再跑回歸測試確認沒引入新問題,最后生成一個PR等人類工程師review。
如果證據模糊,任務會路由回產品團隊,而不是硬塞進流程。
你沒看錯。bug修完了,還自帶測試報告。
![]()
效果立竿見影。租賃房產相關字段處理,從幾乎不可用到90%精確率和召回率,六周。
而這六周積累下來的抽象能力和eval規范,又讓后續支持Schedule C和Schedule A變得更快。
系統越用,能處理的問題越復雜。越復雜的問題被解決,每份稅表省下的人工時間越多。
這是一條加速曲線。
AI進入自我改進時代
2月,OpenAI發布GPT-5.3-Codex的時候寫道:「GPT-5.3-Codex是我們第一個在創造自身過程中發揮了關鍵作用的模型。」
Codex團隊用這個模型的早期版本來調試自己的訓練流程、管理部署、診斷測試結果。
模型參與了自己的構建。
![]()
4月,OpenAI開源了Symphony,一個把Codex和Linear項目管理工具連起來的編排層。
起因很現實。OpenAI的工程師發現,一個人同時管3到5個Codex會話就已經是極限了,再多就陷入上下文切換的泥潭。
人的注意力,成了Agent產能的天花板。
而Symphony的思路很暴力,別管Agent了,管工作本身。
它監控issue tracker,給每個ticket分配一個獨立的Agent工作空間,Agent自己干活、跑CI、生成PR。工程師只負責review產出物。
當Agent失敗了,工程師不去改prompt讓它「再試一次」,而是去想「它缺了什么能力、什么上下文、什么結構」。然后修harness,不是修prompt。
![]()
OpenAI內部用Symphony之后,部分團隊的工程產出直接翻倍。
同樣是4月,學術界也跟上了。ICLR 2026在里約專門辦了一個「AI遞歸自我改進」的workshop。
緊接著5月,一篇叫MOSS的研究把這件事推到了更極端的位置。它讓Agent不只改prompt或workflow配置,而是直接改寫自己的源代碼。
在OpenClaw平臺上,MOSS在一個無人干預的進化周期內,把四個任務的平均評分從0.25拉到了0.61。
![]()
論文地址:https://arxiv.org/abs/2605.22794
Tax AI不是孤例。「Agent自我改進」已經成了2026年上半年最密集的技術主線。
模型層面,GPT-5.3-Codex參與自身構建。
工程層面,Symphony加上Tax AI的生產閉環。
學術層面,MOSS實現源碼級自我改寫。
不動模型權重,照樣越來越強
這里有個關鍵區分。
過去大家談AI進化,說的是fine-tuning,是RLHF,是改模型權重。那條路需要海量數據、大量GPU、專業團隊,門檻極高。
現在OpenAI展示的這條路完全不同。
模型權重紋絲不動。
改的是模型周圍的一切。提取邏輯、映射規則、eval標準、工作流配置,甚至Agent自己的代碼。
打個比方,模型是引擎,harness是車身。即便不用換引擎也能讓車跑得更快,改底盤調懸掛就行。
![]()
如此一來,自我改進的門檻就被大幅拉低了。
你不需要自己訓練模型,只需要三件事,設計好eval體系、留好生產trace、讓一個足夠強的coding agent去跑「發現→定位→修復→驗證」的閉環。
模型智能是起點
系統智能才是終局
回到Tax AI。
如果你只看「AI幫人報稅」這個表層敘事,競爭壁壘看起來很薄,換個大模型接上去似乎也能干。
但如果你看到的是底層那套自我改進的閉環,結論完全不同。
Tax AI的全部知識產權歸Thrive Holdings所有。OpenAI派了半年工程師,最后連IP都沒留。
這在硅谷大廠的AI合作里極其罕見。
Thrive Capital是OpenAI最大投資方之一,去年12月OpenAI反手入股Thrive Holdings,不給現金,給工程師、給模型、給深度集成,最后產品歸你。
OpenAI圖什么?
答案就藏在Tax AI的增長曲線里。
每處理一份稅表,每收到一次會計師的糾正,系統就多了一份改進自己的證據。這個飛輪一旦轉起來,OpenAI就拿到了一個完整的、經過生產驗證的Agent自我進化范式。
一個報稅產品的IP不值錢。一套可復制的自我改進方法論,才是真正的戰略資產。
現在范式跑通了。Thrive Holdings已經在把同樣的閉環復制到記賬、審計、IT運維。
![]()
而另一邊,Anthropic也沒閑著。
Conway,那個7x24小時永不下線的Agent平臺,底下搭的是Memory Files持久記憶加上Dreams異步整合。
說白了,也是在給Agent裝上一個能自我維護、自我進化的「永久大腦」。
兩條路線,殊途同歸。
OpenAI用Codex驅動的eval閉環,讓Agent在生產中自己修bug。Anthropic用文件記憶加夢境機制,讓Agent在會話間自己整理經驗。
方法不同,賭的是同一件事,Agent能不能從「一次性工具」變成「越用越強的系統」。
在通往ASI的路上,模型智能只是起點。
真正的終局,是系統智能,一個能從環境中持續學習、持續進化、持續變強的整體。
![]()
參考資料:
https://openai.com/index/building-self-improving-tax-agents-with-codex/
風險提示及免責條款:市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資責任自負。
點個在看支持一下??
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.