无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI曝光「自進化」AI！6周準確率翻三倍，Bug全自己修

2026-06-08 09:06:57　來源: 圖解金融

上海舉報

0

分享至

新智元報道

【新智元導讀】沒人重訓模型，沒人重寫代碼，OpenAI的AI系統六周內自己把準確率從25%拉到86%。Codex自己定位bug、寫修復、跑測試，AI自我進化已在生產環境跑起來了。

最近，OpenAI悄悄干了一件細思極恐的事。

一個AI系統，沒人重新訓練模型，沒人重寫代碼，六周內自己把準確率從25%拉到了86%。

在官方博客中，OpenAI把「怎么讓AI自己變強」的完整方法論，白紙黑字全寫出來了。

結合今年2月GPT-5.3-Codex「參與構建自身」、4月Symphony開源、5月MOSS源碼級自我改寫，一條被OpenAI藏了半年的暗線，終于浮出水面。

AI自我進化，已經在生產環境里跑起來了。

180→15小時，6周準確率翻三倍

這個AI報稅系統叫Tax AI，OpenAI和Thrive Holdings聯合做的，服務于Crete會計師聯盟旗下30多家事務所。

先看一個人的故事。

去年，Crete的一位資深會計師花了整整180小時準備客戶稅表。

今年，同樣的工作量，15個小時搞定。

省下來的時間她做了件以前根本不可能的事，逐一給每位客戶打電話，親自講解報稅細節。剩下的精力，全拿來開拓新客戶。

整個賽季，Tax AI處理了7000份稅表，準確率最高97%，產能提升約50%。

但真正炸裂的不是這些數字，是增長曲線。

六周前只能處理最簡單的W-2和1099表格，連K-1都搞不定。六周后，字段完成準確率從25%飆到86%。

系統越用越強，而且在加速。

Bug自己修，測試報告自己寫

怎么做到的？

Thrive Holdings的老板Joshua Kushner，同時也是OpenAI最大投資方之一。

去年12月，OpenAI入股了Thrive Holdings，直接把工程團隊派駐到會計師的辦公桌旁邊。

看著真實的稅表、真實的客戶數據、真實的報錯，一起打磨了六個月。

傳統AI產品改進是這樣的，上線，出bug，用戶投訴，工程師排查，改代碼，重新部署。

整個循環慢得要命，每一步都卡在人身上。

Tax AI用了三招，就把這個循環的大部分環節自動化了。

第一招，讓從業者的每次糾錯變成結構化數據。

會計師審核Tax AI的輸出時，每改一個字段，系統完整記錄三件事，AI預測了什么、會計師改成了什么、最終報稅用了什么。

關鍵在于，系統把每次修改都當作改進的起點，而不是終點。

第二招，生產環境里的每一步都留痕。

從源文件上傳，到字段提取，到引用溯源，到稅務引擎映射，到會計師糾正，到最終報稅。

整條鏈路的每個節點都有trace。

出錯的時候，可以精確定位到底是OCR讀錯了手寫筆記，還是字段映射邏輯有gap，還是壓根不支持這種表格類型。

第三招，用Codex把發現變成修復。

當系統發現某類錯誤反復出現，比如Tax AI總是漏掉租賃房產的「公平出租天數」字段，而會計師每次都手動補上。

這個pattern就會被打包成一個有明確成功標準的工程任務，扔給Codex。

Codex拿到的不是一個模糊的bug報告。

它拿到的是完整的生產trace、出錯的源文件樣本、期望輸出、相關代碼路徑，外加一套專門針對這個問題的eval測試集。

然后Codex自己檢查提取邏輯、映射規則、評分器，提出修復方案，跑targeted eval驗證，再跑回歸測試確認沒引入新問題，最后生成一個PR等人類工程師review。

如果證據模糊，任務會路由回產品團隊，而不是硬塞進流程。

你沒看錯。bug修完了，還自帶測試報告。

效果立竿見影。租賃房產相關字段處理，從幾乎不可用到90%精確率和召回率，六周。

而這六周積累下來的抽象能力和eval規范，又讓后續支持Schedule C和Schedule A變得更快。

系統越用，能處理的問題越復雜。越復雜的問題被解決，每份稅表省下的人工時間越多。

這是一條加速曲線。

AI進入自我改進時代

2月，OpenAI發布GPT-5.3-Codex的時候寫道：「GPT-5.3-Codex是我們第一個在創造自身過程中發揮了關鍵作用的模型。」

Codex團隊用這個模型的早期版本來調試自己的訓練流程、管理部署、診斷測試結果。

模型參與了自己的構建。

4月，OpenAI開源了Symphony，一個把Codex和Linear項目管理工具連起來的編排層。

起因很現實。OpenAI的工程師發現，一個人同時管3到5個Codex會話就已經是極限了，再多就陷入上下文切換的泥潭。

人的注意力，成了Agent產能的天花板。

而Symphony的思路很暴力，別管Agent了，管工作本身。

它監控issue tracker，給每個ticket分配一個獨立的Agent工作空間，Agent自己干活、跑CI、生成PR。工程師只負責review產出物。

當Agent失敗了，工程師不去改prompt讓它「再試一次」，而是去想「它缺了什么能力、什么上下文、什么結構」。然后修harness，不是修prompt。

OpenAI內部用Symphony之后，部分團隊的工程產出直接翻倍。

同樣是4月，學術界也跟上了。ICLR 2026在里約專門辦了一個「AI遞歸自我改進」的workshop。

緊接著5月，一篇叫MOSS的研究把這件事推到了更極端的位置。它讓Agent不只改prompt或workflow配置，而是直接改寫自己的源代碼。

在OpenClaw平臺上，MOSS在一個無人干預的進化周期內，把四個任務的平均評分從0.25拉到了0.61。

論文地址：https://arxiv.org/abs/2605.22794

Tax AI不是孤例。「Agent自我改進」已經成了2026年上半年最密集的技術主線。

模型層面，GPT-5.3-Codex參與自身構建。

工程層面，Symphony加上Tax AI的生產閉環。

學術層面，MOSS實現源碼級自我改寫。

不動模型權重，照樣越來越強

這里有個關鍵區分。

過去大家談AI進化，說的是fine-tuning，是RLHF，是改模型權重。那條路需要海量數據、大量GPU、專業團隊，門檻極高。

現在OpenAI展示的這條路完全不同。

模型權重紋絲不動。

改的是模型周圍的一切。提取邏輯、映射規則、eval標準、工作流配置，甚至Agent自己的代碼。

打個比方，模型是引擎，harness是車身。即便不用換引擎也能讓車跑得更快，改底盤調懸掛就行。

如此一來，自我改進的門檻就被大幅拉低了。

你不需要自己訓練模型，只需要三件事，設計好eval體系、留好生產trace、讓一個足夠強的coding agent去跑「發現→定位→修復→驗證」的閉環。

模型智能是起點

系統智能才是終局

回到Tax AI。

如果你只看「AI幫人報稅」這個表層敘事，競爭壁壘看起來很薄，換個大模型接上去似乎也能干。

但如果你看到的是底層那套自我改進的閉環，結論完全不同。

Tax AI的全部知識產權歸Thrive Holdings所有。OpenAI派了半年工程師，最后連IP都沒留。

這在硅谷大廠的AI合作里極其罕見。

Thrive Capital是OpenAI最大投資方之一，去年12月OpenAI反手入股Thrive Holdings，不給現金，給工程師、給模型、給深度集成，最后產品歸你。

OpenAI圖什么？

答案就藏在Tax AI的增長曲線里。

每處理一份稅表，每收到一次會計師的糾正，系統就多了一份改進自己的證據。這個飛輪一旦轉起來，OpenAI就拿到了一個完整的、經過生產驗證的Agent自我進化范式。

一個報稅產品的IP不值錢。一套可復制的自我改進方法論，才是真正的戰略資產。

現在范式跑通了。Thrive Holdings已經在把同樣的閉環復制到記賬、審計、IT運維。

而另一邊，Anthropic也沒閑著。

Conway，那個7x24小時永不下線的Agent平臺，底下搭的是Memory Files持久記憶加上Dreams異步整合。

說白了，也是在給Agent裝上一個能自我維護、自我進化的「永久大腦」。

兩條路線，殊途同歸。

OpenAI用Codex驅動的eval閉環，讓Agent在生產中自己修bug。Anthropic用文件記憶加夢境機制，讓Agent在會話間自己整理經驗。

方法不同，賭的是同一件事，Agent能不能從「一次性工具」變成「越用越強的系統」。

在通往ASI的路上，模型智能只是起點。

真正的終局，是系統智能，一個能從環境中持續學習、持續進化、持續變強的整體。

參考資料：

https://openai.com/index/building-self-improving-tax-agents-with-codex/

風險提示及免責條款：市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資責任自負。

點個在看支持一下??

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1825 跟貼 1825
扎哈羅娃：馮德萊恩是個“出色的騙子”

參考消息 2026-07-02 14:14:08
18206 跟貼 18206

國乒男單無緣美國大滿貫8強

北京日報 2026-07-03 11:55:13
211 跟貼 211

泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
19762 跟貼 19762
WTT美國大滿貫｜女雙半決賽將上演中國德比

北青網-北京青年報 2026-07-02 20:00:04
242 跟貼 242

總統的女兒，成為“第一夫人”，又成為總統

中國新聞周刊 2026-07-02 18:27:12
389 跟貼 389

連勝文今年首場輔選和盧秀燕同框，一起為謝龍介站臺

海峽導報社 2026-07-03 10:35:10
1 跟貼 1
歐洲主要國家現已接受船舶通過霍爾木茲海峽將不可避免需要付費

財聯社 2026-07-02 23:23:04
584 跟貼 584

中國電動汽車要來了加拿大想搞小動作中國先出手警告

澎湃新聞 2026-07-02 14:54:10
230 跟貼 230
河北一景區山頂礦泉水售價1元被贊“良心”，景區：成本價遠高于1元售價，沒想過靠賣水賺錢

都市快報橙柿互動 2026-07-02 04:17:54
575 跟貼 575
紫牛頭條｜景區 NPC 與游客互動掰手腕致骨折，自己墊付醫藥費后被游客拉黑

揚子晚報 2026-07-03 07:25:03
1165 跟貼 1165
C羅送別魔笛

北京青年報 2026-07-03 09:33:29
2497 跟貼 2497
蘇州一醫院現低矮“丁義珍式”窗口，院方回應

界面新聞 2026-07-02 18:46:01
516 跟貼 516
熱浪席卷歐洲，高溫正催生全新的“氣候經濟”，能成為中國外貿長期增長點嗎？

上觀新聞 2026-07-03 09:03:35
20 跟貼 20
70歲老人剛拿證就高速逆行，被記12分需重考

新京報 2026-07-02 18:33:06
165 跟貼 165
德英相繼放棄建造大型戰艦，為了“省錢”的無奈之舉？

澎湃新聞 2026-07-02 21:38:27
212 跟貼 212
布朗：心情既興奮又失落將銘記在綠軍經歷的一切

北青網-北京青年報 2026-07-03 08:30:02
102 跟貼 102
特斯拉Model Y L在美國上市

界面新聞 2026-07-03 11:01:08
5 跟貼 5
午評：創業板指半日漲1.58% 機器人概念集體爆發

財聯社 2026-07-03 11:36:33
30 跟貼 30
教育部：不得以“夏令營”等名義變相組織考試

央視新聞客戶端 2026-07-03 11:29:18
38 跟貼 38
世衛組織宣布與郵輪相關的漢坦病毒疫情結束

界面新聞 2026-07-02 21:31:04
68 跟貼 68
“深圳將全域開放無人駕駛”系誤讀（2026·07·02）

今日辟謠 2026-07-02 16:03:02
94 跟貼 94
從黃鶴樓出發，嵐圖以硬核實力重走千年絲路，讓世界看見“武漢造”

瀟湘晨報 2026-07-03 11:01:27
4 跟貼 4
大量歐洲客戶從中國網購空調空運一臺運費2000元

封面新聞 2026-07-03 11:45:25
0 跟貼 0
緊急！海邊一男子突然走向深海輕生，他們沖上去了

環球網資訊 2026-07-03 13:40:09
0 跟貼 0

19款洗衣液抽查不合格！快看看，有你家在用的嗎？

19款洗衣液抽查不合格！快看看，有你家在用的嗎？

掌上春城

2026-07-02 16:11:05

圖片報：拜仁準備大幅加薪續約奧利塞，想與其簽約至2031年

圖片報：拜仁準備大幅加薪續約奧利塞，想與其簽約至2031年

懂球帝

2026-07-02 17:26:26

鄭麗文掏出“大陸”徽章，在國民黨中常會直言，臺灣的未來在大陸

鄭麗文掏出“大陸”徽章，在國民黨中常會直言，臺灣的未來在大陸

倔強的毛驢

2026-07-03 11:56:16

不踩一捧一！莫德里奇客觀談梅羅：梅西天賦無雙，C羅更全能

不踩一捧一！莫德里奇客觀談梅羅：梅西天賦無雙，C羅更全能

體育閑話說

2026-07-03 05:47:32

C羅：西班牙是世界杯冠軍有力競爭者之一，我們會做好準備

C羅：西班牙是世界杯冠軍有力競爭者之一，我們會做好準備

懂球帝

2026-07-03 11:42:31

皇馬前鋒羅德里戈3000萬歐元轉會英超，曼聯心儀皇馬中場楚梅阿尼

皇馬前鋒羅德里戈3000萬歐元轉會英超，曼聯心儀皇馬中場楚梅阿尼

福醬的小時光

2026-07-03 06:43:36

黃曉明和Angelababy的新瓜，有點炸

黃曉明和Angelababy的新瓜，有點炸

黎兜兜

2026-07-03 08:13:47

西安賽格事件曝出猛料！罰單實錘10倍處罰條款，公告難以自圓其說

西安賽格事件曝出猛料！罰單實錘10倍處罰條款，公告難以自圓其說

火山詩話

2026-07-03 08:01:45

豪門私生子迎來大結局？王思聰被蹭了幾年流量，終于解脫了

豪門私生子迎來大結局？王思聰被蹭了幾年流量，終于解脫了

何氽簡史

2026-07-02 16:10:52

爆冷！最新戰況：張本美和闖進決賽沖冠，橋本帆乃香0-3慘敗出局

爆冷！最新戰況：張本美和闖進決賽沖冠，橋本帆乃香0-3慘敗出局

銳評利物浦

2026-07-03 11:19:05

被西班牙打崩！奧地利內訌 34歲皇馬巨星怒吼隊友世界杯悲情謝幕

被西班牙打崩！奧地利內訌 34歲皇馬巨星怒吼隊友世界杯悲情謝幕

我愛英超

2026-07-03 06:01:19

500多億交了昂貴學費，京東的外賣敗局，給所有企業敲了警鐘？

500多億交了昂貴學費，京東的外賣敗局，給所有企業敲了警鐘？

凡知

2026-07-03 06:01:41

大家提前做好準備，如果一切正常，26年7月開始，國內恐出5大趨勢

大家提前做好準備，如果一切正常，26年7月開始，國內恐出5大趨勢

巢客HOME

2026-07-01 09:30:05

基本上確定！中國正式回應日本員工偷稀土過程中有無中國人參與？

基本上確定！中國正式回應日本員工偷稀土過程中有無中國人參與？

阿龍聊軍事

2026-07-03 11:56:52

阿莫林賺大了！米蘭 7500 萬新援世界杯封神！他拯救了C 羅葡萄牙

阿莫林賺大了！米蘭 7500 萬新援世界杯封神！他拯救了C 羅葡萄牙

瀾歸序

2026-07-03 09:57:24

葡萄牙2:1淘汰克羅地亞全場比賽四大爭議 3個進球被吹還多踢9分

葡萄牙2:1淘汰克羅地亞全場比賽四大爭議 3個進球被吹還多踢9分

梅亭談

2026-07-03 09:36:45

全是演的啊！？別被勇士騙了.....

全是演的啊！？別被勇士騙了.....

柚子說球

2026-07-03 09:25:23

砸下10億，向死神買回一條命？48歲蔡磊抗爭漸凍癥7年，近況破防

砸下10億，向死神買回一條命？48歲蔡磊抗爭漸凍癥7年，近況破防

阿傖說事

2026-06-30 02:01:12

168厘米硅膠仿生人上架預售，30多公斤，還會記住你的每一句話

168厘米硅膠仿生人上架預售，30多公斤，還會記住你的每一句話

泠泠說史

2026-07-02 11:22:10

《四渡》香港票房16萬，渡人渡己虛無主義，太俗氣，觀眾不買賬！

《四渡》香港票房16萬，渡人渡己虛無主義，太俗氣，觀眾不買賬！

眼光很亮

2026-07-03 08:25:55

圖解金融，你的金融視界

5559文章數 26721關注度

往期回顧全部

科技要聞

特斯拉交付超預期7.4萬輛，股價卻大跌7.5%

頭條要聞

齊達內兒子被梅西打穿后一度崩潰淘汰賽又被灌進2球

頭條要聞

齊達內兒子被梅西打穿后一度崩潰淘汰賽又被灌進2球

體育要聞

韓國人，為什么恨透了洪明甫？

娛樂要聞

黃曉明深夜約會美女，分手原因曝光

財經要聞

AI“鬼故事”不斷，市場開始重估？

汽車要聞

極氪9X五座版官宣，如圖！

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

旅游

手機

公開課

數碼要聞

299元雙8K旗艦款！雷神X7s Pro Max鼠標預售：全球首發PAW3955 Turbo

教育要聞

高分扎堆，“分數通脹”是怎么產生的？

旅游要聞

九寨溝一男子被擠落入鈣化池，游客質疑無護欄，景區回應

手機要聞

蘋果iPhone 18 Pro Max電池首曝：5187mAh容量，欣旺達生產

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版