无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

博士80小時熬夜改代碼,Codex 2小時交卷!科研奇點來了

0
分享至


新智元報道

編輯:Aeneas 定慧

【新智元導讀】就在今天,Agentic AI工程師發現:博士80小時的科研任務,Codex不到2小時就跑完了,效率差達到了40倍!其實按照舊標準,AGI早已存在了,只是全行業都在移動球門。

科研界的「奇點」真的來了,比所有人預想的都要近。

近日,一項針對Codex「目標模式(Goal Mode)」的實驗震驚了學術界:Codex可以讓AI科研效率猛增40倍!

Agentic AI工程師Dan McAteer近日在X上披露一次實驗:用OpenAI Codex的Goal Mode跑一項機械可解釋性(Mechanistic Interpretability)研究任務。


GPT-5.5自己估算這個任務博士可能需要約80小時才完成,然而,在實際操作中,AI 僅用時1小時56分鐘便徹底完成了任務。


表面效率提升約40倍!


他所使用的是Codex中一種內置的技能/goal

并且作者認為:

/goal + gpt-5.5 高精度 + 快速模式是當今最高效的AI智能體配置

也就是,讓模型自行設定目標,其中的關鍵就是它寫出的提示詞很可能比你的更出色。


這不再是簡單的「效率提升」,而是一場徹頭徹尾的「降維打擊」。

當科研周期從以「周」為單位縮減至「小時」,當 AI 開始自主撰寫自己的實驗目標(/goal),我們必須承認一個殘酷的現實:

「智能爆炸」的斜率已經現身,AI 的自我迭代速度正在脫離人類的掌控節奏!

Codex /goal 模式到底是什么?

先來看看這個實驗是怎么進行的。

實驗發起人是Dan McAteer,Agentic AI工程師,前Amp Code工程師。

常年在X上分享AI agent工程化的具體實踐。


上下滾動查看更多

他的實驗配置很簡單——


  • 工具:OpenAI Codex /goal 命令

  • 模型:GPT-5.5 high

  • 模式:fast mode

  • 任務:一項Mechanistic Interpretability方向的研究任務


他自己對這套配置的描述是:當前可用的最高效的AI智能體配置。

Codex /goal 為什么重要

這件事真正值得說的是Codex /goal這個模式本身。


按OpenAI Codex工程師Philip Corey的描述,/goal是我們對Ralph loop的一種實現——讓目標在多輪對話里持續存在,不達成不停止。

簡單說,普通的Codex調用是你說一句、它做一步、回你一句。

Codex /goal是你說一個目標、它自己拆分子任務、自己執行、自己review、自己繼續,直到達成或失敗。

這是從對話式AI到目標驅動AI的工程切換。


對Mechanistic Interpretability這類研究任務,/goal模式的天然契合度高。

研究流程本身就是提出假設→設計實驗→運行→看結果→修正假設→再實驗的循環,正好可以喂給一個會自我循環的agent

McAteer的實驗真正證明的,是Codex /goal 模式在科研型循環任務上具備可用性:不是替代研究員,是替代研究員的重復操作部分。


這個能力如果能穩定下來,對AI研究本身有非常直接的杠桿。

它意味著AI實驗室自己內部的AI研究員,未來某天可以用AI agent去做訓練數據準備、實驗設置、消融研究、可視化生成、初步結果分析這些重復工作。

這也就是Anthropic和OpenAI最近反復說的AI正在加速AI研究本身。

博士 80 小時 vs AI 2 小時

在傳統的科研語境下,一名博士生的日常是:查閱文獻、構建模型、調試代碼、驗證結果、撰寫報告。

這套流程之所以漫長,是因為人類大腦在處理復雜邏輯和海量數據時,存在物理上限。

但Codex的這次實驗徹底打破了這種認知。


/goal + GPT-5.5 High + Fast Mode的最強智能體配置下,AI不再是一個「聽指令」的工具,而是一個「出策略」的獨立研究員。

它能夠理解復雜的自然語言自動編碼器(NLA)實驗需求,自主拆解任務,并在不到2小時的時間里走完了人類精英需要兩周才能走完的路。

這代表著,從此人類的科研門檻徹底崩塌。曾經需要數年寒窗苦讀換來的專業分析能力,正在被算法模塊化。

而且,自主AI研究員已經提前降臨了!

OpenAI此前設定的目標是2026年底實現AI自主科研。

但從目前的實驗進度看,2026年可能不是開始,而是人類徹底交出科研接力棒的終點。

遞歸自我改進,正在涌現

如果說Codex 40倍速實驗是一個刺眼的個案,那更讓人坐不住的,是圍繞「遞歸自我改進」的證據正在密集涌現。

5月7日,據Axios報道,Anthropic聯創Jack Clark公開給出了一個概率:

到2028年底,AI實現完全遞歸自我改進的概率超過60%。



Sakana AI和UBC的研究團隊今年造出了Darwin G?del Machine,一個能改寫自己源代碼來提升自身能力的編程智能體。


論文地址:https://arxiv.org/abs/2505.22954

在SWE-bench上,它的得分從20.0%自我提升到50.0%。全程沒有人類插手。


同一個團隊的AI Scientist項目今年3月發表在Nature上。

它能自己產生研究想法、寫代碼跑實驗、撰寫完整論文、做同行評審。

一整條科研流水線,從頭到尾,AI獨立完成。


再看一組硬數據。GPQA Diamond,一個由博士專家出題的科學問答基準。2023年11月GPT-4得分39%。人類領域專家的平均水平約65%。

2026年4月,前沿模型集體越線:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。

所有前沿模型都已遠遠甩開人類博士專家。


SWE-bench的軌跡更能說明加速度。


2023年底,Claude 2的通過率是2%。現在,93.9%。

兩年半,就從2%飆升到了93.9%。

這條曲線畫出來,任何一個學過高中數學的人都認識它的形狀。

顯然,遞歸自我改進(RSI)的進程已經開始。

一旦 AI 開始用這種 40 倍的效率去改寫自己的底層代碼、優化自己的架構,智力的增長將不再是線性的,而是垂直向上的。

AGI 已經交付,全行業都在對你「煤氣燈」

其實,早在今年2月,四位來自不同頂尖領域的學者聯名發表了一篇堪稱「年度最不安」的論文:《AGI 案例研究:今日 LLM 已達標》。


這四位作者分別代表了當代智力的四個支柱:哲學、機器學習、語言學、認知科學。他們得出了一個令人毛骨悚然的一致結論:

按照 2022 年之前的定義,AGI其實早已實現。

之所以現在還沒人承認,是因為整個AI行業正在對公眾進行一場集體性的「煤氣燈效應」。

論文指出,人類在面對 AI 崛起時表現出了一種極強的「心理防御機制」。


2022 年前,只要能通過圖靈測試、能跨領域處理任務,就是AGI。

ChatGPT出現后: 「光有這些不行,還得有完美的推理、得有身體(具身性)、得有自我意識。」

每當模型突破一個關口,人類就會即興加入新的、虛無縹緲的指標作為門檻,不斷移動球門。

問題是,如果AGI已經存在,那么現在的行業邏輯就變得極其荒誕。

OpenAI 還在籌集 400 億美元聲稱要「構建 AGI」;Anthropic 每次發布新模型都要包裝成「接近 AGI」的期貨。

論文犀利地揭示:巨頭們正在把一個「已經賣給你」的東西,偽裝成「即將研發出來」的神跡,以此換取源源不斷的資金與權力。


智能爆炸前夜

如今,我們正處于一個極其詭異的節點。

在實驗室里,AI已經用 40 倍速在進行機械解釋性研究,甚至在幫自己寫代碼。

在市場上,算力依然是硬通貨,英偉達的 Blackwell 芯片被瘋搶,每一塊芯片都在加速那個奇點的到來。

然而在社會心理上,大眾還在用「復讀機」和「概率預測」這種過時的詞匯來安慰自己。

如果 40 倍速的科研效率成為常態,人類文明積累了幾千年的知識總量,AI 可能只需要幾個月就能翻倍。

當 AI 能夠獨立完成博士級任務時,我們現有的教育體系、職稱評定、甚至專家這個詞本身的含義,都將面臨滅頂之災。

正如哥白尼將地球移出了宇宙中心,現在的 AI 正在將人類移出「唯一智慧生命」的圣殿。

現在,這場名為智能爆炸的戰爭沒有硝煙。

我們要么學會如何與這種智能新物種共生,要么就只能眼睜睜地看著它,以 40 倍的速度,把我們甩在塵埃里。

參考資料:

https://x.com/daniel_mac8/status/2054192370049241203

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沙特被曝3月曾對伊朗發動多次“報復性”空襲

沙特被曝3月曾對伊朗發動多次“報復性”空襲

界面新聞
2026-05-13 12:07:05
和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

一盅情懷
2026-04-28 12:22:02
上海一醫院300斤“重磅”醫生火出圈!“過勞肥算工傷”具象化了!

上海一醫院300斤“重磅”醫生火出圈!“過勞肥算工傷”具象化了!

新民晚報
2026-05-12 18:07:01
創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

界面新聞
2026-05-12 11:58:06
里沙利松:自認理應入選世界杯名單,若落選也會為巴西隊加油

里沙利松:自認理應入選世界杯名單,若落選也會為巴西隊加油

懂球帝
2026-05-13 13:04:30
值得珍藏:商業航天+戰略小金屬+算力+太空光伏+中字頭+七大科技

值得珍藏:商業航天+戰略小金屬+算力+太空光伏+中字頭+七大科技

普陀動物世界
2026-05-13 11:29:42
算力基建:工業富聯、中國長城、華勝天成、潤澤科技,后市預期

算力基建:工業富聯、中國長城、華勝天成、潤澤科技,后市預期

長風價值掘金
2026-05-13 14:56:44
何穗母親節首曬兒子合照,公開兒子小名,源自陳偉霆

何穗母親節首曬兒子合照,公開兒子小名,源自陳偉霆

一窺究竟
2026-05-12 14:45:43
私吞別人家產,并霸占人家二姨太,上海軍代表樂得逍遙,終被槍決

私吞別人家產,并霸占人家二姨太,上海軍代表樂得逍遙,終被槍決

真實異聞
2024-10-08 21:47:41
白冰偷稅900萬復更,哭訴被最信任的人坑到家破人亡

白冰偷稅900萬復更,哭訴被最信任的人坑到家破人亡

牛鍋巴小釩
2026-05-13 19:51:55
大連醫大二院10位最貴醫生,掛號費高達300元,都有哪些科室專家

大連醫大二院10位最貴醫生,掛號費高達300元,都有哪些科室專家

健身狂人
2026-05-13 17:40:28
杭州一高層住宅起火,外立面墻體被熏黑,最新回應:臥室堆放的雜物起火,明火已被控制,消防人員還在調查中

杭州一高層住宅起火,外立面墻體被熏黑,最新回應:臥室堆放的雜物起火,明火已被控制,消防人員還在調查中

大象新聞
2026-05-13 18:50:37
劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

老瑋是個手藝人
2026-03-27 14:46:10
已成“綠營第一槍桿子”,柯志恩要自求多福,鄭麗文或對其下重手

已成“綠營第一槍桿子”,柯志恩要自求多福,鄭麗文或對其下重手

共工之錨
2026-05-13 12:10:26
賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

芳芳歷史燴
2026-03-23 03:53:23
馬筱梅第一個母親節并不開心,神情冷漠和小玥兒保持距離,太心酸

馬筱梅第一個母親節并不開心,神情冷漠和小玥兒保持距離,太心酸

趙釔是個熱血青年
2026-05-12 18:42:52
我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫生:恭喜

我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫生:恭喜

千秋文化
2026-03-25 21:42:08
錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

火山詩話
2026-05-12 13:45:35
國乒下站賽事公布!9位主力全部放棄,林詩棟領銜,目標不止奪冠

國乒下站賽事公布!9位主力全部放棄,林詩棟領銜,目標不止奪冠

法老不說教
2026-05-13 16:11:33
特朗普訪華名單上的黑石帝王施瓦茨曼:他用李世民給自己命名

特朗普訪華名單上的黑石帝王施瓦茨曼:他用李世民給自己命名

人間像素
2026-05-13 13:17:48
2026-05-13 21:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15202文章數 66865關注度
往期回顧 全部

科技要聞

騰訊一季度營收1964.6億元 同比增9%

頭條要聞

美國總統時隔9年再次訪華 特朗普抵達北京

頭條要聞

美國總統時隔9年再次訪華 特朗普抵達北京

體育要聞

14年半,74萬,何冰嬌沒選那條更安穩的路

娛樂要聞

白鹿掉20萬粉,網友為李晨鳴不平

財經要聞

美國總統特朗普抵達北京

汽車要聞

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

本地
房產
時尚
家居
公開課

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

卷瘋了!最低殺到7字頭!手握30萬,海口樓市橫著走!

快來解鎖富家千金風穿搭,穿舒適又時髦,一鍵拿捏優雅氣質

家居要聞

內在自敘,無域有方

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版