幾天前,Anthropic發了一篇很長的博客。他們內部研究發現:AI正在加速AI自身的發展,而這條路,可能通向一個人類從未真正準備好的地方。
有人說這是上市前的公關炒作、也有人深以為然積極應對。Anthropic臺城地說:我們也不確定AI最終走向哪里,但我們覺得有必要現在就告訴所有人。
![]()
一、AI的能力躍遷,比人類預期的快
先說一個Anthropic的研究結論,AI能獨立完成任務的時長,在不斷增長。
2024年3月,Claude Opus 3能搞定大概需要人類4分鐘的軟件任務。一年后,Claude Sonnet 3.7做到了1.5小時。再一年,Claude Opus 4.6,12小時。最新的Mythos Preview,在METR的測試框架里,連續工作超過16小時,已經到了測試工具能衡量的上限。
這個翻倍速度,從原來的每7個月翻一倍,加速到了現在的每4個月翻一倍。如果趨勢不變,今年內,AI就能獨立完成需要人類花好幾天的任務。到2027年,可能是好幾周。
![]()
二、Claude開始給自己寫代碼
Anthropic的工程師現在每季度提交的代碼量,是2021年到2025年平均水平的8倍。這個數字背后,是Claude Code上線之后發生的結構性變化。在Claude Code出現之前,Anthropic代碼庫里AI寫的代碼占比一直是個位數。截至2026年5月,這個數字超過了80%。
![]()
代碼量暴增,但質量呢?Anthropic說,這一年來,工程師需要糾正Claude的次數越來越少了。在最開放、最模糊、連答案長什么樣都不確定的編程任務上,Claude的成功率從六個月前的26%跳到了現在的76%。50個百分點,半年時間。
Anthropic現在直接用Claude做代碼審查。所有提交到代碼庫的改動,都會先過一遍Claude的自動審查,檢查bug、安全漏洞和其他問題。他們回溯分析發現,如果之前每次改動都走這道流程,大約三分之一導致線上事故的bug,在上線前就會被攔住。那些寫代碼的工程師,已經是全球頂尖的AI系統開發者了。Claude在抓他們的bug。
三、研究能力,開始超過人類
編碼之外,Anthropic還做了一個實驗,每次發布新模型,都會給Claude一段訓練小型AI模型的代碼,讓它在保證正確性的前提下把運行速度優化到最快。2025年5月,Claude Opus 4的答案是加速3倍。2026年4月,Claude Mythos Preview做到了52倍。一個熟練的人類研究員,需要4到8小時才能勉強達到4倍。
Anthropic給Claude一個AI安全研究課題,讓它自己提假設、設計實驗、跑結果。兩個人類研究員花了大約一周,把研究中的某個關鍵gap縮小了23%。Claude用了約800小時的算力、花費約18000美元,把同一個gap縮小了97%。
這意味著,人類在AI開發流程里的參與,每一個環節都在收窄。代碼是Claude寫的,審查是Claude做的,實驗執行Claude比人快一個數量級,實驗設計Claude開始自己來了。目前人類還保有的比較優勢,是研究品味和判斷力,知道什么問題值得問,知道哪個方向更重要。但這個優勢能守多久,Anthropic自己也說不準。
四、AI自我進化的三種可能性
Anthropic在博客里描繪了三種可能的走向。
第一,停滯。那些指數曲線其實是S曲線,研究判斷力這件事靠規模解決不了,需要全新的架構突破。或者瓶頸出現在能源、芯片、算力的物理供應鏈上。
第二,AI持續加速,但人類仍然把著方向盤。組織效率指數級提升,100人的團隊做出10萬人規模的產出。Anthropic認為我們大概率正在走進這個場景。
第三,AI實現完全的遞歸自我提升,開始自己造下一代自己。這個場景下,AI的發展速度完全取決于算力。人類退到監督、驗證、審核的位置。
Anthropic發這篇博客,是想警示全人類:AI進展在未來幾年會加速,而不是持平或減緩。如果存在一個可驗證的機制,能確保所有AI實驗室都沒有在偷偷加速,他們愿意減速,甚至暫停。他們計劃在未來幾個月內就這個議題與立法者展開溝通。
但是業界也有不同聲音,認為一個編碼工具不會產生真正的智能。雖然觀點存在爭議,這恰恰說明沒有人真的知道接下來會發生什么。Anthropic自己也承認這一點。
來源 | i黑馬(ID:aixyr2023)
作者 | AI猿 ; 編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.