網易首頁 > 網易號 > 正文 申請入駐

不好!1930年的AI都來搶程序員飯碗了

0
分享至

Jay 發自 凹非寺
量子位 | 公眾號 QbitAI

勞動節,馬上100歲的vintage大模型也得勞動。

是的,有人給只有1930年知識的大模型,微調成軟件工程師了……

過程比想象中輕松,僅用250個訓練樣本,強悍的老頭便解決了自己人生中的第一個編程問題——

給xarray庫打了個補丁。



一個連電視機都沒見過的AI,現在也開始跟Claude們「學壞」,要跟程序員搶飯碗了。(bushi)

中古硅基軟件工程師

先補充下背景,1930是誰?

這是最近爆火的「老頭AI」,全名叫talkie-1930-13b。

操盤手是AI研究員Nick Levine、多倫多大學副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford。



而他們對老頭最有趣的設計,就是其訓練數據有條鐵律:1931年1月1日之后的任何一個字,全部不準進!

是的,它不知道電視機,不知道互聯網,更不知道二戰怎么收場……

老頭的世界,永遠停在了1930年12月31日的午夜。

但讓全網「癱軟」的點在于,就這么個老古董,當扔給它一道Python編程題時,這個跨越近百年的「過去之靈」,竟然寫出了人生第一行Python代碼。

離離原上譜。



如今,老頭再次發力。

有人對Alec Radford的這個1930 vintage LLM做了微調,讓它去解SWE-bench上的真實軟件工程問題。

誰曾想,真讓老頭干成了。

250個訓練樣本之后,它落地了第一個fix——一個針對xarray庫的小補丁。

百歲老人,硬核上崗。

對了,團隊放出了老頭在落地這個xarray庫補丁的全過程。

說實話,如果以看前沿LLM的標準,這個demo看著真有點惱火。

一個簡單的問題,老頭足足花了49輪才搞定,又長又慢。

其中有些輪次實在看不下去了,真的太笨了,著急死了,但你又不好意思對老頭發脾氣。

但,這在某些時刻,反而讓人更興奮。跟看爽文一樣。

我舉個最「直接、不繞彎」的例子。(bushi)

老頭一開始其實搞砸了。

第12輪對話的時候,它嘗試apply patch失敗了。



代碼可以報錯,但,老兵不死。

老頭沒有放棄,它仍在繼續嘗試,直到終于意識到自己錯在哪……

然后,在第44輪,它給修好了??!



我知道,fix本身很簡單,別說AI SOTA了,代碼水平跟小白比估計都夠嗆。

但真正重要的,是老頭在整個解題過程中的思考。

這個過程展示出的那種推理能力,跟我們在現代模型上看到的如出一轍。

一個1930年的模型,也會試錯,會反思,會自我修正。

demo之外,benchmark的表現同樣亮眼。

當微調時的訓練數據規模擴展到大約75K條trajectory,也就是10億token的時候,模型在SWE-bench-Verified上達到了4.5%的pass@1。

要知道,它原來在HumanEval上才4%的pass@100。這進步幅度相當可觀。

雖然絕對值還很低,但對一個1930年知識模型來說,已經很離譜了。



更有意思的是另一個對照實驗。

事實上,團隊還同時給老頭訓練了一個兄弟模型,叫talkie-web,這個模型是在互聯網數據上預訓練的。

同樣的微調配方,talkie-web在SWE-bench-Verified上的成績是5.5%的。

沒錯,即便團隊偏心,給孿生兄弟加上互聯網數據,也就比老頭高了1個百分點



以上結果,歡迎復現。

這不是什么穿越爽文,團隊已經在GitHub上開源了項目,鏈接放在文章結尾,感興趣的朋友可以去跑跑看。

團隊自己也很興奮,在README里喊話:

如果你手頭有更多算力,我們很想看到1930模型和互聯網模型在后訓練持續擴展時的完整scaling曲線對比。

想看想看,這可比單純秀肌肉的benchmark有意思多了。

什么是智能?

團隊并沒有剖析背后的原因,但我看了不少網友在帖子下面的評論,覺得這是一個值得討論的話題。

我們一直以為,AI需要吃掉整個互聯網才能變聰明。

但如果一個只讀過1930年以前書的模型,經過一點點后訓練就能寫代碼修bug……

那我們對「什么是智能」的理解,是不是也得重新想想?

4.5%的pass@1,放在今天的SOTA面前當然不夠看。但它證明的那件事,比任何benchmark分數都重要。

一個1930年代的人,如果擁有幾乎相同的教育體系,完全可以理解現代軟件工程。

一百年前的數據量,加上正確的后訓練方法,就足以產生現代意義上的推理。

智能的瓶頸,或許從來不在于預訓練數據的多少。

你不需要一個訓練過所有知識的模型,它只需要具備基本的語言理解能力,這就夠了。

或許,當我們在Scaling路上一路狂奔的間隙,也可以稍微停一停,抬起頭來跟身邊人侃侃大山、扯扯淡——

誒,你說……
智能的本質,到底是什么?

GitHub:
https://github.com/RicardoDominguez/talkie-coder

參考鏈接:
[1]
https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]
https://github.com/RicardoDominguez/talkie-coder

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,享年90歲

他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,享年90歲

英子談
2026-05-02 09:30:44
細思極恐!楊采鈺還不如跟陳金飛!知三當三失敗,想借子上位也沒用

細思極恐!楊采鈺還不如跟陳金飛!知三當三失敗,想借子上位也沒用

八卦王者
2026-05-01 14:27:25
老人斷氣時誰在身邊最好?不是子女數量,而是這3種人

老人斷氣時誰在身邊最好?不是子女數量,而是這3種人

小影的娛樂
2026-05-03 15:59:30
景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

星娛叨叨社
2026-04-30 14:32:32
皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續封神

皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續封神

奶蓋熊本熊
2026-05-03 02:07:54
納因戈蘭:麥克托米奈雖然能進很多球,但他就是個普通球員

納因戈蘭:麥克托米奈雖然能進很多球,但他就是個普通球員

懂球帝
2026-05-03 09:21:12
“大家五一不逛景區嗎?怎么都來老鋪排隊!”

“大家五一不逛景區嗎?怎么都來老鋪排隊!”

上海黃浦
2026-05-02 20:01:28
相親遇到過什么惡心的事?網友:她把我當ATM機,我以為緣分來了

相親遇到過什么惡心的事?網友:她把我當ATM機,我以為緣分來了

夜深愛雜談
2026-05-03 11:35:03
銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

牛鍋巴小釩
2026-05-03 15:34:57
“我要展現自己的實力”——喬布·貝林厄姆認真起來了

“我要展現自己的實力”——喬布·貝林厄姆認真起來了

李巴喬
2026-05-03 18:55:10
5月開始,"北京特區"正式亮相!

5月開始,"北京特區"正式亮相!

大山說房
2026-05-02 17:52:42
風向變了,斯洛伐克放棄強硬,澤連斯基策略奏效,烏克蘭漸入佳境

風向變了,斯洛伐克放棄強硬,澤連斯基策略奏效,烏克蘭漸入佳境

壹只灰鴿子
2026-05-03 13:33:52
中國足球留洋7大災難名場面:從豪門寵兒到無球可踢

中國足球留洋7大災難名場面:從豪門寵兒到無球可踢

圣西羅的太陽
2026-05-03 10:09:48
發現了嗎?軍方明顯越來越“不耐煩”,說的都是外國人能聽懂的話

發現了嗎?軍方明顯越來越“不耐煩”,說的都是外國人能聽懂的話

浪子阿邴聊體育
2026-05-03 07:35:44
加拿大游客到廣州,被無現金支付整懵,直呼像日本但更激進

加拿大游客到廣州,被無現金支付整懵,直呼像日本但更激進

劉哥談體育
2026-05-03 11:26:58
梅根心心念念求三年的同框,卡米拉一句話搞定,體制才是頂級社交

梅根心心念念求三年的同框,卡米拉一句話搞定,體制才是頂級社交

樂趣紀史
2026-05-03 18:01:18
730萬香港市民鐘意首艘核航母,中央將打破慣例叫它“香港號”?

730萬香港市民鐘意首艘核航母,中央將打破慣例叫它“香港號”?

混沌錄
2026-04-30 20:35:32
斯基拉:曼城正準備向森林提供一份巨額報價,試圖簽下安德森

斯基拉:曼城正準備向森林提供一份巨額報價,試圖簽下安德森

懂球帝
2026-05-03 14:19:08
含劇毒,無解藥!每家每戶都有,千萬別亂吃,哪怕煮爛了也沒用!

含劇毒,無解藥!每家每戶都有,千萬別亂吃,哪怕煮爛了也沒用!

健康科普365
2026-04-14 16:25:08
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

番外行
2026-03-10 08:01:42
2026-05-03 19:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12572文章數 176460關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

頭條要聞

機票價大跳水接近"腰斬" 上海出發機票最高降幅達7成

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

教育
時尚
手機
藝術
健康

教育要聞

考懵寶媽的一道二年級思考題,思維受限

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

手機要聞

華為手機星閃(NearLink)最新適配清單公布,功能差異一表看懂

藝術要聞

書法圈內秘傳的一段口訣,把草書技巧講得明明白白,90%的人沒聽說過!

干細胞治燒燙傷面臨這些“瓶頸”

無障礙瀏覽 進入關懷版