亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源屠刀!400美元煉成「代碼副腦」,硅谷天價模型成廢鐵

0
分享至


新智元報道

編輯:peter東

【新智元導(dǎo)讀】Claude Code這樣私有的編程智能體雖然能力強(qiáng)大,但有著封閉、昂貴、難以定制的局限。艾倫研究院推出的Open Coding Agents,讓你只需要400美元就能訓(xùn)練一個32B的專屬編程智能體。

一個行業(yè)的價格體系,往往不是被更強(qiáng)的技術(shù)」擊穿,而是被「更便宜的復(fù)制」改寫。

今天,AI2直接把編程智能體的入場費從「實驗室級預(yù)算」砍到「團(tuán)隊報銷級」:公開開源Open Coding Agents,用最低數(shù)百美元的算力成本,就能訓(xùn)練出能跑SWE-Bench Verified、還能貼合私有代碼庫的專屬編程智能體。

封閉、昂貴、難定制的「巨頭護(hù)城河」,第一次被開源用成本刀鋒切開一道口子。

開源編程智能體適配私人風(fēng)格

過去一年,AI編碼智能體徹底改寫了軟件開發(fā)的游戲規(guī)則——

從代碼生成、調(diào)試到重構(gòu)甚至提交拉取請求,AI正以前所未有的深度介入開發(fā)流程。

然而繁榮背后,一個殘酷的現(xiàn)實是:最強(qiáng)大的編碼智能體幾乎都被科技巨頭封閉,訓(xùn)練成本動輒百萬美元,更無法適配企業(yè)的私有代碼庫。


現(xiàn)在有了Allen AI發(fā)布的Open Coding Agents,為任何代碼庫構(gòu)建自己的編程智能體變得異常容易,你可以使用個人代碼庫或所在組織的內(nèi)部代碼庫,輕松訓(xùn)練一個能夠用于包括代碼生成、代碼審查、調(diào)試、維護(hù)和代碼解釋等任務(wù)的智能體。

用上這套方法,達(dá)到先前最佳開源模型只需約400 美元的計算成本,而要微調(diào)出一個與32B最佳行業(yè)模型相當(dāng)性能的編程大模型,成本最高也不過12,000美元,僅需40個GPU日訓(xùn)練(2塊NVIDIA Hopper或Blackwell GPU)。

這個價格比許多傳統(tǒng)方法便宜25倍以上,對實驗室和小型團(tuán)隊來說都觸手可及。


圖1:SERA-32B在編程任務(wù)上的表現(xiàn)

在標(biāo)準(zhǔn)編碼基準(zhǔn)測試SWE-Bench中,SERA-32B交出了一份令人驚艷的成績單:在64K上下文長度下,解決率達(dá)到54.2%,超越了所有同規(guī)模開源模型。

推理速度更是驚人,在4×H100上達(dá)到每秒3,700個token,在Blackwell 4×B200上更是達(dá)到每秒8,600個token

但更顛覆認(rèn)知的是在特定代碼庫上的表現(xiàn)。當(dāng)針對Django和SymPy等大型開源項目進(jìn)行專業(yè)化訓(xùn)練后,僅用8,000個樣本、1,300美元成本微調(diào)的SERA-32B,竟然在多項任務(wù)上超越了其老師,擁有1100億參數(shù)的GLM-4.5-Air。

這說明模型規(guī)模并非決定性能的唯一因素,高質(zhì)量、針對性的訓(xùn)練數(shù)據(jù)可以讓小模型在特定領(lǐng)域表現(xiàn)出色。這為資源有限的研究團(tuán)隊和企業(yè)提供了新的可能性。他們不再需要追逐千億參數(shù)規(guī)模的模型,而是可以通過有針對性的訓(xùn)練,讓較小的模型在特定任務(wù)上達(dá)到頂尖水平。

軟驗證生成與工作流高保真模擬

SERA的核心突破源于其在合成數(shù)據(jù)生成方法上的根本性創(chuàng)新。傳統(tǒng)方法需要精確驗證生成的代碼補(bǔ)丁是否正確,這一過程計算成本高昂,成為大規(guī)模應(yīng)用的瓶頸。

而SERA引入的軟驗證生成(SVG Soft-verified generation)技術(shù),徹底改變了這一范式。

之前的編程智能體訓(xùn)練之所以成本高,是因為訓(xùn)練數(shù)據(jù)需要包含錯誤和修正代碼的代碼示例對,這就意味著需要花費很多人力成本來生成并驗證訓(xùn)練數(shù)據(jù)集。

AllenAI的研究者發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)不需要完美無缺才能有效

就像不同的代碼可以實現(xiàn)相同功能一樣,部分正確的代碼補(bǔ)丁同樣可以訓(xùn)練出強(qiáng)大的編碼智能體。這一發(fā)現(xiàn)解放了數(shù)據(jù)生成過程,使其從昂貴的全驗證循環(huán)中解脫出來。

AllenAI團(tuán)隊通過系統(tǒng)實驗證明,軟驗證數(shù)據(jù)與完全驗證數(shù)據(jù)在訓(xùn)練效果上具有相似的縮放規(guī)律,但生成成本卻大幅降低。

這意味著研究者可以將資源集中在數(shù)據(jù)量和多樣性上,而非追求每個樣本的完美正確性。

為了讓訓(xùn)練數(shù)據(jù)多樣化,AllenAI團(tuán)隊從51種常見錯誤模式中系統(tǒng)化生成多樣化的訓(xùn)練數(shù)據(jù),避免數(shù)據(jù)單調(diào)性。對于代碼庫中的每個函數(shù),分別生成多個不同的 bug 風(fēng)格的提示詞,這樣一個包含數(shù)千個函數(shù)的代碼庫可以以低成本產(chǎn)生數(shù)萬個多樣化的用于編程智能體的訓(xùn)練數(shù)據(jù)。


圖2:SERA訓(xùn)練過程

在訓(xùn)練時,SERA通過「教師模型」結(jié)合「錯誤指令集」,在目標(biāo)代碼庫上自動化生成兩輪數(shù)據(jù):第一輪模擬開發(fā)者引入錯誤(Rollout 1),第二輪模擬審查與修復(fù)(Rollout 2)。最關(guān)鍵的是,系統(tǒng)并不驗證第二輪生成的補(bǔ)丁(P2)是否絕對正確,而是通過r = |P2 ∩ P1| / |P1|來衡量新舊補(bǔ)丁的重疊度。只要重疊度超過50%(r ≥ 0.5),修復(fù)補(bǔ)丁即被視為有效。

上述SERA的訓(xùn)練數(shù)據(jù)的生成方式,模擬的是開發(fā)者的工作過程,而不僅僅是代碼結(jié)果。這意味著AI學(xué)習(xí)的是如何發(fā)現(xiàn)問題、分析問題、解決問題的完整思維鏈,而不僅僅是記憶正確的代碼片段。

SERA項目負(fù)責(zé)人表示,「軟驗證捕捉的是開發(fā)者的思維過程,而非簡單的代碼正確性」。這一設(shè)計實現(xiàn)了根本性的成本革命。它放棄了追求「完美正確」的樣本,轉(zhuǎn)而捕捉「部分正確但邏輯合理」的開發(fā)者工作流。

這使得從任何私有代碼庫大規(guī)模、低成本生成高質(zhì)量訓(xùn)練數(shù)據(jù)成為可能,最終產(chǎn)出的軌跡與補(bǔ)丁數(shù)據(jù)可用于高效的監(jiān)督微調(diào),讓中小團(tuán)隊也能訓(xùn)練出理解自身代碼的專屬編程智能體。

高性能、易部署、兼容Claude Code

此次開源的代碼,包括了從8B到32B的所有規(guī)模模型,以及在SERA上進(jìn)行據(jù)生成、訓(xùn)練參數(shù)、優(yōu)化策略以微調(diào)、測試和構(gòu)建私有AI編程智能體的全過程,僅需兩行代碼即可啟動推理服務(wù)器。

Allen AI還開發(fā)了一個設(shè)置腳本和推理優(yōu)化,使SERA直接兼容Claude Code。


優(yōu)化后的SERA在消費級硬件就可以運行,這對于想使用AI編程智能體的公司,意味著不必?fù)?dān)心自身數(shù)據(jù)外泄,就可以用一個和更大參數(shù)模型性能相近,還適配自身編程規(guī)范的本地智能體。這對于金融,醫(yī)療等關(guān)注數(shù)據(jù)安全的行業(yè)尤為適用。

一個充分理解特定代碼庫的小模型,完全可以戰(zhàn)勝通用的巨無霸模型。這對于企業(yè)來說,意味著定制化的編碼智能體不再是科技巨頭的特權(quán),只需要用1/3的參數(shù)規(guī)模、更少的內(nèi)存、更快的推理速度,就能獲得更好的編程效果。


SERA展示出的小模型+高質(zhì)量數(shù)據(jù)的技術(shù)路徑,減少了對極端算力資源的依賴,使得在更接近數(shù)據(jù)源的地方進(jìn)行訓(xùn)練和推理成為可能。這將改變AI智能體的發(fā)展方向。

SERA的出現(xiàn),將會有利于垂直類的編程智能體。企業(yè)現(xiàn)在可以構(gòu)建理解自身代碼基的智能體,而非試圖讓通用模型適應(yīng)自己的特定需求。醫(yī)療、金融、制造等特定行業(yè)的編碼規(guī)范將被快速學(xué)習(xí),催生領(lǐng)域?qū)俚腁I編碼助手。

就像Linux開啟了操作系統(tǒng)的開源時代,SERA可能開啟編碼智能體的開源時代。當(dāng)每個開發(fā)者都能擁有理解自己代碼庫的AI伙伴時,編碼智能體的平民化時代將會到來。最強(qiáng)大的AI工具不應(yīng)被鎖在科技巨頭的服務(wù)器里,而應(yīng)該掌握在每個創(chuàng)造者手中。

參考資料:

https://allenai.org/blog/open-coding-agents


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國西湖市91歲奶奶不接電話,警方上門找人,發(fā)現(xiàn)她正忙著打破游戲里的個人紀(jì)錄……

美國西湖市91歲奶奶不接電話,警方上門找人,發(fā)現(xiàn)她正忙著打破游戲里的個人紀(jì)錄……

都市快報橙柿互動
2026-04-16 22:22:55
突發(fā)!以色列發(fā)動大規(guī)模空襲

突發(fā)!以色列發(fā)動大規(guī)模空襲

農(nóng)民日報
2026-04-17 00:59:15
西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問題會報警

西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問題會報警

大象新聞
2026-04-16 08:45:11
主持人曝何超蕸終身未婚原因:和二太藍(lán)瓊纓有關(guān),她有知心伴侶

主持人曝何超蕸終身未婚原因:和二太藍(lán)瓊纓有關(guān),她有知心伴侶

悅君兮君不知
2026-04-16 05:18:41
不是克洛普!弗洛倫蒂諾鎖定皇馬新帥,英超傳奇成終極人選

不是克洛普!弗洛倫蒂諾鎖定皇馬新帥,英超傳奇成終極人選

瀾歸序
2026-04-17 05:18:42
哈登兩度逃出局!果然是真大腿啊!

哈登兩度逃出局!果然是真大腿啊!

柚子說球
2026-04-16 22:46:27
《乘風(fēng)2026》嘉賓趙子琪喊話芒果TV:是逼我爆所有的料嗎,我跟慧雯吵架的視頻是怎么被你們剪輯出來的

《乘風(fēng)2026》嘉賓趙子琪喊話芒果TV:是逼我爆所有的料嗎,我跟慧雯吵架的視頻是怎么被你們剪輯出來的

魯中晨報
2026-04-16 09:25:03
五百塊從樹農(nóng)手里買走,數(shù)萬、十幾萬賣到別墅區(qū):一棵老柿樹的奇幻漂流

五百塊從樹農(nóng)手里買走,數(shù)萬、十幾萬賣到別墅區(qū):一棵老柿樹的奇幻漂流

新京報
2026-04-16 08:03:24
明明是聯(lián)盟前五球星,卻被爛攤子拖垮!或許該走了,你不虧欠什么

明明是聯(lián)盟前五球星,卻被爛攤子拖垮!或許該走了,你不虧欠什么

老梁體育漫談
2026-04-17 00:54:18
浪姐7:姐姐cos經(jīng)典角色,李小冉的安琪太美,陳瑤的岳綺羅太驚艷

浪姐7:姐姐cos經(jīng)典角色,李小冉的安琪太美,陳瑤的岳綺羅太驚艷

星宿影視鴨
2026-04-16 18:07:30
中國向伊朗提供緊急人道主義援助

中國向伊朗提供緊急人道主義援助

新華社
2026-04-16 23:43:04
4月17日精選熱點:核聚變再次重磅利好,這些三大核心龍頭要大漲

4月17日精選熱點:核聚變再次重磅利好,這些三大核心龍頭要大漲

元芳說投資
2026-04-16 21:12:07
臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

翰飛觀事
2026-04-16 17:03:30
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
坐后座不系安全帶,北京一市民曬出罰單!

坐后座不系安全帶,北京一市民曬出罰單!

家住東西城
2026-04-16 19:32:29
許家印認(rèn)罪后老家的功德碑還在,村民:一定會永久保留

許家印認(rèn)罪后老家的功德碑還在,村民:一定會永久保留

映射生活的身影
2026-04-16 19:18:33
哎呀,見到了真人才知道她真的有多美!比電視上還好看還自然

哎呀,見到了真人才知道她真的有多美!比電視上還好看還自然

喜歡歷史的阿繁
2026-04-16 14:37:01
中國足球小將鄺兆鐳讀秒進(jìn)球絕平巴薩,收到了轉(zhuǎn)會通知引發(fā)熱議

中國足球小將鄺兆鐳讀秒進(jìn)球絕平巴薩,收到了轉(zhuǎn)會通知引發(fā)熱議

煙潯渺渺
2026-04-16 18:02:47
全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

全歐看不懂的豪賭!帶隊降級的孔帕尼,把拜仁焊成了歐洲頭號噩夢

老骾體育解說
2026-04-15 21:21:31
吳昕帶男友鄭凱與何炅聚餐,曝已相戀7年,比吳昕小兩歲又高又帥

吳昕帶男友鄭凱與何炅聚餐,曝已相戀7年,比吳昕小兩歲又高又帥

林輕吟
2026-04-16 19:49:36
2026-04-17 07:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14988文章數(shù) 66774關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普:伊朗已同意幾乎所有要求

頭條要聞

特朗普:伊朗已同意幾乎所有要求

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

房產(chǎn)
親子
游戲
旅游
公開課

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會,擠爆了!

親子要聞

兒子認(rèn)字還可以吧? 董路的微博視頻

可愛又兇狠!卡牌新游《小熊牌屋》中文上線特惠開啟

旅游要聞

社評:讀懂“China Travel”持續(xù)圈粉的邏輯

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版