![]()
新智元報道
編輯:peter東
【新智元導(dǎo)讀】Claude Code這樣私有的編程智能體雖然能力強(qiáng)大,但有著封閉、昂貴、難以定制的局限。艾倫研究院推出的Open Coding Agents,讓你只需要400美元就能訓(xùn)練一個32B的專屬編程智能體。
一個行業(yè)的價格體系,往往不是被更強(qiáng)的技術(shù)」擊穿,而是被「更便宜的復(fù)制」改寫。
今天,AI2直接把編程智能體的入場費從「實驗室級預(yù)算」砍到「團(tuán)隊報銷級」:公開開源Open Coding Agents,用最低數(shù)百美元的算力成本,就能訓(xùn)練出能跑SWE-Bench Verified、還能貼合私有代碼庫的專屬編程智能體。
封閉、昂貴、難定制的「巨頭護(hù)城河」,第一次被開源用成本刀鋒切開一道口子。
開源編程智能體適配私人風(fēng)格
過去一年,AI編碼智能體徹底改寫了軟件開發(fā)的游戲規(guī)則——
從代碼生成、調(diào)試到重構(gòu)甚至提交拉取請求,AI正以前所未有的深度介入開發(fā)流程。
然而繁榮背后,一個殘酷的現(xiàn)實是:最強(qiáng)大的編碼智能體幾乎都被科技巨頭封閉,訓(xùn)練成本動輒百萬美元,更無法適配企業(yè)的私有代碼庫。
![]()
現(xiàn)在有了Allen AI發(fā)布的Open Coding Agents,為任何代碼庫構(gòu)建自己的編程智能體變得異常容易,你可以使用個人代碼庫或所在組織的內(nèi)部代碼庫,輕松訓(xùn)練一個能夠用于包括代碼生成、代碼審查、調(diào)試、維護(hù)和代碼解釋等任務(wù)的智能體。
用上這套方法,達(dá)到先前最佳開源模型只需約400 美元的計算成本,而要微調(diào)出一個與32B最佳行業(yè)模型相當(dāng)性能的編程大模型,成本最高也不過12,000美元,僅需40個GPU日訓(xùn)練(2塊NVIDIA Hopper或Blackwell GPU)。
這個價格比許多傳統(tǒng)方法便宜25倍以上,對實驗室和小型團(tuán)隊來說都觸手可及。
![]()
圖1:SERA-32B在編程任務(wù)上的表現(xiàn)
在標(biāo)準(zhǔn)編碼基準(zhǔn)測試SWE-Bench中,SERA-32B交出了一份令人驚艷的成績單:在64K上下文長度下,解決率達(dá)到54.2%,超越了所有同規(guī)模開源模型。
推理速度更是驚人,在4×H100上達(dá)到每秒3,700個token,在Blackwell 4×B200上更是達(dá)到每秒8,600個token。
但更顛覆認(rèn)知的是在特定代碼庫上的表現(xiàn)。當(dāng)針對Django和SymPy等大型開源項目進(jìn)行專業(yè)化訓(xùn)練后,僅用8,000個樣本、1,300美元成本微調(diào)的SERA-32B,竟然在多項任務(wù)上超越了其老師,擁有1100億參數(shù)的GLM-4.5-Air。
這說明模型規(guī)模并非決定性能的唯一因素,高質(zhì)量、針對性的訓(xùn)練數(shù)據(jù)可以讓小模型在特定領(lǐng)域表現(xiàn)出色。這為資源有限的研究團(tuán)隊和企業(yè)提供了新的可能性。他們不再需要追逐千億參數(shù)規(guī)模的模型,而是可以通過有針對性的訓(xùn)練,讓較小的模型在特定任務(wù)上達(dá)到頂尖水平。
軟驗證生成與工作流高保真模擬
SERA的核心突破源于其在合成數(shù)據(jù)生成方法上的根本性創(chuàng)新。傳統(tǒng)方法需要精確驗證生成的代碼補(bǔ)丁是否正確,這一過程計算成本高昂,成為大規(guī)模應(yīng)用的瓶頸。
而SERA引入的軟驗證生成(SVG Soft-verified generation)技術(shù),徹底改變了這一范式。
之前的編程智能體訓(xùn)練之所以成本高,是因為訓(xùn)練數(shù)據(jù)需要包含錯誤和修正代碼的代碼示例對,這就意味著需要花費很多人力成本來生成并驗證訓(xùn)練數(shù)據(jù)集。
AllenAI的研究者發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)不需要完美無缺才能有效。
就像不同的代碼可以實現(xiàn)相同功能一樣,部分正確的代碼補(bǔ)丁同樣可以訓(xùn)練出強(qiáng)大的編碼智能體。這一發(fā)現(xiàn)解放了數(shù)據(jù)生成過程,使其從昂貴的全驗證循環(huán)中解脫出來。
AllenAI團(tuán)隊通過系統(tǒng)實驗證明,軟驗證數(shù)據(jù)與完全驗證數(shù)據(jù)在訓(xùn)練效果上具有相似的縮放規(guī)律,但生成成本卻大幅降低。
這意味著研究者可以將資源集中在數(shù)據(jù)量和多樣性上,而非追求每個樣本的完美正確性。
為了讓訓(xùn)練數(shù)據(jù)多樣化,AllenAI團(tuán)隊從51種常見錯誤模式中系統(tǒng)化生成多樣化的訓(xùn)練數(shù)據(jù),避免數(shù)據(jù)單調(diào)性。對于代碼庫中的每個函數(shù),分別生成多個不同的 bug 風(fēng)格的提示詞,這樣一個包含數(shù)千個函數(shù)的代碼庫可以以低成本產(chǎn)生數(shù)萬個多樣化的用于編程智能體的訓(xùn)練數(shù)據(jù)。
![]()
圖2:SERA訓(xùn)練過程
在訓(xùn)練時,SERA通過「教師模型」結(jié)合「錯誤指令集」,在目標(biāo)代碼庫上自動化生成兩輪數(shù)據(jù):第一輪模擬開發(fā)者引入錯誤(Rollout 1),第二輪模擬審查與修復(fù)(Rollout 2)。最關(guān)鍵的是,系統(tǒng)并不驗證第二輪生成的補(bǔ)丁(P2)是否絕對正確,而是通過r = |P2 ∩ P1| / |P1|來衡量新舊補(bǔ)丁的重疊度。只要重疊度超過50%(r ≥ 0.5),修復(fù)補(bǔ)丁即被視為有效。
上述SERA的訓(xùn)練數(shù)據(jù)的生成方式,模擬的是開發(fā)者的工作過程,而不僅僅是代碼結(jié)果。這意味著AI學(xué)習(xí)的是如何發(fā)現(xiàn)問題、分析問題、解決問題的完整思維鏈,而不僅僅是記憶正確的代碼片段。
SERA項目負(fù)責(zé)人表示,「軟驗證捕捉的是開發(fā)者的思維過程,而非簡單的代碼正確性」。這一設(shè)計實現(xiàn)了根本性的成本革命。它放棄了追求「完美正確」的樣本,轉(zhuǎn)而捕捉「部分正確但邏輯合理」的開發(fā)者工作流。
這使得從任何私有代碼庫大規(guī)模、低成本生成高質(zhì)量訓(xùn)練數(shù)據(jù)成為可能,最終產(chǎn)出的軌跡與補(bǔ)丁數(shù)據(jù)可用于高效的監(jiān)督微調(diào),讓中小團(tuán)隊也能訓(xùn)練出理解自身代碼的專屬編程智能體。
高性能、易部署、兼容Claude Code
此次開源的代碼,包括了從8B到32B的所有規(guī)模模型,以及在SERA上進(jìn)行據(jù)生成、訓(xùn)練參數(shù)、優(yōu)化策略以微調(diào)、測試和構(gòu)建私有AI編程智能體的全過程,僅需兩行代碼即可啟動推理服務(wù)器。
Allen AI還開發(fā)了一個設(shè)置腳本和推理優(yōu)化,使SERA直接兼容Claude Code。
![]()
優(yōu)化后的SERA在消費級硬件就可以運行,這對于想使用AI編程智能體的公司,意味著不必?fù)?dān)心自身數(shù)據(jù)外泄,就可以用一個和更大參數(shù)模型性能相近,還適配自身編程規(guī)范的本地智能體。這對于金融,醫(yī)療等關(guān)注數(shù)據(jù)安全的行業(yè)尤為適用。
一個充分理解特定代碼庫的小模型,完全可以戰(zhàn)勝通用的巨無霸模型。這對于企業(yè)來說,意味著定制化的編碼智能體不再是科技巨頭的特權(quán),只需要用1/3的參數(shù)規(guī)模、更少的內(nèi)存、更快的推理速度,就能獲得更好的編程效果。
![]()
SERA展示出的小模型+高質(zhì)量數(shù)據(jù)的技術(shù)路徑,減少了對極端算力資源的依賴,使得在更接近數(shù)據(jù)源的地方進(jìn)行訓(xùn)練和推理成為可能。這將改變AI智能體的發(fā)展方向。
SERA的出現(xiàn),將會有利于垂直類的編程智能體。企業(yè)現(xiàn)在可以構(gòu)建理解自身代碼基的智能體,而非試圖讓通用模型適應(yīng)自己的特定需求。醫(yī)療、金融、制造等特定行業(yè)的編碼規(guī)范將被快速學(xué)習(xí),催生領(lǐng)域?qū)俚腁I編碼助手。
就像Linux開啟了操作系統(tǒng)的開源時代,SERA可能開啟編碼智能體的開源時代。當(dāng)每個開發(fā)者都能擁有理解自己代碼庫的AI伙伴時,編碼智能體的平民化時代將會到來。最強(qiáng)大的AI工具不應(yīng)被鎖在科技巨頭的服務(wù)器里,而應(yīng)該掌握在每個創(chuàng)造者手中。
參考資料:
https://allenai.org/blog/open-coding-agents
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.