南京大學(xué)團隊破解AI代碼生成難題：當(dāng)代碼需要測試，誰來？

2026-04-15 23:35:14　來源: 至頂AI實驗室

北京舉報

分享至

這項由南京大學(xué)人工智能學(xué)院和新軟件技術(shù)國家重點實驗室聯(lián)合完成的研究發(fā)表于2026年4月的國際機器學(xué)習(xí)大會，該研究解決了人工智能代碼生成領(lǐng)域一個長期存在的核心問題。有興趣深入了解的讀者可以通過論文編號arXiv:2604.03922v1查詢完整論文。

當(dāng)我們讓AI幫忙寫代碼時，AI往往會生成很多個候選答案，就像學(xué)生做題時寫出多個可能的解法。為了找出哪個答案最好，我們需要用測試用例來檢驗這些代碼，就好比用標(biāo)準(zhǔn)答案來批改作業(yè)。但問題來了：AI生成的測試用例本身也可能是錯誤的，就像一個不靠譜的老師拿著錯誤的標(biāo)準(zhǔn)答案去批改學(xué)生作業(yè)。

這就形成了一個雞生蛋蛋生雞的困境：我們需要可靠的測試來判斷代碼質(zhì)量，也需要可靠的代碼來判斷測試質(zhì)量，但兩者我們都沒有絕對的把握。現(xiàn)有的方法要么一視同仁地對待所有測試（就像把好老師和差老師的評價看得同樣重要），要么依靠一些粗糙的經(jīng)驗法則來篩選測試。

南京大學(xué)的研究團隊提出了一個巧妙的解決方案，他們開發(fā)了一套名為ACES（AUC一致性評分）的方法。這個方法的核心理念是："測試的價值不在于投票數(shù)量，而在于排序能力。"

一、破解循環(huán)依賴的巧妙思路

研究團隊意識到，評判測試質(zhì)量的關(guān)鍵不在于測試本身是否完全正確，而在于測試能否有效區(qū)分好代碼和差代碼。這就像評判一位美食評委的水平，不是看他能否說出每道菜的確切成分，而是看他能否準(zhǔn)確分辨出哪道菜更美味。

傳統(tǒng)的做法就像讓所有評委的評分都享有同等權(quán)重，無論這個評委是資深美食家還是味覺不敏感的普通人。但ACES方法采用了一種"留一法"的評估策略，就好比這樣一個場景：假設(shè)有10位評委在品嘗美食，我們先把其中9位評委的打分匯總，得出一個菜品排行榜，然后看剩下那位評委的評分是否與這個排行榜一致。如果這位評委總是把排名靠前的菜評得很高，把排名靠后的菜評得很低，那么他就是一個可靠的評委；反之，如果他的評分與大家的共識相矛盾，那么他的意見就不太值得信任。

這種方法的妙處在于完全不需要知道哪個代碼是絕對正確的，只需要利用測試之間的內(nèi)在一致性就能判斷每個測試的可靠程度。

二、數(shù)學(xué)原理的通俗解讀

研究團隊建立了一個重要的數(shù)學(xué)關(guān)系，他們稱之為"留一法AUC恒等式"。用大白話說，這個恒等式證明了：一個測試與其他測試的一致程度，與這個測試真正區(qū)分好壞代碼的能力成正比。

這就像發(fā)現(xiàn)了一個神奇的定律：如果一個美食評委的評分總是與其他資深評委保持一致，那么這個評委本身也很可能具備出色的味覺鑒別能力。這個定律讓我們可以通過觀察評委之間的一致性來推斷每個評委的專業(yè)水平，而不需要事先知道哪道菜是真正的美味佳肴。

基于這個數(shù)學(xué)原理，研究團隊開發(fā)了兩個互補的算法變體。第一個叫做ACES-C，采用封閉形式的權(quán)重計算，就像有一個固定的公式可以直接算出每個評委應(yīng)該享有多大的發(fā)言權(quán)。第二個叫做ACES-O，通過迭代優(yōu)化來調(diào)整權(quán)重，就像通過多輪磨合來逐步找到最佳的評委權(quán)重分配。

三、兩種方法的特點與適用場景

ACES-C方法具有簡潔高效的特點，它基于一個溫和的假設(shè)：平均而言，測試的質(zhì)量是正面的。當(dāng)這個假設(shè)成立時，ACES-C可以一步到位地計算出最優(yōu)權(quán)重，就像有經(jīng)驗的廚師能夠憑直覺調(diào)出完美的調(diào)料比例。這種方法特別適合測試質(zhì)量相對較高的場景，比如當(dāng)絕大多數(shù)測試都是有幫助的，只有少數(shù)測試存在問題時。

ACES-O方法則更加靈活，它不依賴于平均測試質(zhì)量的假設(shè)，而是通過迭代優(yōu)化來尋找最佳權(quán)重。這就像一個學(xué)習(xí)型的廚師，通過不斷嘗試和調(diào)整來找到最佳的調(diào)料搭配。當(dāng)測試質(zhì)量參差不齊，特別是存在較多誤導(dǎo)性測試時，ACES-O的迭代方法往往能夠取得更好的效果。

研究團隊通過一個生動的例子展示了兩種方法的互補性。在"簡單場景"中，10個測試?yán)镉?個是有幫助的，只有2個會誤導(dǎo)判斷。此時ACES-C就能輕松勝任，一步到位地識別出可靠的測試并給予合適的權(quán)重，最終實現(xiàn)完美的代碼排序。

但在"困難場景"中，10個測試?yán)镉?個有幫助的，4個是誤導(dǎo)性的，而且這4個誤導(dǎo)性測試的"破壞力"還很強。在這種情況下，ACES-C雖然能夠改善排序效果，但由于初始的測試質(zhì)量評估受到誤導(dǎo)性測試的干擾，其效果有限。而ACES-O通過多輪迭代，逐步識別出真正有價值的測試，最終實現(xiàn)了完美的代碼排序。

四、實驗驗證與性能表現(xiàn)

研究團隊在三個著名的代碼生成基準(zhǔn)數(shù)據(jù)集上進行了全面測試：HumanEval（164個編程問題）、HumanEval+（164個問題，但測試更嚴(yán)格）和MBPP（427個問題）。這些數(shù)據(jù)集就像編程界的"標(biāo)準(zhǔn)考試題庫"，被廣泛用于評估AI編程能力。

實驗使用了GPT-3.5-Turbo生成的候選代碼（約200個）和測試用例（約500個），然后比較各種方法在Pass@k指標(biāo)上的表現(xiàn)。Pass@k指標(biāo)衡量的是在前k個推薦代碼中找到至少一個正確解答的概率，這就像問"在你推薦的前k個答案中，至少有一個是對的概率有多大？"

結(jié)果令人印象深刻。在僅使用代碼執(zhí)行結(jié)果的方法中，ACES在所有基準(zhǔn)數(shù)據(jù)集上都取得了最佳性能。在HumanEval數(shù)據(jù)集的Pass@1指標(biāo)上，ACES-O達到了84.15%，相比直接使用GPT-3.5-Turbo提升了15.8個百分點，甚至超過了使用額外靜態(tài)分析信息的DS3方法（81.71%）。

更有趣的是，當(dāng)測試更加嚴(yán)格時（如HumanEval+數(shù)據(jù)集），ACES的優(yōu)勢更加明顯。這是因為嚴(yán)格的評估標(biāo)準(zhǔn)會增加誤導(dǎo)性測試的比例，而ACES恰好專長于處理這種復(fù)雜情況。在HumanEval+上，ACES-O比簡單多數(shù)投票法提升了4.88個百分點，而在原始HumanEval上的提升只有3.66個百分點。

當(dāng)ACES與其他互補技術(shù)結(jié)合時，效果更是錦上添花。將ACES與DS3的靜態(tài)分析方法結(jié)合后，在所有基準(zhǔn)數(shù)據(jù)集上都取得了最佳的整體表現(xiàn)，證明了ACES與其他技術(shù)路線的良好兼容性。

五、深入分析：為什么ACES更有效

研究團隊進行了詳細(xì)的分析實驗，揭示了ACES成功的深層原因。他們發(fā)現(xiàn)ACES的優(yōu)勢主要體現(xiàn)在對測試質(zhì)量的精準(zhǔn)識別上。

通過統(tǒng)計分析，研究團隊證實了一個重要發(fā)現(xiàn)：ACES權(quán)重的符號（正負(fù)）能夠準(zhǔn)確識別94.8%以上的有用測試。這就像一個經(jīng)驗豐富的美食評委，僅憑品嘗就能準(zhǔn)確判斷出絕大多數(shù)菜品的好壞。那些被誤判的測試大多數(shù)都是"邊界情況"，即區(qū)分能力很弱的測試，它們對最終排序的影響本來就很小。

更深入的分析顯示，ACES在處理誤導(dǎo)性測試時表現(xiàn)出了強大的魯棒性。當(dāng)研究團隊人為移除最具誤導(dǎo)性的測試時，傳統(tǒng)多數(shù)投票法的性能下降了0.056個百分點，而ACES-C只下降了0.049個百分點，ACES-O更是只下降了0.030個百分點。這說明ACES已經(jīng)自動識別并降低了這些有害測試的影響權(quán)重。

相反，當(dāng)移除最有幫助的測試時，ACES的性能下降更為明顯，說明它成功地識別并重點利用了這些高質(zhì)量的測試。這種不對稱的敏感性正是一個理想測試選擇算法應(yīng)該具備的特性。

六、方法的實用性與推廣潛力

ACES方法的一個突出優(yōu)點是其極高的實用性。兩種算法都只需要訪問代碼執(zhí)行的二進制結(jié)果矩陣（通過或失敗），不需要額外的代碼靜態(tài)分析、復(fù)雜的輸出比較或多次LLM調(diào)用。這使得ACES能夠作為一個即插即用的組件，輕松集成到現(xiàn)有的代碼生成流水線中。

計算開銷方面，ACES-C由于采用封閉式計算，幾乎沒有額外的時間成本，平均每個任務(wù)只需要9毫秒，相比基礎(chǔ)多數(shù)投票的4毫秒只增加了微不足道的開銷。ACES-O雖然需要迭代優(yōu)化，平均每個任務(wù)需要846毫秒，但仍然遠(yuǎn)小于代碼生成和執(zhí)行的時間成本，在實際應(yīng)用中完全可以接受。

研究團隊還測試了方法對數(shù)據(jù)規(guī)模的敏感性。實驗表明，即使測試數(shù)量較少（約100個），ACES也能發(fā)揮顯著作用。隨著測試數(shù)量增加，ACES的優(yōu)勢進一步擴大，而傳統(tǒng)多數(shù)投票法在50-100個測試后就趨于飽和。這說明ACES能夠更有效地利用大規(guī)模測試數(shù)據(jù)中蘊含的信息。

類似地，在候選代碼數(shù)量方面，ACES-C即使在候選代碼很少的情況下也能保持穩(wěn)定的性能，而ACES-O則隨著候選代碼增加表現(xiàn)越來越好，在大規(guī)模候選集上達到最佳效果。

七、理論貢獻與技術(shù)突破

從理論角度看，這項研究的最大貢獻是首次提供了一個可證明的準(zhǔn)則來識別信息豐富的測試與誤導(dǎo)性測試，而且完全基于二進制執(zhí)行結(jié)果。此前的方法要么將所有測試一視同仁，要么依賴啟發(fā)式規(guī)則，都缺乏堅實的理論基礎(chǔ)。

留一法AUC恒等式建立了測試一致性與其潛在判別能力之間的精確數(shù)學(xué)關(guān)系，為測試質(zhì)量評估提供了理論依據(jù)。這個理論突破使得我們能夠在不知道真實標(biāo)簽的情況下評估測試質(zhì)量，從而打破了代碼-測試質(zhì)量評估的循環(huán)依賴。

技術(shù)創(chuàng)新方面，ACES方法巧妙地將機器學(xué)習(xí)中的AUC概念引入到代碼生成領(lǐng)域，提供了一種全新的思路來解決代碼候選排序問題。兩個算法變體的設(shè)計也體現(xiàn)了理論嚴(yán)謹(jǐn)性與實用靈活性的良好平衡。

八、應(yīng)用前景與影響意義

ACES方法的應(yīng)用前景十分廣闊。在代碼生成領(lǐng)域，隨著大型語言模型能力的不斷提升，模型往往能夠生成大量候選解答，如何從中篩選出最佳答案成為關(guān)鍵瓶頸。ACES提供了一種輕量級、高效的解決方案，可以顯著提升代碼選擇的準(zhǔn)確性。

更廣泛地說，ACES背后的核心思想——通過內(nèi)部一致性評估來識別可靠評估者——可以推廣到其他存在類似循環(huán)依賴問題的領(lǐng)域。例如，在眾包標(biāo)注中評估標(biāo)注者質(zhì)量，在推薦系統(tǒng)中評估用戶反饋可靠性，在同行評議中評估評審專家水平等。

對于實際的軟件開發(fā)流程，ACES也具有潛在價值。當(dāng)開發(fā)者使用AI輔助編程工具時，ACES可以幫助自動篩選和排序AI生成的代碼建議，提升開發(fā)效率和代碼質(zhì)量。特別是在復(fù)雜編程任務(wù)中，AI可能生成數(shù)十個不同的實現(xiàn)方案，ACES能夠幫助快速識別最優(yōu)解。

研究團隊也指出了未來的改進方向。當(dāng)前的方法假設(shè)代碼和測試是獨立生成的，但在實際應(yīng)用中，它們之間可能存在關(guān)聯(lián)性。考慮這種關(guān)聯(lián)性可能進一步提升方法的性能。此外，將ACES的思想擴展到其他類型的"嘈雜評估者"場景，如LLM判官集合、眾包標(biāo)注和過程獎勵模型驗證等，也是值得探索的方向。

說到底，這項研究解決的是AI時代一個非常實際的問題：當(dāng)AI幫我們生成內(nèi)容時，如何自動判斷哪些內(nèi)容更可靠。無論是代碼、文本還是其他創(chuàng)作內(nèi)容，我們都面臨著類似的挑戰(zhàn)。ACES提供的"通過內(nèi)部一致性評估質(zhì)量"的思路，為這類問題提供了一個通用而有效的解決框架。對于正在廣泛使用AI工具的用戶來說，這種技術(shù)進步意味著AI助手將變得更加智能和可靠，能夠更好地為我們的工作和學(xué)習(xí)提供幫助。

Q&A

Q1：ACES方法具體是如何工作的？

A：ACES采用"留一法"評估策略，就像讓9個評委先評分排序，再看第10個評委的意見是否一致。如果某個測試總是與其他測試的共識保持一致，就說明它比較可靠，會獲得更高權(quán)重；如果總是與共識相矛盾，就會被降低權(quán)重。這樣不需要知道哪個代碼絕對正確，只通過測試之間的內(nèi)部一致性就能判斷測試質(zhì)量。

Q2：ACES-C和ACES-O有什么區(qū)別？

A：ACES-C是封閉式方法，有固定公式直接計算出權(quán)重，速度快但需要假設(shè)平均測試質(zhì)量較好；ACES-O是迭代優(yōu)化方法，通過多輪調(diào)整尋找最佳權(quán)重，更靈活但耗時稍長。當(dāng)測試質(zhì)量較高時ACES-C就夠用，當(dāng)存在很多誤導(dǎo)性測試時ACES-O效果更好。

Q3：這個方法對普通程序員有什么實際價值？

A：當(dāng)程序員使用AI編程助手時，AI通常會生成多個代碼方案，ACES可以自動識別最優(yōu)方案，提升開發(fā)效率。特別是在復(fù)雜編程任務(wù)中，AI可能給出數(shù)十種不同實現(xiàn)，ACES能快速篩選出最可靠的代碼，減少程序員的人工檢查工作，讓AI助手變得更智能可信。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.