網易首頁 > 網易號 > 正文 申請入駐

AI 寫代碼太快,人類測試跟不上了,Meta 用新方法把 bug 檢出率提升 4 倍

0
分享至


作者 | Leela Kumili

譯者 | 田橙

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據 Meta 的工程博客及相關研究,這一方法在 AI 輔助開發環境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統越來越多地生成或修改大段代碼。在這種環境下,傳統測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態驗證不同,該系統會推斷開發者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現了一種根本性的轉變:不再只是讓現有測試更穩,而是轉向去發現未來可能出現的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統會分析 diff,以提取行為意圖和風險區域,然后執行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現結果。

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據 Meta 的工程博客及相關研究,這一方法在 AI 輔助開發環境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統越來越多地生成或修改大段代碼。在這種環境下,傳統測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態驗證不同,該系統會推斷開發者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現了一種根本性的轉變:不再只是讓現有測試更穩,而是轉向去發現未來可能出現的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統會分析 diff,以提取行為意圖和風險區域,然后執行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現結果。


Dodgy diff 和意圖感知工作流用于生成即時捕獲(Just-in-Time Catches)的架構

Meta 表示,該系統在超過 22,000 個生成測試上進行了評估。結果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結果相比,在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中,共識別出 41 個問題,其中 8 個被確認是真實缺陷,包括若干可能影響生產環境的問題。

Mark Harman 在另一篇 LinkedIn 帖子 中強調:

變異測試在學術圈沉寂了幾十年之后,終于開始走向工業界,并正在重塑實用且可擴展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅動的開發設計,按每次變更生成,用于在無需持續維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉移到機器,從而減少脆弱的測試套件。只有在發現有意義的問題時才需要人工審查。這將測試從靜態正確性驗證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本政府圖謀出口二手武器,不斷突破“紅線”引擔憂

日本政府圖謀出口二手武器,不斷突破“紅線”引擔憂

參考消息
2026-04-26 20:00:08
西班牙反了!法國反了!印度也要反,全世界都看清特朗普最怕啥

西班牙反了!法國反了!印度也要反,全世界都看清特朗普最怕啥

杰絲聊古今
2026-04-07 11:57:43
國內將逐步淘汰白內障手術?做完人就瞎了?醫生告訴你真相

國內將逐步淘汰白內障手術?做完人就瞎了?醫生告訴你真相

健康之光
2026-03-12 13:55:08
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
白嫖DeepSeek V4 Pro!免費無限用,還能接入Claude-Code,星哥親測教程

白嫖DeepSeek V4 Pro!免費無限用,還能接入Claude-Code,星哥親測教程

星哥玩云
2026-04-27 16:30:45
重慶這些區縣真要合并?扒完真相,別再信“主城21區大變16區”了

重慶這些區縣真要合并?扒完真相,別再信“主城21區大變16區”了

荷蘭豆愛健康
2026-04-28 00:35:48
竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

老好人的憤怒
2026-04-27 08:07:21
楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

八斗小先生
2026-04-23 10:25:23
堪比光刻機?半導體真正的“卡脖子”材料是這12種!

堪比光刻機?半導體真正的“卡脖子”材料是這12種!

Thurman在昆明
2026-04-26 10:06:56
哎!居然是跟腱斷裂!!

哎!居然是跟腱斷裂!

柚子說球
2026-04-27 12:34:08
AI跪了:圍棋的上帝,是300年前的古人!

AI跪了:圍棋的上帝,是300年前的古人!

我不叫阿哏
2026-04-27 12:33:03
直屏剛火 蘋果帶頭重返四曲屏時代 網友:潮流果真是一個輪回

直屏剛火 蘋果帶頭重返四曲屏時代 網友:潮流果真是一個輪回

快科技
2026-04-25 19:54:03
爺爺4套學區房全給堂弟,我八十大壽回:護照已剪祝你們吃得開心

爺爺4套學區房全給堂弟,我八十大壽回:護照已剪祝你們吃得開心

蘭姐說故事
2026-03-30 10:30:15
12-13,奧沙利文遭絕殺!13-11,吳宜澤爆冷塞爾比!世錦賽神劇本

12-13,奧沙利文遭絕殺!13-11,吳宜澤爆冷塞爾比!世錦賽神劇本

大秦壁虎白話體育
2026-04-28 00:07:17
18倍牛股一季度凈利增長11倍,這個產業也景氣度高

18倍牛股一季度凈利增長11倍,這個產業也景氣度高

每日經濟新聞
2026-04-27 22:37:49
性與愛,最怕過期。

性與愛,最怕過期。

劉娜
2026-04-27 08:20:15
85億敗光!王中磊街頭吃湯圓,兒子卻在美揮霍

85億敗光!王中磊街頭吃湯圓,兒子卻在美揮霍

鄉野小珥
2026-04-28 02:02:38
莫氏清暉園店又即將開業啦!

莫氏清暉園店又即將開業啦!

廣州正嘢
2026-04-27 15:32:26
交管12123 “綠拇指” 火了!連續3年無扣分,交強險低至475元 +免審

交管12123 “綠拇指” 火了!連續3年無扣分,交強險低至475元 +免審

趣味萌寵的日常
2026-04-25 20:08:00
深圳一網紅餐廳十余家門店突然撤店,商家無法聯系

深圳一網紅餐廳十余家門店突然撤店,商家無法聯系

深圳晚報
2026-04-27 12:28:02
2026-04-28 02:48:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12309文章數 51863關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

時尚
教育
藝術
本地
公開課

絲巾的10種系法,愛美的女人必看

教育要聞

你不說這是計算障礙,我真以為我是智障呢

藝術要聞

他的油畫筆觸粗獷又細膩,透著一種不可言說的美!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版