![]()
這項由貝魯特美國大學與沙特阿拉伯阿卜杜拉國王科技大學聯合開展的研究,以論文預印本形式于2026年3月25日發布在arXiv平臺,編號為arXiv:2604.08570,并作為工作坊論文收錄于2026年國際學習表征會議(ICLR 2026)。有意深入了解的讀者可通過該編號查閱完整論文。
量子計算聽起來遙不可及,但它已經悄悄滲透進軟件開發的日常工作中。越來越多的程序員開始使用專門的量子編程框架——就像寫普通程序要用Python或Java一樣,寫量子程序也有自己的"語言工具箱"。目前最主流的三個工具箱分別叫做Qiskit、PennyLane和Cirq。面對這種新型編程需求,人們自然會想到一個問題:現在這些能寫代碼的人工智能(也就是我們常說的大語言模型,或LLM),到底能不能可靠地幫人寫出正確的量子程序?
偏偏大多數已有的測試都只在一個工具箱里打轉。這就好比你想招一個廚師,卻只考他用一個牌子的鍋能不能做出好菜——完全不知道換了別的鍋他會不會抓瞎。于是這支研究團隊決定設計一套更公平、更全面的考試,讓AI同時在三個框架下完成同樣的量子編程任務,看看誰真的會做量子計算,誰只是背熟了某一本菜譜。這套考試就是本文要介紹的QuanBench+。
一、量子程序為什么比普通程序更難測評
在正式介紹這套考試之前,有必要先說清楚,量子程序究竟有什么特別之處,讓它的測評比普通程序復雜得多。
普通程序的輸出是確定的:你輸入2加2,程序必然告訴你4,對錯一目了然。量子程序則不然。量子計算機的核心單位叫做"量子比特",它的神奇之處在于,它可以同時處于"0"和"1"的疊加狀態,只有當你去測量它的時候,它才會隨機坍縮成某個確定的結果。更準確地說,量子比特的狀態可以用一個數學式子來表達:一部分概率屬于"0",另一部分概率屬于"1",兩部分概率加起來等于100%。
這意味著量子程序每次運行的結果都可能不同,就像擲骰子一樣——你不能用"結果是否精確匹配"來判斷程序寫得對不對,而必須看它產生的"概率分布"是否正確。舉個例子,一個正確的量子程序在被運行1000次之后,大約有500次應該輸出"00",500次應該輸出"11";如果某個AI寫的程序運行1000次后,900次輸出"00",100次輸出"11",那它就是錯的,盡管它確實輸出了"00"這個答案。
正因為如此,研究團隊在設計測評標準時,沒有采用簡單的"答案對不對",而是引入了一種叫做KL散度(Kullback-Leibler Divergence)的數學工具來衡量概率分布之間的差距。你可以把它理解為"兩個骰子點數分布有多不相似"的量化工具。研究團隊對標準答案反復運行1000次,建立起一個參考分布,然后把AI生成的程序也運行一遍,比較兩個分布之間的差異。只要差異足夠小(具體閾值定為0.05),就認為AI寫的程序是正確的。
研究團隊還特別解釋了為什么他們不使用另一種常見的評分方式——"保真度"(Fidelity)。保真度衡量的是兩個電路在數學結構上有多像,但問題在于,兩個結構完全不同的量子電路,完全有可能產生完全相同的測量結果。就像烤蛋糕可以用烤箱也可以用氣炸鍋,最終的蛋糕可能一樣好吃,但做法天差地別。如果用"做法是否相同"來評判蛋糕好壞,就會冤枉很多好廚師。QuanBench+選擇的是只看"蛋糕好不好吃"——即最終程序運行的結果是否正確。
二、這套考試是怎么設計的
QuanBench+的內容來源于一個已有的量子代碼基準測試集,叫做QuanBench。研究團隊在此基礎上做了改造:他們剔除了兩道因為無法在三個框架之間進行統一評分而顯得模糊的題目,并對其余題目進行了適配,讓同一道題可以分別用Qiskit、PennyLane和Cirq三種框架來作答。最終保留下來的題目共42道,涵蓋三個大類。
第一類叫做"量子算法",包含31道題,是比重最大的一類。這類題目考察的是AI能否正確實現已知的量子算法或其子程序,相當于考試中的"綜合應用題",需要AI理解算法的邏輯并把它翻譯成代碼。第二類叫做"態制備",共6道題,考察的是如何構建電路使量子系統進入某個特定的量子態,就像考你能否按照配方調制出一杯特定成分的雞尾酒。第三類叫做"門分解",共5道題,考察的是如何把復雜的量子操作拆解成基本的量子門,類似于把一個復雜的機械動作分解成一系列標準手勢。
為了保證公平,研究團隊做了大量標準化工作。每道題在三個框架下給AI看的題目表述完全相同,只在庫的導入和API的調用方式上做了適應性調整——因為這三個框架的"語法"雖然目的相同,但寫法各異,就像同一道菜的中文菜譜和英文菜譜,內容一樣但表達方式不同。AI被明確要求只返回可執行的代碼,不需要附加任何解釋。需要輸入參數的題目,研究團隊提前隨機生成了一組固定的輸入,并在所有模型和框架中統一使用,確保比較的公平性。
測評流程分三步走:先從AI的回答里提取出可執行的代碼,然后在對應的框架環境中運行這段代碼,最后將運行結果與標準答案進行比對——確定性結果直接比對,概率性結果用KL散度比對。整個過程自動化完成,不需要人工干預。
三、參加考試的選手們
研究團隊邀請了12個當前最有代表性的大語言模型參與測評,既有頂級的商業閉源模型,也有開放權重的模型,覆蓋面相當廣。這些模型包括:來自谷歌DeepMind的Gemini 3 Pro和Gemini 2.5 Flash、來自OpenAI的GPT-5.1和GPT-4.1、來自Anthropic的Claude 3.7 Sonnet、來自DeepSeek的DeepSeek-R1和DeepSeek-Chat、來自Meta的Llama 4 Maverick、來自阿里巴巴的Qwen 2.5 7B Instruct、來自智譜AI的GLM 4.7、來自MiniMax的MiniMax M2.1,以及來自月之暗面的Kimi K2 Thinking。
所有模型運行在統一的Python 3.10環境下,使用Qiskit v0.46.0、Cirq v1.6.1和PennyLane v0.43.1三個固定版本的框架。評分指標主要有三個:Pass@1,即給AI一次機會,看它能答對多少題;Pass@5,即給AI五次機會,只要有一次答對就算通過;以及Pass@1(反饋修復后),即在一次作答失敗后,把錯誤信息反饋給AI,最多給它五次修正機會,看最終能答對多少題。對于Pass@1,模型采用貪婪解碼(溫度為0,即每次都選最可能的答案);對于Pass@5,模型以較高的隨機性(溫度為0.8)生成五個不同的答案。
四、考試結果:誰強誰弱,差距有多大
成績揭曉,最直觀的發現就是:框架的差異對AI的成績影響巨大,而且這個規律對幾乎所有模型都成立。
在單次作答(Pass@1)的成績中,Qiskit框架下的最高分由Gemini 3 Pro獲得,達到59.5%——也就是說,它能在第一次嘗試中答對42道題里的大約25道。Cirq框架下的最高分也是Gemini 3 Pro,達到54.8%。PennyLane框架下的最高分則由GPT-5.1摘得,為42.9%。換句話說,即便是當前最強的模型,在最擅長的框架下也只能做對一半左右,在最難的框架下甚至不到一半。
從整體排名來看,Gemini 3 Pro在三個框架的平均得分上領跑,主要因為它在Qiskit和Cirq兩個框架上表現突出。而GPT-5.1則在PennyLane上獨占鰲頭。幾乎所有模型都呈現出同一個規律:Qiskit得分最高,Cirq居中,PennyLane最低。這強烈暗示著,模型的表現很大程度上取決于它在訓練數據中接觸過多少該框架的代碼——Qiskit作為最老牌、應用最廣泛的框架,在互聯網上存在大量的示例代碼,所以AI對它最熟悉。
排名靠后的模型差距也相當顯著。Qwen 2.5 7B Instruct在Qiskit下只拿到16.7%,在Cirq下僅有4.8%,在PennyLane下是11.9%,說明小參數量的開源模型在量子代碼生成上還有很大的成長空間。
當允許生成五個答案、取其中最好的一個時(Pass@5),成績普遍有所提升,但框架之間的差距并沒有消失。GPT-5.1在Qiskit下從57.1%上升到76.2%,在PennyLane下從42.9%上升到57.1%,DeepSeek R1在PennyLane下從33.3%大幅躍升至59.5%。這說明,很多時候AI其實"知道"正確答案,只是在單次生成時不夠穩定,沒能恰好選對那個答案。
五、提前告訴AI用哪個框架,有沒有用
研究團隊還做了一個額外的實驗:在題目中提前給AI提供正確的庫導入語句、函數簽名和基本框架代碼(這種做法叫做"預填充"或prefill),與完全讓AI從零開始生成的情況進行對比。
結果顯示,預填充確實有用,但主要幫的是那些中等水平的模型,以及在PennyLane這類不太常見的框架上。對于頂級模型來說,預填充帶來的提升就小得多。這說明預填充的主要作用在于減少"框架摩擦"——比如忘記導入某個庫、函數簽名寫錯格式之類的低級錯誤——而不是幫助AI理解量子算法本身的邏輯。換句話說,給AI搭好架子,它就不會因為忘記搭架子而出錯,但如果AI從根本上不理解這道題的量子邏輯,給它搭好架子也沒用。
在Cirq框架下,預填充同樣帶來了明顯的改善,尤其是在中間層次的模型中,排名出現了一些變化。在Qiskit下,預填充的效果相對沒那么統一,對強模型和弱模型的影響程度參差不齊。
六、給AI一個改錯機會,成績能提高多少
這項研究最引人關注的部分之一,是測試了一個"反饋修復"機制:當AI第一次寫的代碼運行出錯或答案不對時,系統會把錯誤信息(比如報錯的堆棧信息,或者"你給出的概率分布與標準答案差太遠了"這樣的提示)反饋給AI,然后讓它再試一次,最多給五次修正機會。
反饋修復的效果非常顯著。GPT-5.1在Qiskit下的得分從57.1%躍升到83.3%,Gemini 3 Pro在Cirq下從54.8%升到76.2%,GPT-5.1和Gemini 3 Pro在PennyLane下都從40-42%范圍升到66.7%。這種提升不是個別強模型的專利,幾乎整個排行榜的中間層次也都有顯著改善。
從修復的軌跡來看,大多數改善發生在第一次到第二次反饋之間,之后每一輪的邊際收益逐漸遞減。到了第四、第五輪,曲線已經明顯趨于平緩。Qiskit框架下的強模型飽和得更快,而PennyLane和Cirq框架下的模型則往往在第四、第五輪還有一些零散的改善空間。
反饋修復之所以有效,關鍵在于錯誤的類型。研究團隊分析了所有第一次作答失敗的情況,發現錯誤主要分為以下幾類:答案本身就是錯的(錯誤分布,占46.7%)、邏輯錯誤(25.0%)、缺少正確的方法或量子門(11.8%)、輸出形狀不匹配(8.0%)、語法錯誤(4.7%)、以及量子比特規格錯誤(3.9%)。總計977個失敗案例。
當把錯誤信息告訴AI之后,那些屬于"語法錯誤"、"缺少正確方法"、"量子比特規格寫錯"之類的具體、明確的錯誤很容易被修復——AI看到報錯信息就知道哪里寫錯了,自然可以改對。但那些屬于"答案本身就是錯的"和"邏輯錯誤"的情況,就算給了五次機會,也往往依然無法修復。
經過五輪反饋修復后,錯誤總數從977個降低到665個,減少了約32%。但在這665個剩余錯誤中,"答案本身就是錯的"的比例從46.7%上升到53.4%,"邏輯錯誤"從25.0%降到22.0%,而"缺少正確方法"從11.8%暴跌到3.8%,"語法錯誤"從4.7%驟降到1.5%。這個變化說明:反饋修復擅長解決"能看見的毛病",修不了"腦子里的誤解"。
七、分任務來看,哪些題最難
研究團隊還提供了按每道題展開的熱力圖,讓我們可以看到哪些具體任務對所有模型都構成挑戰,哪些任務幾乎所有模型都能輕松通過。
在Qiskit框架的熱力圖中,成績較好的模型(如Gemini 3 Pro、GPT-5.1)呈現出一片連續的"深色區域",說明它們能覆蓋相當多的任務,但仍然有幾列任務ID對應的格子是空白的——這些列代表著幾乎所有模型都無法解決的難題。PennyLane的熱力圖則整體稀疏得多,深色區域明顯少于Qiskit,即便是最強的模型也有大片空白。Cirq的熱力圖介于二者之間,比PennyLane稠密,但不及Qiskit完整。
到了Pass@5的熱力圖,可以看到很多原本空白的格子變成了深色,說明這些任務并非"完全不可能",只是在單次生成時AI不夠穩定。Pass@5把這部分不穩定的能力也統計進來了,因此整體覆蓋面更廣。經過反饋修復的熱力圖則是三個版本中最稠密的,但那些對所有模型都頑固空白的列,基本上在反饋修復之后也還是空白的——這些就是那批更深層次的、語義層面的錯誤。
說到底,這項研究想回答的核心問題,不是"AI到底強不強",而是"AI到底在哪里強、在哪里弱,以及這種強弱是因為真懂量子計算,還是只是背熟了某一套工具書"。得到的答案是:很可能大部分是后者。
同一道量子算法題,AI在Qiskit下能寫對,換到PennyLane就寫不對,這不太可能是因為AI突然忘記了量子力學的基本原理——更可能的解釋是,AI在訓練數據里見過大量Qiskit代碼,所以知道怎么用Qiskit的API把算法表達出來;但它見過的PennyLane代碼相對少,不知道那套API的寫法,就容易出錯。這是一種框架知識的不對稱,而不是量子知識的不對稱。
歸根結底,這項研究傳遞的信息是:當前最強的AI在量子編程上確實取得了實質性進展,但要說"可靠",還差得遠。最好的模型在最容易的框架里也只有不到六成的一次通過率,在最難的框架里只有四成多,即便給了反饋修復機會,最高也只能到83%。這說明至少有近兩成的任務是AI無論如何都搞不定的。未來要提升AI在量子編程上的能力,光靠把模型做得更大、參數更多可能還不夠,還需要更多高質量的量子編程訓練數據、更好的跨框架泛化能力,以及真正理解量子邏輯而非死記硬背API的推理機制。
這項研究的代碼和數據集已開放在GitHub平臺,感興趣的讀者可通過原論文(arXiv:2604.08570)找到對應的代碼倉庫地址,進一步探索。
Q&A
Q1:QuanBench+和普通代碼測試基準有什么不同?
A:QuanBench+專門針對量子程序的特殊性做了設計。普通程序輸出是確定的,對錯一目了然;量子程序每次運行的結果是隨機的概率分布,因此QuanBench+引入KL散度來衡量AI生成的分布與標準答案的差距,而不是簡單比對輸出值。此外,QuanBench+同時覆蓋Qiskit、PennyLane和Cirq三個框架,可以區分AI是真正懂量子邏輯,還是只熟悉某一套特定API。
Q2:為什么PennyLane比Qiskit更難讓AI寫對?
A:最可能的原因是訓練數據的數量差異。Qiskit是目前最成熟、用戶最多的量子框架,互聯網上存在大量相關代碼示例,AI在訓練時接觸更多,自然對其API更熟悉。PennyLane相對較新、用戶群體較小,訓練數據中涉及它的代碼更少,AI在使用時更容易出現API調用錯誤或框架習慣不匹配的問題,導致整體成績最低。
Q3:反饋修復機制對量子代碼生成的提升有多大?
A:反饋修復的提升相當顯著,但有明顯的上限。以最強的GPT-5.1為例,在Qiskit框架下得分從57.1%提升到83.3%,提升幅度超過26個百分點。不過大部分提升集中在第一次到第二次修復之間,之后收益遞減。最重要的是,那些屬于量子邏輯錯誤或算法理解錯誤的失敗案例,無論給多少次修復機會都很難改正,這也是當前AI量子編程能力的核心瓶頸所在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.