![]()
DeepMind 聯(lián)合創(chuàng)始人、2024 年諾貝爾化學(xué)獎(jiǎng)得主 Demis Hassabis 曾談到,他一直將 AI 視為推動(dòng)知識(shí)前沿的重要工具。AI 可以幫助科學(xué)家處理復(fù)雜數(shù)據(jù)、發(fā)現(xiàn)隱藏模式,也可能在未來參與更深層的科學(xué)探索。
要走向這樣的目標(biāo),科學(xué)智能體在回答科學(xué)問題之外,更需要有能力處理科學(xué)工作流。在真實(shí)的科學(xué)場(chǎng)景中,研究者需要檢索數(shù)據(jù)庫(kù)、調(diào)用專業(yè)軟件、執(zhí)行計(jì)算、分析結(jié)果,并根據(jù)反饋不斷修正方向。科學(xué)推理不只發(fā)生在語言空間中,也發(fā)生在工具調(diào)用、環(huán)境反饋和錯(cuò)誤恢復(fù)的過程中。
這也對(duì)評(píng)測(cè)提出了新的要求。評(píng)估科學(xué)智能體,需要觀察它能否在復(fù)雜工具環(huán)境中穩(wěn)定、有效地完成多步任務(wù)。正是在這一背景下,復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室提出了SciAgentGym,一個(gè)專為多步科學(xué)工具使用而設(shè)計(jì)的智能體環(huán)境,用于評(píng)估模型在復(fù)雜科學(xué)工作流中的執(zhí)行能力、反饋處理能力和任務(wù)完成能力。
![]()
- 論文標(biāo)題:SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
- 論文地址:https://arxiv.org/pdf/2602.12984
- 項(xiàng)目網(wǎng)站:https://sciagentgym.github.io/
SciAgentGym:為科學(xué)智能體搭建工作流環(huán)境
SciAgentGym 為 Agent 提供了一個(gè)可交互、可執(zhí)行、可反饋的科學(xué)環(huán)境。
這個(gè)環(huán)境由四類基礎(chǔ)設(shè)施組成:專業(yè)工具庫(kù)、文件系統(tǒng)、科學(xué)數(shù)據(jù)庫(kù)和 Python 解釋器。模型在任務(wù)過程中可以調(diào)用科學(xué)工具、執(zhí)行代碼、查詢數(shù)據(jù)庫(kù),也可以讀取環(huán)境返回的結(jié)果、報(bào)錯(cuò)信息和中間文件。每個(gè)任務(wù)都擁有獨(dú)立的工具注冊(cè)、文件系統(tǒng)和執(zhí)行歷史,從而讓模型真正處在一個(gè)科學(xué)工作空間中。
為了讓這個(gè)環(huán)境能夠承載復(fù)雜科學(xué)任務(wù),SciAgentGym 在設(shè)計(jì)上強(qiáng)調(diào)了三個(gè)原則。
首先是Type Safety,也就是類型安全。科學(xué)工具之間并不是隨意連接的。一個(gè)工具可能輸出分子式,另一個(gè)工具需要蛋白結(jié)構(gòu);一個(gè)工具返回矩陣,另一個(gè)工具只能接收三維向量。SciAgentGym 為工具定義明確的輸入輸出類型,使環(huán)境能夠檢查每次調(diào)用是否合法,也能判斷工具之間是否可以自然銜接。
其次是Reproducibility,即可復(fù)現(xiàn)性。模型的每一次工具調(diào)用、每一個(gè)中間結(jié)果和每一次環(huán)境反饋,都會(huì)被記錄成結(jié)構(gòu)化軌跡。最終評(píng)測(cè)得到的不只是一個(gè)答案,還包括模型完成任務(wù)的全過程。
第三是Extensibility,也就是可擴(kuò)展性。SciAgentGym 中的工具按照學(xué)科和標(biāo)準(zhǔn)協(xié)議組織,便于后續(xù)接入新的領(lǐng)域工具。論文中,研究團(tuán)隊(duì)將 RDKit、ASE、SciPy、BioPython、PyMatGen 等成熟科學(xué)計(jì)算包封裝成各種工具,再按照計(jì)算、分析、可視化和查詢等功能類別進(jìn)行組織,并通過自動(dòng)化單元測(cè)試篩選工具質(zhì)量。
SciAgentGym 的設(shè)計(jì)旨在為科學(xué)智能體搭建一個(gè)能夠承載科學(xué)工作流的執(zhí)行環(huán)境。在這樣的環(huán)境中,模型需要理解工具依賴、管理中間狀態(tài)、利用環(huán)境反饋,并把多個(gè)步驟組織成一條連續(xù)的科學(xué)任務(wù)流程。
![]()
圖:SciAgentGym 總體框架。左側(cè)為科學(xué)環(huán)境與工具系統(tǒng),右側(cè)展示 SciAgentBench 評(píng)測(cè)、Agent Interface 交互和 SciForge 訓(xùn)練流程。
SciAgentBench:評(píng)測(cè)模型能否完成長(zhǎng)程科學(xué)任務(wù)
在基礎(chǔ)環(huán)境之后,下一個(gè)關(guān)鍵問題是:當(dāng)前大模型在復(fù)雜科學(xué)工作流中的能力邊界在哪里?
SciAgentBench正是為此設(shè)計(jì)的評(píng)測(cè)集。它包含 259 個(gè)任務(wù)、1,134 個(gè)子問題,覆蓋物理、化學(xué)、材料科學(xué)和生命科學(xué)四個(gè)領(lǐng)域。這些任務(wù)經(jīng)過了一套篩選與驗(yàn)證流程。因?yàn)檠芯繄F(tuán)隊(duì)希望保留下來的任務(wù)不能僅靠模型記憶或常識(shí)直接回答,而且需要模型在 SciAgentGym 環(huán)境中持續(xù)調(diào)用工具、讀取反饋,并逐步推進(jìn)任務(wù)。
為了刻畫不同任務(wù)的復(fù)雜度,SciAgentBench 將任務(wù)劃分為三個(gè)層級(jí)。
L1是基礎(chǔ)任務(wù),不超過 3 步,主要考察模型能否完成較短的工具調(diào)用流程。
L2是中等復(fù)雜度任務(wù),需要 4 到 7 步,模型必須開始組合多個(gè)工具,并管理更多中間狀態(tài)。
L3則是長(zhǎng)程任務(wù),需要 8 步以上,更接近真實(shí)科學(xué)工作流。模型不僅要規(guī)劃多個(gè)步驟,還要在執(zhí)行過程中處理反饋、修正錯(cuò)誤,并保持整體任務(wù)目標(biāo)不偏離。
在整個(gè) SciAgentBench 中,L2 和 L3 任務(wù)合計(jì)占79%。其重點(diǎn)主要在于考察模型能否在更長(zhǎng)的任務(wù)鏈條中保持穩(wěn)定。
此外,約65%的任務(wù)包含多模態(tài)輸入,例如分子結(jié)構(gòu)圖、光譜數(shù)據(jù)、相圖和實(shí)驗(yàn)圖像。這一點(diǎn)也很貼近真實(shí)科學(xué)研究的場(chǎng)景:研究者在解決問題時(shí),往往不會(huì)只看一段文字,而是需要同時(shí)理解圖像、表格、實(shí)驗(yàn)數(shù)據(jù)和工具返回的中間結(jié)果。
在評(píng)測(cè)指標(biāo)上,論文使用了兩個(gè)主要指標(biāo):Success Rate 和 Success Weighted by Path Length。
前者衡量模型是否成功完成整個(gè)任務(wù);后者則進(jìn)一步考慮完成任務(wù)的效率。若模型在完成任務(wù)時(shí)反復(fù)嘗試無效路徑、調(diào)用不必要的工具,即便最終答對(duì),它的效率得分也會(huì)下降。科學(xué)智能體不僅要能得到答案,還要能以相對(duì)更加快速直接的方式得到答案。
![]()
圖:在 SciAgentBench 下的測(cè)試結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,工具確實(shí)能帶來幫助。總體來看,模型在接入工具后,平均成功率從23.3%提升到28.3%。這說明,在真實(shí)科學(xué)任務(wù)中,外部工具依然非常重要。僅靠模型內(nèi)部知識(shí),很難替代科學(xué)計(jì)算、數(shù)據(jù)庫(kù)查詢和專業(yè)軟件帶來的精確能力。
但更值得注意的是,模型一旦進(jìn)入長(zhǎng)流程任務(wù),性能會(huì)明顯下降。以 GPT-5 為例,它在帶工具設(shè)置下的整體成功率為41.3%。但如果按任務(wù)難度拆開看,L1 成功率為58.8%,到了 L3 則下降到34.6%。這種下降并不是某一個(gè)模型的個(gè)例,而是幾乎所有模型都會(huì)遇到的問題。所有模型平均來看,L1 成功率為47.4%,L3 只有16.4%。
這說明,當(dāng)前模型已經(jīng)具備一定的工具使用能力,但要穩(wěn)定完成長(zhǎng)程科學(xué)工作流,仍然非常困難。短流程任務(wù)中,模型只需要做出少數(shù)幾次正確決策;而在長(zhǎng)流程任務(wù)中,它需要連續(xù)完成多個(gè)環(huán)節(jié):理解問題、選擇工具、設(shè)置參數(shù)、讀取反饋、轉(zhuǎn)換格式、繼續(xù)執(zhí)行。任何一個(gè)環(huán)節(jié)出錯(cuò),都可能影響后續(xù)所有步驟。
![]()
圖:SciAgentBench 下的模型行為分析。進(jìn)一步從工具調(diào)用效率、反饋利用能力和長(zhǎng)程錯(cuò)誤恢復(fù)三個(gè)角度分析模型在科學(xué)工作流中的表現(xiàn)。結(jié)果顯示,當(dāng)前模型的瓶頸并不只是 “會(huì)不會(huì)調(diào)用工具”,而是能否在多步執(zhí)行中有效理解環(huán)境反饋、調(diào)整行動(dòng)路線,并持續(xù)推進(jìn)任務(wù)。
論文還觀察到一個(gè)很有意思的現(xiàn)象:工具調(diào)用次數(shù)多,并不代表模型更會(huì)使用工具。
有些模型會(huì)頻繁調(diào)用工具,但成功率并不高。原因在于,它們并沒有真正理解工具返回的反饋,而是在報(bào)錯(cuò)后不斷重復(fù)相似操作,或者只是機(jī)械地調(diào)整參數(shù)。相比之下,一些更強(qiáng)的模型雖然調(diào)用次數(shù)更少,卻能更有效地利用中間結(jié)果,較快判斷下一步應(yīng)該怎么做。
這也揭示了科學(xué)智能體的一個(gè)關(guān)鍵能力,即有效使用環(huán)境反饋。
在真實(shí)科學(xué)工作流中,工具反饋往往承載著非常重要的信息。報(bào)錯(cuò)可能提示輸入格式不對(duì)、參數(shù)缺失,或者工具選擇本身不合適;中間結(jié)果也可能提示當(dāng)前路線是否有效,是否足以支持下一步推理。模型如果不能讀懂這些反饋,就容易在長(zhǎng)流程中反復(fù)試錯(cuò),甚至陷入無效循環(huán)。
這樣的結(jié)果強(qiáng)調(diào)了雖然當(dāng)前大模型已經(jīng)具備一定的科學(xué)工具使用能力,但距離穩(wěn)定、可靠地完成真實(shí)科學(xué)工作流,仍有明顯差距。
SciForge:讓模型從可執(zhí)行軌跡中學(xué)習(xí)
在 SciAgentBench 評(píng)估模型在長(zhǎng)程科學(xué)工作流中的表現(xiàn)之后,論文進(jìn)一步提出SciForge,用于構(gòu)建面向科學(xué)工具使用的訓(xùn)練數(shù)據(jù)。
SciForge 的基本思路是:科學(xué)智能體需要學(xué)習(xí)的不只是最終答案,還包括完成任務(wù)的過程。在真實(shí)科學(xué)研究中,一條工作流往往包含多個(gè)環(huán)節(jié):選擇工具、調(diào)用工具、讀取中間結(jié)果、理解環(huán)境反饋,并在出錯(cuò)時(shí)調(diào)整下一步操作。
圍繞這一點(diǎn),SciForge 從科學(xué)工具之間的輸入輸出關(guān)系出發(fā),構(gòu)造可能的工作流,并將這些工作流放入 SciAgentGym 環(huán)境中實(shí)際運(yùn)行。能夠執(zhí)行并產(chǎn)生有效結(jié)果的軌跡,會(huì)被保留下來作為訓(xùn)練數(shù)據(jù)。
這些軌跡不僅包含順利完成任務(wù)的過程,也包含一部分錯(cuò)誤與修正過程。例如,工具調(diào)用失敗、參數(shù)設(shè)置不當(dāng)、輸入格式不匹配等情況,都會(huì)以環(huán)境反饋的形式出現(xiàn)在軌跡中。模型可以從這些數(shù)據(jù)中學(xué)習(xí)如何根據(jù)反饋調(diào)整后續(xù)操作,而不是只學(xué)習(xí)一條理想化的執(zhí)行路徑。
實(shí)驗(yàn)結(jié)果顯示,基于 SciForge 數(shù)據(jù)訓(xùn)練后,SciAgent-8B在 SciAgentBench 上達(dá)到30.1%成功率,超過了更大規(guī)模的Qwen3-VL-235B-Instruct;SciAgent-4B也達(dá)到25.2%,相比基座模型有所提升。
![]()
圖:SciForge 訓(xùn)練效果。隨著訓(xùn)練軌跡數(shù)量增加,模型在工具增強(qiáng)任務(wù)中的表現(xiàn)持續(xù)提升;缺少錯(cuò)誤恢復(fù)過程或使用非科學(xué)工具數(shù)據(jù)時(shí),訓(xùn)練效果會(huì)受到影響。
這一結(jié)果說明,對(duì)于科學(xué)智能體而言,科學(xué)工具調(diào)用的過程數(shù)據(jù)非常重要。可執(zhí)行軌跡為模型提供了關(guān)于工具依賴、數(shù)據(jù)精度、反饋利用等一系列科學(xué)工具調(diào)用的經(jīng)驗(yàn),使模型能夠在訓(xùn)練中接觸更接近真實(shí)科學(xué)工作的任務(wù)結(jié)構(gòu)。
展望:下一步,AI 科學(xué)家
斯坦福研究者 Surya Ganguli 在談到 AI 與科學(xué)發(fā)現(xiàn)時(shí)提到,AI 會(huì)推動(dòng)新的科學(xué)發(fā)現(xiàn),而科學(xué)應(yīng)用對(duì)嚴(yán)謹(jǐn)性的要求,也會(huì)反過來推動(dòng)更好的 AI。放在科學(xué)智能體的語境中,這一點(diǎn)尤其值得關(guān)注。真正進(jìn)入科學(xué)研究場(chǎng)景后,模型面對(duì)的是海量的資料數(shù)據(jù)與無限開放探索的過程。
面向開放式科學(xué)發(fā)現(xiàn),讓模型先在具體科學(xué)工作流中學(xué)會(huì)可靠執(zhí)行,再逐步提升它參與復(fù)雜科學(xué)研究的能力,可能是一條很有潛力的路徑。我們期許未來的 AI 科學(xué)家能在這種交互中逐漸成形。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.