網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從答題到做實(shí)驗(yàn)：SciAgentGym讓大模型進(jìn)入科學(xué)工作流

2026-07-02 13:02:57　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

DeepMind 聯(lián)合創(chuàng)始人、2024 年諾貝爾化學(xué)獎(jiǎng)得主 Demis Hassabis 曾談到，他一直將 AI 視為推動(dòng)知識(shí)前沿的重要工具。AI 可以幫助科學(xué)家處理復(fù)雜數(shù)據(jù)、發(fā)現(xiàn)隱藏模式，也可能在未來參與更深層的科學(xué)探索。

要走向這樣的目標(biāo)，科學(xué)智能體在回答科學(xué)問題之外，更需要有能力處理科學(xué)工作流。在真實(shí)的科學(xué)場(chǎng)景中，研究者需要檢索數(shù)據(jù)庫(kù)、調(diào)用專業(yè)軟件、執(zhí)行計(jì)算、分析結(jié)果，并根據(jù)反饋不斷修正方向。科學(xué)推理不只發(fā)生在語言空間中，也發(fā)生在工具調(diào)用、環(huán)境反饋和錯(cuò)誤恢復(fù)的過程中。

這也對(duì)評(píng)測(cè)提出了新的要求。評(píng)估科學(xué)智能體，需要觀察它能否在復(fù)雜工具環(huán)境中穩(wěn)定、有效地完成多步任務(wù)。正是在這一背景下，復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室提出了SciAgentGym，一個(gè)專為多步科學(xué)工具使用而設(shè)計(jì)的智能體環(huán)境，用于評(píng)估模型在復(fù)雜科學(xué)工作流中的執(zhí)行能力、反饋處理能力和任務(wù)完成能力。

論文標(biāo)題：SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
論文地址：https://arxiv.org/pdf/2602.12984
項(xiàng)目網(wǎng)站：https://sciagentgym.github.io/

SciAgentGym：為科學(xué)智能體搭建工作流環(huán)境

SciAgentGym 為 Agent 提供了一個(gè)可交互、可執(zhí)行、可反饋的科學(xué)環(huán)境。

這個(gè)環(huán)境由四類基礎(chǔ)設(shè)施組成：專業(yè)工具庫(kù)、文件系統(tǒng)、科學(xué)數(shù)據(jù)庫(kù)和 Python 解釋器。模型在任務(wù)過程中可以調(diào)用科學(xué)工具、執(zhí)行代碼、查詢數(shù)據(jù)庫(kù)，也可以讀取環(huán)境返回的結(jié)果、報(bào)錯(cuò)信息和中間文件。每個(gè)任務(wù)都擁有獨(dú)立的工具注冊(cè)、文件系統(tǒng)和執(zhí)行歷史，從而讓模型真正處在一個(gè)科學(xué)工作空間中。

為了讓這個(gè)環(huán)境能夠承載復(fù)雜科學(xué)任務(wù)，SciAgentGym 在設(shè)計(jì)上強(qiáng)調(diào)了三個(gè)原則。

首先是Type Safety，也就是類型安全。科學(xué)工具之間并不是隨意連接的。一個(gè)工具可能輸出分子式，另一個(gè)工具需要蛋白結(jié)構(gòu)；一個(gè)工具返回矩陣，另一個(gè)工具只能接收三維向量。SciAgentGym 為工具定義明確的輸入輸出類型，使環(huán)境能夠檢查每次調(diào)用是否合法，也能判斷工具之間是否可以自然銜接。

其次是Reproducibility，即可復(fù)現(xiàn)性。模型的每一次工具調(diào)用、每一個(gè)中間結(jié)果和每一次環(huán)境反饋，都會(huì)被記錄成結(jié)構(gòu)化軌跡。最終評(píng)測(cè)得到的不只是一個(gè)答案，還包括模型完成任務(wù)的全過程。

第三是Extensibility，也就是可擴(kuò)展性。SciAgentGym 中的工具按照學(xué)科和標(biāo)準(zhǔn)協(xié)議組織，便于后續(xù)接入新的領(lǐng)域工具。論文中，研究團(tuán)隊(duì)將 RDKit、ASE、SciPy、BioPython、PyMatGen 等成熟科學(xué)計(jì)算包封裝成各種工具，再按照計(jì)算、分析、可視化和查詢等功能類別進(jìn)行組織，并通過自動(dòng)化單元測(cè)試篩選工具質(zhì)量。

SciAgentGym 的設(shè)計(jì)旨在為科學(xué)智能體搭建一個(gè)能夠承載科學(xué)工作流的執(zhí)行環(huán)境。在這樣的環(huán)境中，模型需要理解工具依賴、管理中間狀態(tài)、利用環(huán)境反饋，并把多個(gè)步驟組織成一條連續(xù)的科學(xué)任務(wù)流程。

圖：SciAgentGym 總體框架。左側(cè)為科學(xué)環(huán)境與工具系統(tǒng)，右側(cè)展示 SciAgentBench 評(píng)測(cè)、Agent Interface 交互和 SciForge 訓(xùn)練流程。

SciAgentBench：評(píng)測(cè)模型能否完成長(zhǎng)程科學(xué)任務(wù)

在基礎(chǔ)環(huán)境之后，下一個(gè)關(guān)鍵問題是：當(dāng)前大模型在復(fù)雜科學(xué)工作流中的能力邊界在哪里？

SciAgentBench正是為此設(shè)計(jì)的評(píng)測(cè)集。它包含 259 個(gè)任務(wù)、1,134 個(gè)子問題，覆蓋物理、化學(xué)、材料科學(xué)和生命科學(xué)四個(gè)領(lǐng)域。這些任務(wù)經(jīng)過了一套篩選與驗(yàn)證流程。因?yàn)檠芯繄F(tuán)隊(duì)希望保留下來的任務(wù)不能僅靠模型記憶或常識(shí)直接回答，而且需要模型在 SciAgentGym 環(huán)境中持續(xù)調(diào)用工具、讀取反饋，并逐步推進(jìn)任務(wù)。

為了刻畫不同任務(wù)的復(fù)雜度，SciAgentBench 將任務(wù)劃分為三個(gè)層級(jí)。

L1是基礎(chǔ)任務(wù)，不超過 3 步，主要考察模型能否完成較短的工具調(diào)用流程。

L2是中等復(fù)雜度任務(wù)，需要 4 到 7 步，模型必須開始組合多個(gè)工具，并管理更多中間狀態(tài)。

L3則是長(zhǎng)程任務(wù)，需要 8 步以上，更接近真實(shí)科學(xué)工作流。模型不僅要規(guī)劃多個(gè)步驟，還要在執(zhí)行過程中處理反饋、修正錯(cuò)誤，并保持整體任務(wù)目標(biāo)不偏離。

在整個(gè) SciAgentBench 中，L2 和 L3 任務(wù)合計(jì)占79%。其重點(diǎn)主要在于考察模型能否在更長(zhǎng)的任務(wù)鏈條中保持穩(wěn)定。

此外，約65%的任務(wù)包含多模態(tài)輸入，例如分子結(jié)構(gòu)圖、光譜數(shù)據(jù)、相圖和實(shí)驗(yàn)圖像。這一點(diǎn)也很貼近真實(shí)科學(xué)研究的場(chǎng)景：研究者在解決問題時(shí)，往往不會(huì)只看一段文字，而是需要同時(shí)理解圖像、表格、實(shí)驗(yàn)數(shù)據(jù)和工具返回的中間結(jié)果。

在評(píng)測(cè)指標(biāo)上，論文使用了兩個(gè)主要指標(biāo)：Success Rate 和 Success Weighted by Path Length。

前者衡量模型是否成功完成整個(gè)任務(wù)；后者則進(jìn)一步考慮完成任務(wù)的效率。若模型在完成任務(wù)時(shí)反復(fù)嘗試無效路徑、調(diào)用不必要的工具，即便最終答對(duì)，它的效率得分也會(huì)下降。科學(xué)智能體不僅要能得到答案，還要能以相對(duì)更加快速直接的方式得到答案。

圖：在 SciAgentBench 下的測(cè)試結(jié)果。

實(shí)驗(yàn)結(jié)果顯示，工具確實(shí)能帶來幫助。總體來看，模型在接入工具后，平均成功率從23.3%提升到28.3%。這說明，在真實(shí)科學(xué)任務(wù)中，外部工具依然非常重要。僅靠模型內(nèi)部知識(shí)，很難替代科學(xué)計(jì)算、數(shù)據(jù)庫(kù)查詢和專業(yè)軟件帶來的精確能力。

但更值得注意的是，模型一旦進(jìn)入長(zhǎng)流程任務(wù)，性能會(huì)明顯下降。以 GPT-5 為例，它在帶工具設(shè)置下的整體成功率為41.3%。但如果按任務(wù)難度拆開看，L1 成功率為58.8%，到了 L3 則下降到34.6%。這種下降并不是某一個(gè)模型的個(gè)例，而是幾乎所有模型都會(huì)遇到的問題。所有模型平均來看，L1 成功率為47.4%，L3 只有16.4%。

這說明，當(dāng)前模型已經(jīng)具備一定的工具使用能力，但要穩(wěn)定完成長(zhǎng)程科學(xué)工作流，仍然非常困難。短流程任務(wù)中，模型只需要做出少數(shù)幾次正確決策；而在長(zhǎng)流程任務(wù)中，它需要連續(xù)完成多個(gè)環(huán)節(jié)：理解問題、選擇工具、設(shè)置參數(shù)、讀取反饋、轉(zhuǎn)換格式、繼續(xù)執(zhí)行。任何一個(gè)環(huán)節(jié)出錯(cuò)，都可能影響后續(xù)所有步驟。

圖：SciAgentBench 下的模型行為分析。進(jìn)一步從工具調(diào)用效率、反饋利用能力和長(zhǎng)程錯(cuò)誤恢復(fù)三個(gè)角度分析模型在科學(xué)工作流中的表現(xiàn)。結(jié)果顯示，當(dāng)前模型的瓶頸并不只是 “會(huì)不會(huì)調(diào)用工具”，而是能否在多步執(zhí)行中有效理解環(huán)境反饋、調(diào)整行動(dòng)路線，并持續(xù)推進(jìn)任務(wù)。

論文還觀察到一個(gè)很有意思的現(xiàn)象：工具調(diào)用次數(shù)多，并不代表模型更會(huì)使用工具。

有些模型會(huì)頻繁調(diào)用工具，但成功率并不高。原因在于，它們并沒有真正理解工具返回的反饋，而是在報(bào)錯(cuò)后不斷重復(fù)相似操作，或者只是機(jī)械地調(diào)整參數(shù)。相比之下，一些更強(qiáng)的模型雖然調(diào)用次數(shù)更少，卻能更有效地利用中間結(jié)果，較快判斷下一步應(yīng)該怎么做。

這也揭示了科學(xué)智能體的一個(gè)關(guān)鍵能力，即有效使用環(huán)境反饋。

在真實(shí)科學(xué)工作流中，工具反饋往往承載著非常重要的信息。報(bào)錯(cuò)可能提示輸入格式不對(duì)、參數(shù)缺失，或者工具選擇本身不合適；中間結(jié)果也可能提示當(dāng)前路線是否有效，是否足以支持下一步推理。模型如果不能讀懂這些反饋，就容易在長(zhǎng)流程中反復(fù)試錯(cuò)，甚至陷入無效循環(huán)。

這樣的結(jié)果強(qiáng)調(diào)了雖然當(dāng)前大模型已經(jīng)具備一定的科學(xué)工具使用能力，但距離穩(wěn)定、可靠地完成真實(shí)科學(xué)工作流，仍有明顯差距。

SciForge：讓模型從可執(zhí)行軌跡中學(xué)習(xí)

在 SciAgentBench 評(píng)估模型在長(zhǎng)程科學(xué)工作流中的表現(xiàn)之后，論文進(jìn)一步提出SciForge，用于構(gòu)建面向科學(xué)工具使用的訓(xùn)練數(shù)據(jù)。

SciForge 的基本思路是：科學(xué)智能體需要學(xué)習(xí)的不只是最終答案，還包括完成任務(wù)的過程。在真實(shí)科學(xué)研究中，一條工作流往往包含多個(gè)環(huán)節(jié)：選擇工具、調(diào)用工具、讀取中間結(jié)果、理解環(huán)境反饋，并在出錯(cuò)時(shí)調(diào)整下一步操作。

圍繞這一點(diǎn)，SciForge 從科學(xué)工具之間的輸入輸出關(guān)系出發(fā)，構(gòu)造可能的工作流，并將這些工作流放入 SciAgentGym 環(huán)境中實(shí)際運(yùn)行。能夠執(zhí)行并產(chǎn)生有效結(jié)果的軌跡，會(huì)被保留下來作為訓(xùn)練數(shù)據(jù)。

這些軌跡不僅包含順利完成任務(wù)的過程，也包含一部分錯(cuò)誤與修正過程。例如，工具調(diào)用失敗、參數(shù)設(shè)置不當(dāng)、輸入格式不匹配等情況，都會(huì)以環(huán)境反饋的形式出現(xiàn)在軌跡中。模型可以從這些數(shù)據(jù)中學(xué)習(xí)如何根據(jù)反饋調(diào)整后續(xù)操作，而不是只學(xué)習(xí)一條理想化的執(zhí)行路徑。

實(shí)驗(yàn)結(jié)果顯示，基于 SciForge 數(shù)據(jù)訓(xùn)練后，SciAgent-8B在 SciAgentBench 上達(dá)到30.1%成功率，超過了更大規(guī)模的Qwen3-VL-235B-Instruct；SciAgent-4B也達(dá)到25.2%，相比基座模型有所提升。

圖：SciForge 訓(xùn)練效果。隨著訓(xùn)練軌跡數(shù)量增加，模型在工具增強(qiáng)任務(wù)中的表現(xiàn)持續(xù)提升；缺少錯(cuò)誤恢復(fù)過程或使用非科學(xué)工具數(shù)據(jù)時(shí)，訓(xùn)練效果會(huì)受到影響。

這一結(jié)果說明，對(duì)于科學(xué)智能體而言，科學(xué)工具調(diào)用的過程數(shù)據(jù)非常重要。可執(zhí)行軌跡為模型提供了關(guān)于工具依賴、數(shù)據(jù)精度、反饋利用等一系列科學(xué)工具調(diào)用的經(jīng)驗(yàn)，使模型能夠在訓(xùn)練中接觸更接近真實(shí)科學(xué)工作的任務(wù)結(jié)構(gòu)。

展望：下一步，AI 科學(xué)家

斯坦福研究者 Surya Ganguli 在談到 AI 與科學(xué)發(fā)現(xiàn)時(shí)提到，AI 會(huì)推動(dòng)新的科學(xué)發(fā)現(xiàn)，而科學(xué)應(yīng)用對(duì)嚴(yán)謹(jǐn)性的要求，也會(huì)反過來推動(dòng)更好的 AI。放在科學(xué)智能體的語境中，這一點(diǎn)尤其值得關(guān)注。真正進(jìn)入科學(xué)研究場(chǎng)景后，模型面對(duì)的是海量的資料數(shù)據(jù)與無限開放探索的過程。

面向開放式科學(xué)發(fā)現(xiàn)，讓模型先在具體科學(xué)工作流中學(xué)會(huì)可靠執(zhí)行，再逐步提升它參與復(fù)雜科學(xué)研究的能力，可能是一條很有潛力的路徑。我們期許未來的 AI 科學(xué)家能在這種交互中逐漸成形。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.