无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從答題到做實(shí)驗(yàn):SciAgentGym讓大模型進(jìn)入科學(xué)工作流

0
分享至



DeepMind 聯(lián)合創(chuàng)始人、2024 年諾貝爾化學(xué)獎(jiǎng)得主 Demis Hassabis 曾談到,他一直將 AI 視為推動(dòng)知識(shí)前沿的重要工具。AI 可以幫助科學(xué)家處理復(fù)雜數(shù)據(jù)、發(fā)現(xiàn)隱藏模式,也可能在未來參與更深層的科學(xué)探索。

要走向這樣的目標(biāo),科學(xué)智能體在回答科學(xué)問題之外,更需要有能力處理科學(xué)工作流。在真實(shí)的科學(xué)場(chǎng)景中,研究者需要檢索數(shù)據(jù)庫(kù)、調(diào)用專業(yè)軟件、執(zhí)行計(jì)算、分析結(jié)果,并根據(jù)反饋不斷修正方向。科學(xué)推理不只發(fā)生在語言空間中,也發(fā)生在工具調(diào)用、環(huán)境反饋和錯(cuò)誤恢復(fù)的過程中。

這也對(duì)評(píng)測(cè)提出了新的要求。評(píng)估科學(xué)智能體,需要觀察它能否在復(fù)雜工具環(huán)境中穩(wěn)定、有效地完成多步任務(wù)。正是在這一背景下,復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室提出了SciAgentGym,一個(gè)專為多步科學(xué)工具使用而設(shè)計(jì)的智能體環(huán)境,用于評(píng)估模型在復(fù)雜科學(xué)工作流中的執(zhí)行能力、反饋處理能力和任務(wù)完成能力。



  • 論文標(biāo)題:SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
  • 論文地址:https://arxiv.org/pdf/2602.12984
  • 項(xiàng)目網(wǎng)站:https://sciagentgym.github.io/

SciAgentGym:為科學(xué)智能體搭建工作流環(huán)境

SciAgentGym 為 Agent 提供了一個(gè)可交互、可執(zhí)行、可反饋的科學(xué)環(huán)境。

這個(gè)環(huán)境由四類基礎(chǔ)設(shè)施組成:專業(yè)工具庫(kù)、文件系統(tǒng)、科學(xué)數(shù)據(jù)庫(kù)和 Python 解釋器。模型在任務(wù)過程中可以調(diào)用科學(xué)工具、執(zhí)行代碼、查詢數(shù)據(jù)庫(kù),也可以讀取環(huán)境返回的結(jié)果、報(bào)錯(cuò)信息和中間文件。每個(gè)任務(wù)都擁有獨(dú)立的工具注冊(cè)、文件系統(tǒng)和執(zhí)行歷史,從而讓模型真正處在一個(gè)科學(xué)工作空間中。

為了讓這個(gè)環(huán)境能夠承載復(fù)雜科學(xué)任務(wù),SciAgentGym 在設(shè)計(jì)上強(qiáng)調(diào)了三個(gè)原則。

首先是Type Safety,也就是類型安全。科學(xué)工具之間并不是隨意連接的。一個(gè)工具可能輸出分子式,另一個(gè)工具需要蛋白結(jié)構(gòu);一個(gè)工具返回矩陣,另一個(gè)工具只能接收三維向量。SciAgentGym 為工具定義明確的輸入輸出類型,使環(huán)境能夠檢查每次調(diào)用是否合法,也能判斷工具之間是否可以自然銜接。

其次是Reproducibility,即可復(fù)現(xiàn)性。模型的每一次工具調(diào)用、每一個(gè)中間結(jié)果和每一次環(huán)境反饋,都會(huì)被記錄成結(jié)構(gòu)化軌跡。最終評(píng)測(cè)得到的不只是一個(gè)答案,還包括模型完成任務(wù)的全過程。

第三是Extensibility,也就是可擴(kuò)展性。SciAgentGym 中的工具按照學(xué)科和標(biāo)準(zhǔn)協(xié)議組織,便于后續(xù)接入新的領(lǐng)域工具。論文中,研究團(tuán)隊(duì)將 RDKit、ASE、SciPy、BioPython、PyMatGen 等成熟科學(xué)計(jì)算包封裝成各種工具,再按照計(jì)算、分析、可視化和查詢等功能類別進(jìn)行組織,并通過自動(dòng)化單元測(cè)試篩選工具質(zhì)量。

SciAgentGym 的設(shè)計(jì)旨在為科學(xué)智能體搭建一個(gè)能夠承載科學(xué)工作流的執(zhí)行環(huán)境。在這樣的環(huán)境中,模型需要理解工具依賴、管理中間狀態(tài)、利用環(huán)境反饋,并把多個(gè)步驟組織成一條連續(xù)的科學(xué)任務(wù)流程。



圖:SciAgentGym 總體框架。左側(cè)為科學(xué)環(huán)境與工具系統(tǒng),右側(cè)展示 SciAgentBench 評(píng)測(cè)、Agent Interface 交互和 SciForge 訓(xùn)練流程。

SciAgentBench:評(píng)測(cè)模型能否完成長(zhǎng)程科學(xué)任務(wù)

在基礎(chǔ)環(huán)境之后,下一個(gè)關(guān)鍵問題是:當(dāng)前大模型在復(fù)雜科學(xué)工作流中的能力邊界在哪里?

SciAgentBench正是為此設(shè)計(jì)的評(píng)測(cè)集。它包含 259 個(gè)任務(wù)、1,134 個(gè)子問題,覆蓋物理、化學(xué)、材料科學(xué)和生命科學(xué)四個(gè)領(lǐng)域。這些任務(wù)經(jīng)過了一套篩選與驗(yàn)證流程。因?yàn)檠芯繄F(tuán)隊(duì)希望保留下來的任務(wù)不能僅靠模型記憶或常識(shí)直接回答,而且需要模型在 SciAgentGym 環(huán)境中持續(xù)調(diào)用工具、讀取反饋,并逐步推進(jìn)任務(wù)。

為了刻畫不同任務(wù)的復(fù)雜度,SciAgentBench 將任務(wù)劃分為三個(gè)層級(jí)。

L1是基礎(chǔ)任務(wù),不超過 3 步,主要考察模型能否完成較短的工具調(diào)用流程。

L2是中等復(fù)雜度任務(wù),需要 4 到 7 步,模型必須開始組合多個(gè)工具,并管理更多中間狀態(tài)。

L3則是長(zhǎng)程任務(wù),需要 8 步以上,更接近真實(shí)科學(xué)工作流。模型不僅要規(guī)劃多個(gè)步驟,還要在執(zhí)行過程中處理反饋、修正錯(cuò)誤,并保持整體任務(wù)目標(biāo)不偏離。

在整個(gè) SciAgentBench 中,L2 和 L3 任務(wù)合計(jì)占79%。其重點(diǎn)主要在于考察模型能否在更長(zhǎng)的任務(wù)鏈條中保持穩(wěn)定。

此外,約65%的任務(wù)包含多模態(tài)輸入,例如分子結(jié)構(gòu)圖、光譜數(shù)據(jù)、相圖和實(shí)驗(yàn)圖像。這一點(diǎn)也很貼近真實(shí)科學(xué)研究的場(chǎng)景:研究者在解決問題時(shí),往往不會(huì)只看一段文字,而是需要同時(shí)理解圖像、表格、實(shí)驗(yàn)數(shù)據(jù)和工具返回的中間結(jié)果。

在評(píng)測(cè)指標(biāo)上,論文使用了兩個(gè)主要指標(biāo):Success Rate 和 Success Weighted by Path Length。

前者衡量模型是否成功完成整個(gè)任務(wù);后者則進(jìn)一步考慮完成任務(wù)的效率。若模型在完成任務(wù)時(shí)反復(fù)嘗試無效路徑、調(diào)用不必要的工具,即便最終答對(duì),它的效率得分也會(huì)下降。科學(xué)智能體不僅要能得到答案,還要能以相對(duì)更加快速直接的方式得到答案。



圖:在 SciAgentBench 下的測(cè)試結(jié)果。

實(shí)驗(yàn)結(jié)果顯示,工具確實(shí)能帶來幫助。總體來看,模型在接入工具后,平均成功率從23.3%提升到28.3%。這說明,在真實(shí)科學(xué)任務(wù)中,外部工具依然非常重要。僅靠模型內(nèi)部知識(shí),很難替代科學(xué)計(jì)算、數(shù)據(jù)庫(kù)查詢和專業(yè)軟件帶來的精確能力。

但更值得注意的是,模型一旦進(jìn)入長(zhǎng)流程任務(wù),性能會(huì)明顯下降。以 GPT-5 為例,它在帶工具設(shè)置下的整體成功率為41.3%。但如果按任務(wù)難度拆開看,L1 成功率為58.8%,到了 L3 則下降到34.6%。這種下降并不是某一個(gè)模型的個(gè)例,而是幾乎所有模型都會(huì)遇到的問題。所有模型平均來看,L1 成功率為47.4%,L3 只有16.4%。

這說明,當(dāng)前模型已經(jīng)具備一定的工具使用能力,但要穩(wěn)定完成長(zhǎng)程科學(xué)工作流,仍然非常困難。短流程任務(wù)中,模型只需要做出少數(shù)幾次正確決策;而在長(zhǎng)流程任務(wù)中,它需要連續(xù)完成多個(gè)環(huán)節(jié):理解問題、選擇工具、設(shè)置參數(shù)、讀取反饋、轉(zhuǎn)換格式、繼續(xù)執(zhí)行。任何一個(gè)環(huán)節(jié)出錯(cuò),都可能影響后續(xù)所有步驟。



圖:SciAgentBench 下的模型行為分析。進(jìn)一步從工具調(diào)用效率、反饋利用能力和長(zhǎng)程錯(cuò)誤恢復(fù)三個(gè)角度分析模型在科學(xué)工作流中的表現(xiàn)。結(jié)果顯示,當(dāng)前模型的瓶頸并不只是 “會(huì)不會(huì)調(diào)用工具”,而是能否在多步執(zhí)行中有效理解環(huán)境反饋、調(diào)整行動(dòng)路線,并持續(xù)推進(jìn)任務(wù)。

論文還觀察到一個(gè)很有意思的現(xiàn)象:工具調(diào)用次數(shù)多,并不代表模型更會(huì)使用工具。

有些模型會(huì)頻繁調(diào)用工具,但成功率并不高。原因在于,它們并沒有真正理解工具返回的反饋,而是在報(bào)錯(cuò)后不斷重復(fù)相似操作,或者只是機(jī)械地調(diào)整參數(shù)。相比之下,一些更強(qiáng)的模型雖然調(diào)用次數(shù)更少,卻能更有效地利用中間結(jié)果,較快判斷下一步應(yīng)該怎么做。

這也揭示了科學(xué)智能體的一個(gè)關(guān)鍵能力,即有效使用環(huán)境反饋。

在真實(shí)科學(xué)工作流中,工具反饋往往承載著非常重要的信息。報(bào)錯(cuò)可能提示輸入格式不對(duì)、參數(shù)缺失,或者工具選擇本身不合適;中間結(jié)果也可能提示當(dāng)前路線是否有效,是否足以支持下一步推理。模型如果不能讀懂這些反饋,就容易在長(zhǎng)流程中反復(fù)試錯(cuò),甚至陷入無效循環(huán)。

這樣的結(jié)果強(qiáng)調(diào)了雖然當(dāng)前大模型已經(jīng)具備一定的科學(xué)工具使用能力,但距離穩(wěn)定、可靠地完成真實(shí)科學(xué)工作流,仍有明顯差距。

SciForge:讓模型從可執(zhí)行軌跡中學(xué)習(xí)

在 SciAgentBench 評(píng)估模型在長(zhǎng)程科學(xué)工作流中的表現(xiàn)之后,論文進(jìn)一步提出SciForge,用于構(gòu)建面向科學(xué)工具使用的訓(xùn)練數(shù)據(jù)。

SciForge 的基本思路是:科學(xué)智能體需要學(xué)習(xí)的不只是最終答案,還包括完成任務(wù)的過程。在真實(shí)科學(xué)研究中,一條工作流往往包含多個(gè)環(huán)節(jié):選擇工具、調(diào)用工具、讀取中間結(jié)果、理解環(huán)境反饋,并在出錯(cuò)時(shí)調(diào)整下一步操作。

圍繞這一點(diǎn),SciForge 從科學(xué)工具之間的輸入輸出關(guān)系出發(fā),構(gòu)造可能的工作流,并將這些工作流放入 SciAgentGym 環(huán)境中實(shí)際運(yùn)行。能夠執(zhí)行并產(chǎn)生有效結(jié)果的軌跡,會(huì)被保留下來作為訓(xùn)練數(shù)據(jù)。

這些軌跡不僅包含順利完成任務(wù)的過程,也包含一部分錯(cuò)誤與修正過程。例如,工具調(diào)用失敗、參數(shù)設(shè)置不當(dāng)、輸入格式不匹配等情況,都會(huì)以環(huán)境反饋的形式出現(xiàn)在軌跡中。模型可以從這些數(shù)據(jù)中學(xué)習(xí)如何根據(jù)反饋調(diào)整后續(xù)操作,而不是只學(xué)習(xí)一條理想化的執(zhí)行路徑。

實(shí)驗(yàn)結(jié)果顯示,基于 SciForge 數(shù)據(jù)訓(xùn)練后,SciAgent-8B在 SciAgentBench 上達(dá)到30.1%成功率,超過了更大規(guī)模的Qwen3-VL-235B-Instruct;SciAgent-4B也達(dá)到25.2%,相比基座模型有所提升。



圖:SciForge 訓(xùn)練效果。隨著訓(xùn)練軌跡數(shù)量增加,模型在工具增強(qiáng)任務(wù)中的表現(xiàn)持續(xù)提升;缺少錯(cuò)誤恢復(fù)過程或使用非科學(xué)工具數(shù)據(jù)時(shí),訓(xùn)練效果會(huì)受到影響。

這一結(jié)果說明,對(duì)于科學(xué)智能體而言,科學(xué)工具調(diào)用的過程數(shù)據(jù)非常重要。可執(zhí)行軌跡為模型提供了關(guān)于工具依賴、數(shù)據(jù)精度、反饋利用等一系列科學(xué)工具調(diào)用的經(jīng)驗(yàn),使模型能夠在訓(xùn)練中接觸更接近真實(shí)科學(xué)工作的任務(wù)結(jié)構(gòu)。

展望:下一步,AI 科學(xué)家

斯坦福研究者 Surya Ganguli 在談到 AI 與科學(xué)發(fā)現(xiàn)時(shí)提到,AI 會(huì)推動(dòng)新的科學(xué)發(fā)現(xiàn),而科學(xué)應(yīng)用對(duì)嚴(yán)謹(jǐn)性的要求,也會(huì)反過來推動(dòng)更好的 AI。放在科學(xué)智能體的語境中,這一點(diǎn)尤其值得關(guān)注。真正進(jìn)入科學(xué)研究場(chǎng)景后,模型面對(duì)的是海量的資料數(shù)據(jù)與無限開放探索的過程。

面向開放式科學(xué)發(fā)現(xiàn),讓模型先在具體科學(xué)工作流中學(xué)會(huì)可靠執(zhí)行,再逐步提升它參與復(fù)雜科學(xué)研究的能力,可能是一條很有潛力的路徑。我們期許未來的 AI 科學(xué)家能在這種交互中逐漸成形。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅馬諾:M費(fèi)完成加盟熱刺體檢,并已經(jīng)與球隊(duì)簽約

羅馬諾:M費(fèi)完成加盟熱刺體檢,并已經(jīng)與球隊(duì)簽約

懂球帝
2026-07-02 15:43:02
賺著中國(guó)人錢,毒害中國(guó)人身體,日企在華收割萬億,至今仍在售賣

賺著中國(guó)人錢,毒害中國(guó)人身體,日企在華收割萬億,至今仍在售賣

云舟史策
2026-07-02 07:09:53
西安賽格老板墜樓:這個(gè)社會(huì)正在懲罰好人

西安賽格老板墜樓:這個(gè)社會(huì)正在懲罰好人

虔青
2026-07-02 09:10:07
47歲包工頭愛上20歲女大學(xué)生,同居三個(gè)月后醫(yī)院診斷兩人徹底傻眼

47歲包工頭愛上20歲女大學(xué)生,同居三個(gè)月后醫(yī)院診斷兩人徹底傻眼

熱心市民小黃
2026-07-02 13:13:11
清爽夏日:那不是季節(jié),是身體學(xué)會(huì)松綁的時(shí)節(jié)

清爽夏日:那不是季節(jié),是身體學(xué)會(huì)松綁的時(shí)節(jié)

疾跑的小蝸牛
2026-07-01 18:37:22
熱點(diǎn)丨西安賽格墜亡:125億營(yíng)收與1145萬罰單(含朋友圈全文)

熱點(diǎn)丨西安賽格墜亡:125億營(yíng)收與1145萬罰單(含朋友圈全文)

南山瓜鋪
2026-07-02 12:07:30
美國(guó)大滿貫再爆冷!世界第2出局,張本美和剃頭,孫穎莎壓力不小

美國(guó)大滿貫再爆冷!世界第2出局,張本美和剃頭,孫穎莎壓力不小

冷桂零落
2026-07-02 15:25:50
股民要做好心理準(zhǔn)備,未來一個(gè)半月,股市或?qū)⒅匮?0年歷史!

股民要做好心理準(zhǔn)備,未來一個(gè)半月,股市或?qū)⒅匮?0年歷史!

觀察者海風(fēng)
2026-07-02 12:28:59
世界杯官方回應(yīng)比利時(shí)“內(nèi)訌”:謝謝大家關(guān)心,我們已經(jīng)和好啦;此前2球員在賽場(chǎng)爭(zhēng)吵,20分鐘后深情相擁

世界杯官方回應(yīng)比利時(shí)“內(nèi)訌”:謝謝大家關(guān)心,我們已經(jīng)和好啦;此前2球員在賽場(chǎng)爭(zhēng)吵,20分鐘后深情相擁

魯中晨報(bào)
2026-07-02 10:58:06
中國(guó)股市,正在進(jìn)入一個(gè)很多人沒看懂的新階段

中國(guó)股市,正在進(jìn)入一個(gè)很多人沒看懂的新階段

觀察者網(wǎng)
2026-07-02 12:17:34
7月1日,大陸最新提兩岸統(tǒng)一后,國(guó)民黨回應(yīng),民進(jìn)黨表態(tài)但被打臉

7月1日,大陸最新提兩岸統(tǒng)一后,國(guó)民黨回應(yīng),民進(jìn)黨表態(tài)但被打臉

DS北風(fēng)
2026-07-01 16:58:23
終于有經(jīng)濟(jì)學(xué)家批評(píng)體制內(nèi)退休金太高、加劇代際矛盾,評(píng)論區(qū)炸鍋

終于有經(jīng)濟(jì)學(xué)家批評(píng)體制內(nèi)退休金太高、加劇代際矛盾,評(píng)論區(qū)炸鍋

慧翔百科
2026-06-23 08:47:02
泰山景區(qū):設(shè)刀片刺網(wǎng)是為保護(hù)驢友

泰山景區(qū):設(shè)刀片刺網(wǎng)是為保護(hù)驢友

中國(guó)新聞周刊
2026-07-01 20:49:08
61年陳賡來上海養(yǎng)病,陰差陽錯(cuò)得知軍委通知,反問:為啥沒人告我

61年陳賡來上海養(yǎng)病,陰差陽錯(cuò)得知軍委通知,反問:為啥沒人告我

歷史龍?jiān)w
2026-07-01 12:20:08
三歲被拐1050天,六歲一眼認(rèn)出爸爸,如今彭文樂保研直博送祝福

三歲被拐1050天,六歲一眼認(rèn)出爸爸,如今彭文樂保研直博送祝福

削桐作琴
2026-06-08 14:05:14
新股華潤(rùn)新能上市交易,中簽號(hào)碼186萬個(gè),破發(fā)驚嚇還是打新驚喜

新股華潤(rùn)新能上市交易,中簽號(hào)碼186萬個(gè),破發(fā)驚嚇還是打新驚喜

數(shù)據(jù)挖掘分析
2026-07-02 06:59:41
出手了,許家印的保護(hù)傘被正式起訴,索賠金額高達(dá)570億

出手了,許家印的保護(hù)傘被正式起訴,索賠金額高達(dá)570億

雨諾翛翛
2026-05-28 19:28:22
中國(guó)正式進(jìn)入“超級(jí)內(nèi)卷”時(shí)代!只有一種人能賺錢(深度)

中國(guó)正式進(jìn)入“超級(jí)內(nèi)卷”時(shí)代!只有一種人能賺錢(深度)

新浪財(cái)經(jīng)
2026-06-23 08:51:12
公開向中國(guó)“求援”,盧卡申科稱不需要武器,只想要中方幫三個(gè)忙

公開向中國(guó)“求援”,盧卡申科稱不需要武器,只想要中方幫三個(gè)忙

通鑒史智
2026-07-01 14:32:00
45.5℃!我國(guó)西北“火爐”猛烈,江南“火爐”也將開啟,有多熱?

45.5℃!我國(guó)西北“火爐”猛烈,江南“火爐”也將開啟,有多熱?

劉森森
2026-07-02 10:33:47
2026-07-02 15:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13415文章數(shù) 142685關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認(rèn),但SpaceX就該造AI手機(jī)

頭條要聞

特朗普乘"新空軍一號(hào)"首飛 官方稱改裝費(fèi)不到4億美元

頭條要聞

特朗普乘"新空軍一號(hào)"首飛 官方稱改裝費(fèi)不到4億美元

體育要聞

韓國(guó)人,為什么恨透了洪明甫?

娛樂要聞

霍震霆回應(yīng)霍啟山娜然結(jié)婚傳聞

財(cái)經(jīng)要聞

千億茶市場(chǎng)無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態(tài)度原創(chuàng)

本地
數(shù)碼
親子
旅游
游戲

本地新聞

這場(chǎng)穿越酉陽的光影之旅,張張都是壁紙!

數(shù)碼要聞

RTX 4060 Laptop重返榜首!Steam發(fā)布6月硬件調(diào)查報(bào)告

親子要聞

早教色彩認(rèn)知蜘蛛俠綠巨人鋼鐵俠超人洗澡嘍還有超人拼圖mp4

旅游要聞

中俄蒙“萬里茶道”國(guó)際旅游聯(lián)盟推出十大精品線路

《鬼武者》官宣提前發(fā)售!官方談?lì)A(yù)購(gòu)獎(jiǎng)勵(lì)變化

無障礙瀏覽 進(jìn)入關(guān)懷版