網易首頁 > 網易號 > 正文申請入駐

8B模型做生物實驗：實驗步驟順序不亂、劑量無幻覺｜ICLR 2026

2026-05-18 14:47:23　來源: 量子位

北京舉報

分享至

Thoth團隊投稿量子位 | 公眾號 QbitAI

人類研究員做實驗，從來不是把幾句步驟隨手拼起來。

一份真正可復現的實驗protocol，需要明確每一步做什么、對什么對象操作、用什么參數，以及步驟之間的先后依賴。

一旦順序錯了、劑量錯了、對象錯了，表面上看起來流暢的文本，也可能在實驗臺上直接失效。

然而，當前大模型雖然已經能回答大量生物醫學問題，在真正生成實驗方案時仍然容易出現問題：

步驟缺失、順序混亂、操作冗余、參數幻覺，甚至把不能直接執行的建議包裝成一段“看起來很專業”的說明。

更關鍵的是，傳統文本指標如BLEU、ROUGE、BERTScore主要看詞面相似度，難以判斷一個protocol是否真的邏輯正確、語義忠實、可在實驗中執行。

LLM-as-a-Judge雖然更接近人類偏好，但用于強化學習訓練時代價過高，也不夠穩定。

針對這一問題，上海人工智能實驗室、復旦大學、上海交通大學團隊提出了Thoth：一個面向生物實驗protocol生成的科學推理模型。

相關論文《Unleashing Scientific Reasoning for Bio-Experimental Protocol Generation via Structured Component-Based Reward Mechanism》已在ICLR2026正式發表。

一句話概括：Thoth不是讓模型“寫得像protocol”，而是讓模型按照實驗邏輯，生成可解析、可評估、可執行的protocol。

現有LLM會寫，但不一定能做

在生命科學研究中，protocol并不是普通說明文，而是實驗執行藍圖

它需要同時滿足三類要求：

粒度合適：步驟不能過粗導致關鍵信息丟失，也不能過細造成冗余；

順序正確：前置處理、加入試劑、孵育、離心、檢測等操作必須符合實驗依賴；

語義準確：每個動作都要綁定正確的對象和參數。

舉個簡單例子：如果原protocol要求將5mL凝膠預混液與25μL 10% APS、2.5μL TEMED混合，那么縮放到1mL時，APS應為5μL，TEMED應為0.5μL。

在論文展示的案例中，Thoth能給出簡潔且順序正確的結構化步驟；而對比模型雖然語言流暢，卻把TEMED劑量寫成了5μL，出現了執行層面的事實錯誤。

劑量縮放任務中的定性案例

這類錯誤很難被普通文本相似度指標懲罰，因為模型可能“說得很像”，但實驗上并不可靠。

因此，團隊認為，要讓AI真正輔助實驗復現，需要把protocol生成從自由文本生成，推進到結構化科學推理。

從12K真實protocol構建SciRecipe

為了解決數據基礎不足的問題，團隊首先構建了SciRecipe。

該數據集來源于Nature Protocols、Bio-protocol、Protocols.io等標準化實驗流程平臺。

團隊從超過23K份原始protocol中進行清洗、去重、結構化處理和質量控制，最終保留約12K條高質量數據，覆蓋神經科學、分子生物學、癌癥生物學等27個生物學子領域。

SciRecipe不僅包含傳統的protocol理解任務，還進一步覆蓋真實實驗工作流中的問題解決場景，包括：

overview：總結整體實驗流程；
specific：分析局部實驗步驟；
retrieval：檢索所需實驗信息；
planning：規劃實驗方案；
troubleshooting：處理實驗異常；
constraint：滿足約束條件；
scaling：進行劑量縮放；
safety：識別安全注意事項。

也就是說，SciRecipe不是只讓模型“讀懂protocol”，而是讓模型在理解、規劃、糾錯、縮放、安全等環節形成完整的“理解—應用”閉環。

SciRecipe數據構建流程

核心方法：先打草稿，再填成可讀步驟

Thoth的第一個關鍵設計，是Sketch-and-Fill推理范式。

這個范式把protocol生成拆成三個階段：

首先是think，模型先分析任務目標、實驗依賴和步驟必要性；

然后是key，模型把實驗方案抽象成機器可讀的原子步驟，每一步都包含action、objects、parameters三個核心字段；

最后是orc，模型再把這些結構化步驟改寫成自然語言protocol，保證人類研究員能夠直接閱讀和執行。

可以把它理解為：先讓模型寫“實驗骨架”，再把骨架填充成完整操作說明。

這一設計的好處是，實驗步驟不再是一整段難以檢查的自由文本，而被拆解為可解析的結構單元。

每一步做什么、作用于什么對象、在什么條件下完成，都可以被自動檢查。

更重要的是，key和orc之間要求一一對應。

結構化步驟里出現的動作、對象和參數，必須在最終自然語言protocol中體現出來。這避免了模型只給出一個“空心框架”，卻漏掉關鍵實驗細節。

SCORE：不用LLM當裁判，也能判斷protocol能不能執行

Thoth的第二個關鍵設計，是Structured COmponent-based REward，簡稱SCORE。

傳統評估指標往往只看生成文本和參考答案像不像。SCORE則直接從實驗可執行性的角度出發，評估三個維度：

第一是Step Scale，判斷步驟數量和粒度是否合理。步驟太少，可能漏掉關鍵操作；步驟太多，則可能引入冗余和噪聲。

第二是Action Order，判斷動作順序是否符合實驗邏輯。對于實驗來說，有些步驟即使都出現了，只要順序錯了，protocol仍然不可執行。

第三是Semantic Fidelity，判斷動作、對象和參數是否匹配。例如“add”是否加到了正確試劑上，溫度、濃度、時間等參數是否綁定到了正確對象。

Sketch-and-Fill推理范式與SCORE獎勵機制示意圖

SCORE還加入了兩個門控機制：格式門控檢查模型是否按照think、key、orc、note順序輸出；一致性門控檢查key中的動作、對象、參數是否被orc充分覆蓋。

只有通過這些基礎檢查的protocol，才會進入后續獎勵計算。

這樣一來，模型優化目標就從“寫得像參考答案”，變成了“生成結構合理、順序正確、語義忠實、實驗上更可執行的protocol”。

三階段訓練：從知識到行動

在訓練層面，Thoth采用Knowledge-to-Action學習策略，讓模型逐步從“掌握實驗知識”過渡到“生成可執行實驗方案”。

第一階段是預訓練，模型從大規模protocol文本中學習實驗語言、材料、設備和流程邏輯。

第二階段是監督微調，模型在Sketch-and-Fill格式數據上學習如何按照結構化范式組織輸出，并完成參數填充、步驟排序、錯誤修正等任務。

第三階段是強化學習，團隊使用GRPO算法，并以SCORE作為獎勵信號，引導模型在實驗可執行性上繼續優化。

這種訓練路徑與人類研究員的學習過程相似：先積累知識，再學習規范操作，最后通過反饋不斷改進決策。

實驗結果：小模型也超過一批大模型

實驗中，團隊在SciRecipe-Eval上評估了Thoth，并與閉源模型、開源模型、推理模型和科學大模型進行對比。

結果顯示，Thoth在所有主要指標上取得SOTA表現。

相比基座模型Qwen3-8B，Thoth平均性能提升17.78%；Thoth-mini平均性能提升22.01%。

即使面對更大規模的閉源模型，Thoth仍然表現突出，平均分超過ChatGPT-4o 3.69%。

在與最強開源模型DeepSeek-V3的對比中，Thoth在Semantic-Alignment、Order-S和Step-MATCH上分別提升4.88%、4.06%和11.29%，說明其優勢主要體現在實驗步驟對齊、邏輯順序和動作保真上。

SciRecipe-Eval主結果

不僅如此，在HLE、LAB-Bench、PubMedQA等更廣泛的科學基準上，Thoth同樣能泛化到protocol生成之外的生物醫學推理任務，相比同基座模型取得明顯提升。

更廣泛科學基準上的泛化結果

消融實驗進一步證明，Sketch-and-Fill、SCORE和Knowledge-to-Action三階段訓練都不是“錦上添花”。

三階段Knowledge-to-Action訓練策略消融

其中，去掉步驟粒度獎勵后，模型的順序嚴格匹配和步驟匹配大幅下降；去掉動作順序約束后，模型更容易生成順序混亂的方案；如果用普通語義相似度獎勵替代SCORE，雖然部分詞面指標可能變好，但protocol可執行性明顯下降。

這說明，對于科學實驗生成來說，真正重要的不是“文本像不像”，而是“能不能照著做”。

讓AI從“會答題”走向“會做實驗”

這項工作將生物實驗protocol生成從普通文本生成，推進到面向實驗執行的結構化科學推理。

通過SciRecipe，團隊構建了覆蓋27個生物學子領域、包含理解與問題解決任務的大規模數據基礎；通過Sketch-and-Fill，模型學會先組織實驗骨架，再生成自然語言步驟。

通過SCORE，訓練和評估都直接對齊步驟粒度、動作順序和語義保真。

通過Knowledge-to-Action訓練，Thoth進一步從實驗知識走向可執行方案生成。

從更長遠看，Thoth代表了一類新的科學AI助手方向：它不只是回答“實驗怎么做”，而是嘗試把科學知識轉化成可檢查、可復現、可執行的實驗行動。

對于生命科學研究來說，這意味著AI有機會從文獻問答工具，進一步走向實驗復現助手、protocol規劃助手，乃至未來自動化實驗系統中的核心推理模塊。

論文鏈接：https://arxiv.org/abs/2510.15600
代碼鏈接：https://github.com/InternScience/Thoth
Thoth模型API：https://scphub.intern-ai.org.cn/detail/19

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

IF 20+ 雙一區 TOP 期刊，國人發文第一，主編為中國學者，專注生物活性材料領域

生物學霸 2026-05-30 17:11:38
0 跟貼 0
寧德時代吳凱：今年將有一系列鈉離子電池產品實現規模化量產

每日經濟新聞 2026-05-30 14:41:08
4 跟貼 4

哈佛最年輕教授尹希，爆出入職OpenAI！

新智元 2026-05-31 11:42:56
0 跟貼 0

超越TurboQuant，長上下文推理真2-bit KV Quantization算法問世

機器之心Pro 2026-05-29 16:01:28
0 跟貼 0
網友燒烤子彈打西瓜，一聲爆響瓜沒事

裝甲鏟史官 2026-05-13 11:24:03
455 跟貼 455

《沙丘》中的撲翼機并非科幻，有人做出來了

裝甲鏟史官 2026-05-24 11:16:24
0 跟貼 0

航空發動機創意擺件，可模擬機械運行

裝甲鏟史官 2026-02-25 10:44:25
0 跟貼 0
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
352 跟貼 352

突發奇想給可樂提純，過濾出的液體沒有水，口味估計是齁甜的！

搞笑汪星球 2026-05-27 14:33:36
2 跟貼 2
14 歲進清華、不到 30 歲拿普林斯頓終身教職，她造了個 AI 讓實驗室新手一周變專家

生物學霸 2026-03-19 18:06:41
0 跟貼 0
磁鐵實驗完美收官，最后一顆太關鍵，結局完全沒想到！

星君搞笑怪 2026-05-30 16:42:16
1 跟貼 1
鍋蓋燙手拿不起來，一個舉動彰顯學霸風范，見過的至少40歲以上！

幽默發電廠 2026-05-30 14:28:26
3 跟貼 3
孩子去“光頭強家”，對著床上被子一頭栽下去，沒想到是模型！

笑出豬叫的趣聞閣 2026-05-26 17:08:43
1 跟貼 1
瓶子演示水倒流現象，和農村壓力井差不多，過程一目了然！

歡樂夢工廠 2026-05-29 14:15:36
2 跟貼 2
院長等3人學術造假南開大學通報

界面新聞 2026-05-30 19:49:22
5786 跟貼 5786
減速器的工作原理

大橘大利 2026-05-28 11:32:21
1 跟貼 1
面試官：說一下 Agent 的常見范式

新浪財經 2026-05-31 10:41:28
0 跟貼 0
卡帕西都整破防了：AI Coding沒門檻，可部署環節真嗯啊的難

量子位 2026-03-27 12:12:46
29 跟貼 29
古代的鎖子甲有多堅固？

兔芽手工 2026-05-27 04:37:30
0 跟貼 0
為什么非得把小齒輪，“硬塞”進大齒輪的肚子里？

米粒愛搞笑 2026-05-27 13:57:51
1 跟貼 1
男子在河邊處理動物，從沒見過這種生物，沒看到它的頭在哪！

書夫星愛生活 2026-05-28 16:16:04
3 跟貼 3
媒體：香會變調美國在臺海問題上收聲

環球網資訊 2026-05-30 20:40:20
48 跟貼 48
鋰電池扔進水里，為什么會自己燒起來？ #科普

壹號塔臺 2026-05-30 11:23:26
1 跟貼 1
瓶塞掉落小口瓶內，那塑料袋吹口氣就能解決，這孩子打小就聰明！

爆笑小天才 2026-05-30 10:44:28
1 跟貼 1
平時剝蛋殼比較傷手，人才發明工具，經過一頓敲打才打開！

胖塌塌生活看點 2026-05-28 15:57:30
0 跟貼 0
腦機接口，原來根本不是你想得樣子！

科學火箭叔 2026-05-30 10:40:14
0 跟貼 0
桌面上的粒子加速器，電磁加速鋼珠制造電弧熒光

裝甲鏟史官 2026-04-28 11:15:02
0 跟貼 0
手藝人用簡單材料，制作發光的電磁小狗，中間竟還有微型燈管！

爆笑玩偶 2026-05-29 11:01:55
1 跟貼 1
測試一下這個瓶子能扛多少重量

博聞視角 2026-05-28 17:04:27
0 跟貼 0
意大利開發仿真假肢，完美模擬人類足部動作

裝甲鏟史官 2026-05-18 11:26:44
0 跟貼 0
史上最大的槍射擊保險柜

愣娃看世界 2026-05-30 01:16:35
1 跟貼 1
分享一個好用的Skill，企業背調、深度調研一鍵搞定！

鈦媒體APP 2026-04-10 11:04:29
0 跟貼 0
10.68萬喜提L4同源算法，埃安N60駕駛輔助碾壓同級！

車市紅點 2026-05-28 17:43:38
1 跟貼 1
"香會"現場！他們排隊與中方代表打招呼

看看新聞Knews 2026-05-31 01:05:40
36 跟貼 36
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
兩朵蒲公英同時放入水中，卻出現了不同的變化，網友：結構不同導致親水能力不同

星沙時報 2026-05-29 16:20:50
0 跟貼 0
詭異的生物

朱熹愛追劇 2026-05-30 09:44:14
0 跟貼 0
壓力機之下一切皆是虛無！

花令 2026-05-28 21:22:02
0 跟貼 0
首個！京東健康聯合國家呼吸醫學中心（廣州醫科大學附屬第一醫院）發布呼吸醫學人工智能數據集，加快建設醫療AI標桿

金融界 2026-05-30 20:40:41
0 跟貼 0
男子曬做化學實驗過程，測量過氧S酸的pH值，網友：濃度這么高，最后怎么處理？

都市觀察 2026-05-30 19:08:03
0 跟貼 0

量子位

追蹤人工智能動態

12712文章數 176474關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

親子

旅游

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

8B模型做生物實驗：實驗步驟順序不亂、劑量無幻覺｜ICLR 2026

Thoth團隊 投稿量子位 | 公眾號 QbitAI

戴爾諾基亞又回來了！AI重估老牌科技公司

羅馬尼亞遭襲 梅德韋杰夫：歐盟已進入與俄羅斯的戰爭

羅馬尼亞遭襲 梅德韋杰夫：歐盟已進入與俄羅斯的戰爭

阿森納用最悲壯的方式，成就了巴黎王朝

賈玲最新動作！侯明昊給虞書欣抬轎！

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

AMD Radeon RX 9070 GRE顯卡全球市場起價偷跑：549美元

夏天給孩子防曬，很多寶媽第一步就“踩坑”了

美防長參加"香會" 就美中關系最新表態

Thoth團隊投稿量子位 | 公眾號 QbitAI

羅馬尼亞遭襲梅德韋杰夫：歐盟已進入與俄羅斯的戰爭

羅馬尼亞遭襲梅德韋杰夫：歐盟已進入與俄羅斯的戰爭

900V+3.2秒破百領克10+&領克10上市16.99萬元起