網易首頁 > 網易號 > 正文 申請入駐

UniPat AI 造了批數據,讓 Qwen 的 3B 激活小模型,單項超過 GPT-5.4

0
分享至

UniPat AI 開源了他們的一個科研 agent 模型 UniScientist,后訓練自 Qwen3,30B參數,3B激活

在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過了 GPT-5.4(33.0分)


https://github.com/UniPat-AI/UniScientist

但....別急著下結論,雖然是老朋友,我也不能硬吹,得說一下:FrontierScience-Research 測的是一項很具體的能力

比如:給你一個開放式科學問題,自己檢索文獻,提出假設,做推導,做仿真,迭代驗證,最后交一份完整的研究報告。就是科研這一件事,不是通用智能

用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們造了一批數據
這批數據怎么造的,比模型本身有意思

數據這件事

好模型 = 好數據 + 好架構 + 足夠算力
這點來說,地球人都知道

但每次 Technical Report 一出來,架構寫幾十頁,數據那一塊輕描淡寫,甚至不提

也好理解,畢竟架構可以復現,但一批做好的領域數據,說出去就沒了

UniScientist 做了 4700 多條科研題目,覆蓋物理、數學、生物、化學、計算機等 50 多個學科。每道題配 20 條以上的評分標準,他們叫 rubric,每條只驗證一個知識點

科研題目的答案是開放的,沒有標準答案。但可以把一個開放問題拆成 20 個檢查項,逐條過,質量就能量化,專家平均花 1 到 2 小時標一條


學科分布 兩條彎路

造這批數據之前,走過兩條路

第一條,讓模型直接生成
速度快,成本低。找了一批頂級高校的碩博來看,反饋是「不太像人話,有點假」。措辭,問題的提法,懂行的人一眼看得出來

第二條,純人工標注
質量有保證,但一條標下來要好幾天

還有一個更難的問題:科研題目很多是跨學科的
比如找一個化學博士,標一道生物化學交叉方向的題,他懂化學那半,生物那半大概了解。生成題目的人和驗證題目的人方向不同,理解會出現矛盾

但在這個方向上,模型沒有「不對口」的問題
于是在當前這個階段,就有了 Human in the Loop 的做法,把數據生產拆成流程線。有些步驟模型做,有些步驟專家把關,哪個環節該誰來,一邊做一邊摸

雖然現在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個 loop 里了

一個圖靈測試

對于搞科研,Unipat AI 團隊做過一個實驗
拿三組題,找了一個美國高校的博士來盲評。然后問:哪組最像真實研究者寫的?

三組分別是:

  • ? FrontierScience 的 benchmark 原題

  • ? 純人工標注的題

  • ? 人機協作生成的題

對 benchmark 原題,評價是:
中規中矩,看完能立刻想到解法方向

對純人工標注那組:
看起來一知半解,有些地方模糊,不像完全對口的人寫的

對人機協作那組:
這道題的完成度,夠一個新晉教授拿項目申請書用了

專業越深,找到完全對口的人來標就越難。人工標注反而可能是更大的瓶頸
在足夠專的領域,「純人工」未必比「人機協作」更真實

再回到分數上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一個模型,同樣的架構,同樣的算力,不做任何訓練,直接跑 FrontierScience-Research,3 分
用 2000 條他們造的科研數據訓完,大概 15 分
擴到 4700 條,28.3 分

模型沒換,漲的這 25 分是數據喂出來的
邊際效應在哪,再加 10 倍數據會怎樣,目前不知道

整條數據生產的流程大概是這樣的

左邊是專家給出的科學論斷和證據來源,中間是模型做知識擴展,把多個論斷整合成一道完整的研究問題,專家驗證

右邊是從問題里拆出 rubric,再經過一輪演化和專家驗證,最后形成一條完整的訓練數據:研究背景,研究問題,評分標準


UniScientist 推理流程 題目長什么樣

Blog 里放了幾道樣題,隨便看兩道

化學方向
給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric


生態學方向
一個植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數,要求判斷是否存在穩定共存平衡點,算出傳粉者的最低維持閾值,分析對抗壓力下植物崩潰的臨界條件。配了 24 條 rubric


每一道題都要求完整走一遍科研流程:
查文獻建模型算一遍驗證寫報告...

Blog 里還放了一個完整的推理過程。

一道關于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續找,最后交了一份 17000 字的報告,10 條 rubric 全拿滿




鎳酞菁 meso 位氮原子修飾

完整案例在這:
https://unipat.ai/blog/UniScientist

其他

模型是啥,其實不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構,30B 總參數,每次推理激活 3B。128k 上下文,訓練用了約 1200 小時 H200 算力

推理時有四個工具可以調:網絡搜索,Google Scholar,網頁抓取,代碼執行。每次任務最多跑 100 輪,支持多次 rollout 再聚合

說一下這個榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的,專門測科學研究能力。AI 行業有個規律,一個榜出來,各家集中優化,一年左右刷到天花板。這個榜目前各家分差還明顯,還沒到扎堆的階段

具體成績:

  • ? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高

  • ? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平

  • ? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0

  • ? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4

  • ? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7

不帶工具裸跑,成績也比基座有明顯提升。不全是靠工具調用漲的分

模型權重和推理代碼都開源,Apache 2.0


benchmark 詳細對比 以及..

之前和他們團隊聊天的時候,我問到
在這個過程中,有沒有發現什么奇怪或者不一樣的事情?

也確實有:用科研數據訓出來的模型,在通用報告生成任務上也漲了

DeepResearch Bench,ResearchRubrics,這些和科研沒直接關系的榜,分數都跟著上來

不過也合理,做研究這件事,要求主動找證據,提假設,驗證,迭代,最后寫結論,和 DeepResearch 挺像的,一旦建立起來,往外溢,大概是自然的

UniPat AI,去年 12 月成立的研究實驗室。之前發過多模態評測基準 BabyVision,已被多個近期發布的模型納入評測體系

項目地址:
https://github.com/UniPat-AI/UniScientist

模型權重:
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog:
https://unipat.ai/blog/UniScientist

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

荊醫生科普
2026-04-21 15:09:02
NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

懂球帝
2026-04-21 14:26:06
外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

環球網資訊
2026-04-21 15:51:17
記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

懂球帝
2026-04-21 14:47:06
爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

丫頭舫
2026-04-20 23:11:09
對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

青眼財經
2026-04-20 14:48:46
國務院任免國家工作人員

國務院任免國家工作人員

新華社
2026-04-21 11:35:19
近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

燈錦年
2026-04-21 13:28:31
賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

攬星河的筆記
2026-04-21 16:13:50
許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

ETtoday星光云
2026-04-21 17:32:05
伊媒稱伊朗已為戰事重新爆發做好準備

伊媒稱伊朗已為戰事重新爆發做好準備

新華社
2026-04-21 20:08:10
69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

鑒史錄
2026-04-20 22:03:41
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

阿纂看事
2026-04-21 17:42:36
14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

天天熱點見聞
2026-04-21 05:15:28
李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

王楔曉
2026-04-21 04:42:47
美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

泠泠說史
2026-04-21 21:59:17
聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

每日經濟新聞
2026-04-21 14:32:56
不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

小俎娛樂
2026-04-21 03:08:17
狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

籃球掃地僧
2026-04-21 09:47:36
2026-04-21 23:35:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
396文章數 50關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

健康
本地
旅游
家居
公開課

干細胞抗衰4大誤區,90%的人都中招

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

旅游要聞

2026上海國際花卉節普陀賞花指南:TOP中央公園露營,半馬蘇河公園慢跑

家居要聞

詩意光影 窺見自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版