![]()
SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。
隨著多模態(tài)大模型在科學(xué)推理任務(wù)中的應(yīng)用不斷擴(kuò)展,一個(gè)更基礎(chǔ)的問題開始顯現(xiàn):當(dāng)同一物理問題從文本表達(dá)轉(zhuǎn)為圖像表達(dá)時(shí),模型是否仍能保持一致的推理能力?圍繞這一問題,來(lái)自中山大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、華為的研究者聯(lián)合提出了SeePhys Pro ,這是一套面向多模態(tài)物理推理的細(xì)粒度評(píng)測(cè)與訓(xùn)練診斷框架。
項(xiàng)目同時(shí)發(fā)布細(xì)粒度模態(tài)遷移 benchmark、PhysRL-38K / PhysRL-8K 訓(xùn)練集、評(píng)測(cè)代碼與 RLVR 復(fù)現(xiàn)實(shí)驗(yàn),并作為 ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放供社區(qū)測(cè)評(píng)。
01
核心亮點(diǎn)
?漸進(jìn)式模態(tài)遷移基準(zhǔn):通過四個(gè)語(yǔ)義對(duì)齊的子集逐步將結(jié)構(gòu)、變量和完整題干從文本轉(zhuǎn)入視覺模態(tài)。
?多模態(tài)推理瓶頸:模型對(duì)變量與標(biāo)簽信息的視覺grounding能力遠(yuǎn)弱于對(duì)結(jié)構(gòu)化視覺信息的理解。
?強(qiáng)化學(xué)習(xí)數(shù)據(jù)庫(kù):發(fā)布 PhysRL-38K 與 視覺依賴的子集PhysRL-8K,用于推進(jìn)物理推理領(lǐng)域的強(qiáng)化學(xué)習(xí)研究與訓(xùn)練結(jié)果診斷。
?遮蔽訓(xùn)練與思考:遮蔽訓(xùn)練圖像后模型仍可變強(qiáng),提示研究者需使用視覺一致性和準(zhǔn)確性指標(biāo)一同來(lái)判別RLVR是否真正提升多模態(tài)推理能力。
02
基準(zhǔn)設(shè)計(jì)
SeePhys Pro 采用 same physics, different representation 的設(shè)計(jì)原則。每個(gè)種子問題保持物理系統(tǒng)、目標(biāo)量、解題路徑和答案一致,只改變關(guān)鍵信息的模態(tài)載體。
L1 為純文本題,L2 將物理結(jié)構(gòu)放入圖像,L3 進(jìn)一步將變量和標(biāo)簽放入圖像,L4 將完整題干渲染為視覺輸入。這一設(shè)計(jì)將文本推理、結(jié)構(gòu)遷移、信息定位、端到端理解實(shí)現(xiàn)了分開評(píng)估。
![]()
圖 1:SeePhys Pro 的四級(jí)模態(tài)遷移設(shè)計(jì)。
03
數(shù)據(jù)引擎
數(shù)據(jù)來(lái)自公共數(shù)據(jù)集、教材、奧賽檔案、考試題和習(xí)題材料。候選題經(jīng)過 OCR、去重、過濾、標(biāo)準(zhǔn)化、人工校驗(yàn)和圖像重繪,形成可控的四級(jí)模態(tài)遷移樣本。
最終 benchmark 包含 1,000 道種子題和 4,000 個(gè)四級(jí)變體,覆蓋 6 個(gè)物理學(xué)科、38 個(gè)領(lǐng)域和 104 個(gè)細(xì)分方向。
![]()
圖 2:SeePhys Pro 數(shù)據(jù)構(gòu)建流程。
04
測(cè)評(píng)結(jié)果
評(píng)測(cè)覆蓋 10 個(gè)閉源模型和 5 個(gè)開源模型。總體結(jié)果顯示,當(dāng)前模型在關(guān)鍵信息從文本轉(zhuǎn)向圖像時(shí)仍存在明顯表示不穩(wěn)定性。
平均準(zhǔn)確率從 L1 的 49.2% 降至 L4 的 35.8%,平均總模態(tài)遷移 gap 為 13.4 個(gè)百分點(diǎn)。分階段結(jié)果顯示,視覺變量 grounding 是主要瓶頸,L2 到 L3 的平均 gap 達(dá)到 7.4 個(gè)百分點(diǎn)。
![]()
05
RLVR與遮蔽訓(xùn)練
論文進(jìn)一步構(gòu)建面向物理推理的強(qiáng)化學(xué)習(xí)訓(xùn)練集 PhysRL-38K ,研究 RLVR 能否縮小 SeePhys Pro 定義的模態(tài)遷移 gap。論文使用GSPO作為基準(zhǔn)算法,驗(yàn)證發(fā)現(xiàn)PhysRL能夠帶來(lái)普遍的物理推理性能提升。
除Normal RL之外,我們引入了Blind RL和視覺必要性訓(xùn)練集PhysRL-8K來(lái)驗(yàn)證RLVR是否真正讓模型學(xué)習(xí)到視覺推理能力。研究發(fā)現(xiàn)即使去除圖像信息,經(jīng)過強(qiáng)化學(xué)習(xí)的模型也能在多個(gè)當(dāng)前流行的基準(zhǔn)上獲得提升。與此同時(shí),總的模態(tài)遷移 gap 和變量 grounding gap 保持較大。這些反常的結(jié)果說(shuō)明推理能力的提升往往源于文本捷徑,而對(duì)于多模態(tài)理解能力的測(cè)評(píng)需要結(jié)合答案準(zhǔn)確率與視覺一致性指標(biāo)來(lái)共同分析。
![]()
圖 3:Normal RL 與 Blind RL 在 SeePhys Pro 上的訓(xùn)練診斷。
06
跨基準(zhǔn)測(cè)試與機(jī)制分析
Blind RL 的收益也出現(xiàn)在外部物理和數(shù)學(xué) benchmark 上。機(jī)制分析進(jìn)一步顯示,blind gain 會(huì)隨文本刪除而衰減(刪除50%之后尤為明顯),且訓(xùn)練分布中的殘余語(yǔ)言、模板、答案先驗(yàn)和題型規(guī)律都會(huì)貢獻(xiàn)一部分非視覺收益。
這些結(jié)果提示,多模態(tài) RLVR 的評(píng)估需要同時(shí)關(guān)注最終答案、模態(tài)遷移 gap、變量 grounding 和訓(xùn)練信號(hào)來(lái)源。
![]()
圖 4:Normal RL 與 Blind RL 的跨 benchmark 對(duì)比。
![]()
圖 5:Blind-training gains 的機(jī)制控制實(shí)驗(yàn)。
07
總結(jié)
SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。它強(qiáng)調(diào),多模態(tài)物理推理需要報(bào)告最終答案準(zhǔn)確率,也需要報(bào)告跨表示一致性、視覺變量 grounding 和 gap closure。
這一框架為多模態(tài)推理場(chǎng)景下的模型評(píng)測(cè)提供了更細(xì)粒度的診斷工具,也為后續(xù)物理 RLVR 訓(xùn)練研究提供了可復(fù)現(xiàn)的數(shù)據(jù)和代碼基礎(chǔ)。
08
項(xiàng)目入口
主頁(yè):https://seephyspro.github.io
GitHub倉(cāng)庫(kù):https://github.com/AI4Phys/SeePhy-Pro
SeePhys Pro基準(zhǔn)數(shù)據(jù):https://huggingface.co/datasets/Kun-Xiang/SeePhysPro
PhysRL訓(xùn)練數(shù)據(jù):https://huggingface.co/datasets/Kun-Xiang/PhysRL
此外,本項(xiàng)目還作為第三屆ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放,獎(jiǎng)金高達(dá)
2000美元,歡迎學(xué)界與工業(yè)屆研究者參與打榜~
Workshop鏈接:https://ai4math2026.github.io/
Challenge鏈接:https://www.codabench.org/competitions/16010/
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.