網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

SeePhys Pro：重新審視多模態(tài)物理推理中的視覺理解與訓(xùn)練收益

2026-05-19 11:35:40　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。

隨著多模態(tài)大模型在科學(xué)推理任務(wù)中的應(yīng)用不斷擴(kuò)展，一個(gè)更基礎(chǔ)的問題開始顯現(xiàn)：當(dāng)同一物理問題從文本表達(dá)轉(zhuǎn)為圖像表達(dá)時(shí)，模型是否仍能保持一致的推理能力？圍繞這一問題，來(lái)自中山大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、華為的研究者聯(lián)合提出了SeePhys Pro ，這是一套面向多模態(tài)物理推理的細(xì)粒度評(píng)測(cè)與訓(xùn)練診斷框架。

項(xiàng)目同時(shí)發(fā)布細(xì)粒度模態(tài)遷移 benchmark、PhysRL-38K / PhysRL-8K 訓(xùn)練集、評(píng)測(cè)代碼與 RLVR 復(fù)現(xiàn)實(shí)驗(yàn)，并作為 ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放供社區(qū)測(cè)評(píng)。

核心亮點(diǎn)

?漸進(jìn)式模態(tài)遷移基準(zhǔn)：通過四個(gè)語(yǔ)義對(duì)齊的子集逐步將結(jié)構(gòu)、變量和完整題干從文本轉(zhuǎn)入視覺模態(tài)。

?多模態(tài)推理瓶頸：模型對(duì)變量與標(biāo)簽信息的視覺grounding能力遠(yuǎn)弱于對(duì)結(jié)構(gòu)化視覺信息的理解。

?強(qiáng)化學(xué)習(xí)數(shù)據(jù)庫(kù)：發(fā)布 PhysRL-38K 與視覺依賴的子集PhysRL-8K，用于推進(jìn)物理推理領(lǐng)域的強(qiáng)化學(xué)習(xí)研究與訓(xùn)練結(jié)果診斷。

?遮蔽訓(xùn)練與思考：遮蔽訓(xùn)練圖像后模型仍可變強(qiáng)，提示研究者需使用視覺一致性和準(zhǔn)確性指標(biāo)一同來(lái)判別RLVR是否真正提升多模態(tài)推理能力。

基準(zhǔn)設(shè)計(jì)

SeePhys Pro 采用 same physics, different representation 的設(shè)計(jì)原則。每個(gè)種子問題保持物理系統(tǒng)、目標(biāo)量、解題路徑和答案一致，只改變關(guān)鍵信息的模態(tài)載體。

L1 為純文本題，L2 將物理結(jié)構(gòu)放入圖像，L3 進(jìn)一步將變量和標(biāo)簽放入圖像，L4 將完整題干渲染為視覺輸入。這一設(shè)計(jì)將文本推理、結(jié)構(gòu)遷移、信息定位、端到端理解實(shí)現(xiàn)了分開評(píng)估。

圖 1：SeePhys Pro 的四級(jí)模態(tài)遷移設(shè)計(jì)。

數(shù)據(jù)引擎

數(shù)據(jù)來(lái)自公共數(shù)據(jù)集、教材、奧賽檔案、考試題和習(xí)題材料。候選題經(jīng)過 OCR、去重、過濾、標(biāo)準(zhǔn)化、人工校驗(yàn)和圖像重繪，形成可控的四級(jí)模態(tài)遷移樣本。

最終 benchmark 包含 1,000 道種子題和 4,000 個(gè)四級(jí)變體，覆蓋 6 個(gè)物理學(xué)科、38 個(gè)領(lǐng)域和 104 個(gè)細(xì)分方向。

圖 2：SeePhys Pro 數(shù)據(jù)構(gòu)建流程。

測(cè)評(píng)結(jié)果

評(píng)測(cè)覆蓋 10 個(gè)閉源模型和 5 個(gè)開源模型。總體結(jié)果顯示，當(dāng)前模型在關(guān)鍵信息從文本轉(zhuǎn)向圖像時(shí)仍存在明顯表示不穩(wěn)定性。

平均準(zhǔn)確率從 L1 的 49.2% 降至 L4 的 35.8%，平均總模態(tài)遷移 gap 為 13.4 個(gè)百分點(diǎn)。分階段結(jié)果顯示，視覺變量 grounding 是主要瓶頸，L2 到 L3 的平均 gap 達(dá)到 7.4 個(gè)百分點(diǎn)。

RLVR與遮蔽訓(xùn)練

論文進(jìn)一步構(gòu)建面向物理推理的強(qiáng)化學(xué)習(xí)訓(xùn)練集 PhysRL-38K ，研究 RLVR 能否縮小 SeePhys Pro 定義的模態(tài)遷移 gap。論文使用GSPO作為基準(zhǔn)算法，驗(yàn)證發(fā)現(xiàn)PhysRL能夠帶來(lái)普遍的物理推理性能提升。

除Normal RL之外，我們引入了Blind RL和視覺必要性訓(xùn)練集PhysRL-8K來(lái)驗(yàn)證RLVR是否真正讓模型學(xué)習(xí)到視覺推理能力。研究發(fā)現(xiàn)即使去除圖像信息，經(jīng)過強(qiáng)化學(xué)習(xí)的模型也能在多個(gè)當(dāng)前流行的基準(zhǔn)上獲得提升。與此同時(shí)，總的模態(tài)遷移 gap 和變量 grounding gap 保持較大。這些反常的結(jié)果說(shuō)明推理能力的提升往往源于文本捷徑，而對(duì)于多模態(tài)理解能力的測(cè)評(píng)需要結(jié)合答案準(zhǔn)確率與視覺一致性指標(biāo)來(lái)共同分析。

圖 3：Normal RL 與 Blind RL 在 SeePhys Pro 上的訓(xùn)練診斷。

跨基準(zhǔn)測(cè)試與機(jī)制分析

Blind RL 的收益也出現(xiàn)在外部物理和數(shù)學(xué) benchmark 上。機(jī)制分析進(jìn)一步顯示，blind gain 會(huì)隨文本刪除而衰減（刪除50%之后尤為明顯），且訓(xùn)練分布中的殘余語(yǔ)言、模板、答案先驗(yàn)和題型規(guī)律都會(huì)貢獻(xiàn)一部分非視覺收益。

這些結(jié)果提示，多模態(tài) RLVR 的評(píng)估需要同時(shí)關(guān)注最終答案、模態(tài)遷移 gap、變量 grounding 和訓(xùn)練信號(hào)來(lái)源。

圖 4：Normal RL 與 Blind RL 的跨 benchmark 對(duì)比。

圖 5：Blind-training gains 的機(jī)制控制實(shí)驗(yàn)。

總結(jié)

SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。它強(qiáng)調(diào)，多模態(tài)物理推理需要報(bào)告最終答案準(zhǔn)確率，也需要報(bào)告跨表示一致性、視覺變量 grounding 和 gap closure。

這一框架為多模態(tài)推理場(chǎng)景下的模型評(píng)測(cè)提供了更細(xì)粒度的診斷工具，也為后續(xù)物理 RLVR 訓(xùn)練研究提供了可復(fù)現(xiàn)的數(shù)據(jù)和代碼基礎(chǔ)。

項(xiàng)目入口

主頁(yè)：https://seephyspro.github.io

GitHub倉(cāng)庫(kù)：https://github.com/AI4Phys/SeePhy-Pro

SeePhys Pro基準(zhǔn)數(shù)據(jù)：https://huggingface.co/datasets/Kun-Xiang/SeePhysPro

PhysRL訓(xùn)練數(shù)據(jù)：https://huggingface.co/datasets/Kun-Xiang/PhysRL

此外，本項(xiàng)目還作為第三屆ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放，獎(jiǎng)金高達(dá)

2000美元，歡迎學(xué)界與工業(yè)屆研究者參與打榜～

Workshop鏈接：https://ai4math2026.github.io/

Challenge鏈接：https://www.codabench.org/competitions/16010/

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.