无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SeePhys Pro:重新審視多模態(tài)物理推理中的視覺理解與訓(xùn)練收益

0
分享至


SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。

隨著多模態(tài)大模型在科學(xué)推理任務(wù)中的應(yīng)用不斷擴(kuò)展,一個(gè)更基礎(chǔ)的問題開始顯現(xiàn):當(dāng)同一物理問題從文本表達(dá)轉(zhuǎn)為圖像表達(dá)時(shí),模型是否仍能保持一致的推理能力?圍繞這一問題,來(lái)自中山大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、華為的研究者聯(lián)合提出了SeePhys Pro ,這是一套面向多模態(tài)物理推理的細(xì)粒度評(píng)測(cè)與訓(xùn)練診斷框架。

項(xiàng)目同時(shí)發(fā)布細(xì)粒度模態(tài)遷移 benchmark、PhysRL-38K / PhysRL-8K 訓(xùn)練集、評(píng)測(cè)代碼與 RLVR 復(fù)現(xiàn)實(shí)驗(yàn),并作為 ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放供社區(qū)測(cè)評(píng)。

01


核心亮點(diǎn)

?漸進(jìn)式模態(tài)遷移基準(zhǔn):通過四個(gè)語(yǔ)義對(duì)齊的子集逐步將結(jié)構(gòu)、變量和完整題干從文本轉(zhuǎn)入視覺模態(tài)。

?多模態(tài)推理瓶頸:模型對(duì)變量與標(biāo)簽信息的視覺grounding能力遠(yuǎn)弱于對(duì)結(jié)構(gòu)化視覺信息的理解。

?強(qiáng)化學(xué)習(xí)數(shù)據(jù)庫(kù):發(fā)布 PhysRL-38K 與 視覺依賴的子集PhysRL-8K,用于推進(jìn)物理推理領(lǐng)域的強(qiáng)化學(xué)習(xí)研究與訓(xùn)練結(jié)果診斷。

?遮蔽訓(xùn)練與思考:遮蔽訓(xùn)練圖像后模型仍可變強(qiáng),提示研究者需使用視覺一致性和準(zhǔn)確性指標(biāo)一同來(lái)判別RLVR是否真正提升多模態(tài)推理能力。

02


基準(zhǔn)設(shè)計(jì)

SeePhys Pro 采用 same physics, different representation 的設(shè)計(jì)原則。每個(gè)種子問題保持物理系統(tǒng)、目標(biāo)量、解題路徑和答案一致,只改變關(guān)鍵信息的模態(tài)載體。

L1 為純文本題,L2 將物理結(jié)構(gòu)放入圖像,L3 進(jìn)一步將變量和標(biāo)簽放入圖像,L4 將完整題干渲染為視覺輸入。這一設(shè)計(jì)將文本推理、結(jié)構(gòu)遷移、信息定位、端到端理解實(shí)現(xiàn)了分開評(píng)估。


圖 1:SeePhys Pro 的四級(jí)模態(tài)遷移設(shè)計(jì)。

03


數(shù)據(jù)引擎

數(shù)據(jù)來(lái)自公共數(shù)據(jù)集、教材、奧賽檔案、考試題和習(xí)題材料。候選題經(jīng)過 OCR、去重、過濾、標(biāo)準(zhǔn)化、人工校驗(yàn)和圖像重繪,形成可控的四級(jí)模態(tài)遷移樣本。

最終 benchmark 包含 1,000 道種子題和 4,000 個(gè)四級(jí)變體,覆蓋 6 個(gè)物理學(xué)科、38 個(gè)領(lǐng)域和 104 個(gè)細(xì)分方向。


圖 2:SeePhys Pro 數(shù)據(jù)構(gòu)建流程。

04


測(cè)評(píng)結(jié)果

評(píng)測(cè)覆蓋 10 個(gè)閉源模型和 5 個(gè)開源模型。總體結(jié)果顯示,當(dāng)前模型在關(guān)鍵信息從文本轉(zhuǎn)向圖像時(shí)仍存在明顯表示不穩(wěn)定性。

平均準(zhǔn)確率從 L1 的 49.2% 降至 L4 的 35.8%,平均總模態(tài)遷移 gap 為 13.4 個(gè)百分點(diǎn)。分階段結(jié)果顯示,視覺變量 grounding 是主要瓶頸,L2 到 L3 的平均 gap 達(dá)到 7.4 個(gè)百分點(diǎn)。


05


RLVR與遮蔽訓(xùn)練

論文進(jìn)一步構(gòu)建面向物理推理的強(qiáng)化學(xué)習(xí)訓(xùn)練集 PhysRL-38K ,研究 RLVR 能否縮小 SeePhys Pro 定義的模態(tài)遷移 gap。論文使用GSPO作為基準(zhǔn)算法,驗(yàn)證發(fā)現(xiàn)PhysRL能夠帶來(lái)普遍的物理推理性能提升。

除Normal RL之外,我們引入了Blind RL和視覺必要性訓(xùn)練集PhysRL-8K來(lái)驗(yàn)證RLVR是否真正讓模型學(xué)習(xí)到視覺推理能力。研究發(fā)現(xiàn)即使去除圖像信息,經(jīng)過強(qiáng)化學(xué)習(xí)的模型也能在多個(gè)當(dāng)前流行的基準(zhǔn)上獲得提升。與此同時(shí),總的模態(tài)遷移 gap 和變量 grounding gap 保持較大。這些反常的結(jié)果說(shuō)明推理能力的提升往往源于文本捷徑,而對(duì)于多模態(tài)理解能力的測(cè)評(píng)需要結(jié)合答案準(zhǔn)確率視覺一致性指標(biāo)來(lái)共同分析。


圖 3:Normal RL 與 Blind RL 在 SeePhys Pro 上的訓(xùn)練診斷。

06


跨基準(zhǔn)測(cè)試與機(jī)制分析

Blind RL 的收益也出現(xiàn)在外部物理和數(shù)學(xué) benchmark 上。機(jī)制分析進(jìn)一步顯示,blind gain 會(huì)隨文本刪除而衰減(刪除50%之后尤為明顯),且訓(xùn)練分布中的殘余語(yǔ)言、模板、答案先驗(yàn)和題型規(guī)律都會(huì)貢獻(xiàn)一部分非視覺收益。

這些結(jié)果提示,多模態(tài) RLVR 的評(píng)估需要同時(shí)關(guān)注最終答案、模態(tài)遷移 gap、變量 grounding 和訓(xùn)練信號(hào)來(lái)源。


圖 4:Normal RL 與 Blind RL 的跨 benchmark 對(duì)比。


圖 5:Blind-training gains 的機(jī)制控制實(shí)驗(yàn)。

07


總結(jié)

SeePhys Pro 提供了一套從 test-time 模態(tài)遷移到 training-time RLVR 診斷的評(píng)測(cè)框架。它強(qiáng)調(diào),多模態(tài)物理推理需要報(bào)告最終答案準(zhǔn)確率,也需要報(bào)告跨表示一致性、視覺變量 grounding 和 gap closure。

這一框架為多模態(tài)推理場(chǎng)景下的模型評(píng)測(cè)提供了更細(xì)粒度的診斷工具,也為后續(xù)物理 RLVR 訓(xùn)練研究提供了可復(fù)現(xiàn)的數(shù)據(jù)和代碼基礎(chǔ)。

08


項(xiàng)目入口

主頁(yè):https://seephyspro.github.io

GitHub倉(cāng)庫(kù):https://github.com/AI4Phys/SeePhy-Pro

SeePhys Pro基準(zhǔn)數(shù)據(jù):https://huggingface.co/datasets/Kun-Xiang/SeePhysPro

PhysRL訓(xùn)練數(shù)據(jù):https://huggingface.co/datasets/Kun-Xiang/PhysRL

此外,本項(xiàng)目還作為第三屆ICML 2026 AI4Math Workshop的挑戰(zhàn)賽開放,獎(jiǎng)金高達(dá)

2000美元,歡迎學(xué)界與工業(yè)屆研究者參與打榜~

Workshop鏈接:https://ai4math2026.github.io/

Challenge鏈接:https://www.codabench.org/competitions/16010/

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
【世界杯】卡塔爾VS瑞士 世界杯開賽以來(lái)最良心的一場(chǎng)比賽!

【世界杯】卡塔爾VS瑞士 世界杯開賽以來(lái)最良心的一場(chǎng)比賽!

朝天門足球
2026-06-13 11:23:08
遇見小面起訴后續(xù)!索賠八千為何突然認(rèn)慫,吃相難看結(jié)局大快人心

遇見小面起訴后續(xù)!索賠八千為何突然認(rèn)慫,吃相難看結(jié)局大快人心

大魚簡(jiǎn)科
2026-06-13 19:14:22
開封3歲男童失聯(lián)新進(jìn)展!救援隊(duì)透可疑細(xì)節(jié),家屬疑慮,恐要成真

開封3歲男童失聯(lián)新進(jìn)展!救援隊(duì)透可疑細(xì)節(jié),家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 22:42:59
制裁不到48小時(shí),菲律賓開始內(nèi)訌:軍方公開站隊(duì),并選擇對(duì)抗中國(guó)

制裁不到48小時(shí),菲律賓開始內(nèi)訌:軍方公開站隊(duì),并選擇對(duì)抗中國(guó)

銘記歷史呀
2026-06-13 16:02:30
中東那個(gè)惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

中東那個(gè)惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

花折亦度無(wú)情
2026-06-13 16:49:17
剛剛,馬斯克成人類史上首位萬(wàn)億富翁,但全網(wǎng)最羨慕的是 SpaceX 焊工

剛剛,馬斯克成人類史上首位萬(wàn)億富翁,但全網(wǎng)最羨慕的是 SpaceX 焊工

AppSo
2026-06-13 09:42:15
提醒:煮熟也有毒。一口都別吃!很多家庭天天在吃,看完趕緊扔!

提醒:煮熟也有毒。一口都別吃!很多家庭天天在吃,看完趕緊扔!

王二哥老搞笑
2026-06-11 13:31:51
兩名中國(guó)人在泰被判死刑,中方送上一句話,讓泰國(guó)懸著的心落地了

兩名中國(guó)人在泰被判死刑,中方送上一句話,讓泰國(guó)懸著的心落地了

基斯默默
2026-06-13 14:25:21
2億歐,亞馬爾身價(jià)超兩支世界杯東道主球隊(duì)全隊(duì)身價(jià)

2億歐,亞馬爾身價(jià)超兩支世界杯東道主球隊(duì)全隊(duì)身價(jià)

懂球帝
2026-06-12 22:06:20
菲防長(zhǎng)沒想到,繼全家被中方制裁后,還有更慘的:中國(guó)恐?jǐn)喙┗?>
    </a>
        <h3>
      <a href=有范又有料
2026-06-13 17:56:58
中國(guó)人保集團(tuán)原黨委委員、副總裁俞小平被查

中國(guó)人保集團(tuán)原黨委委員、副總裁俞小平被查

澎湃新聞
2026-06-13 18:58:26
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
史上最大金融危機(jī)將至?中國(guó)學(xué)者預(yù)警,征兆出現(xiàn),中方已備好底牌

史上最大金融危機(jī)將至?中國(guó)學(xué)者預(yù)警,征兆出現(xiàn),中方已備好底牌

破鏡難圓
2026-06-13 12:04:54
世界杯最猛亞洲隊(duì)來(lái)了!日本首發(fā)11人全五大聯(lián)賽,實(shí)力超越法國(guó)

世界杯最猛亞洲隊(duì)來(lái)了!日本首發(fā)11人全五大聯(lián)賽,實(shí)力超越法國(guó)

十點(diǎn)體壇
2026-06-13 23:00:16
誰(shuí)能想到,1-0擊敗巴西,2-1擊敗阿根廷的球隊(duì),世界杯首戰(zhàn)被打花

誰(shuí)能想到,1-0擊敗巴西,2-1擊敗阿根廷的球隊(duì),世界杯首戰(zhàn)被打花

小樓侃體育
2026-06-13 15:09:09
到底真的假的?網(wǎng)傳幾乎所有大學(xué)專業(yè)都在勸退…

到底真的假的?網(wǎng)傳幾乎所有大學(xué)專業(yè)都在勸退…

慧翔百科
2026-06-12 17:40:37
全球90%都是日本產(chǎn)?竟無(wú)一國(guó)成功復(fù)刻,一旦斷供我國(guó)該如何應(yīng)對(duì)

全球90%都是日本產(chǎn)?竟無(wú)一國(guó)成功復(fù)刻,一旦斷供我國(guó)該如何應(yīng)對(duì)

金錯(cuò)刀
2026-06-12 18:22:07
英格蘭被“偷家”后續(xù):絕大部分被盜物品被追回

英格蘭被“偷家”后續(xù):絕大部分被盜物品被追回

體壇周報(bào)
2026-06-13 21:18:29
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
A股,重大調(diào)整!就在下周一

A股,重大調(diào)整!就在下周一

證券時(shí)報(bào)
2026-06-13 22:02:33
2026-06-14 06:15:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7372文章數(shù) 20757關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬(wàn)億美元,馬斯克再封神

頭條要聞

特朗普:美伊協(xié)議計(jì)劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協(xié)議計(jì)劃周日簽署 如不順利還有終極手段

體育要聞

美國(guó)4比1巴拉圭:這統(tǒng)治力真是美國(guó)隊(duì)?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財(cái)經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時(shí)15.49萬(wàn)元起

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
公開課
軍事航空

教育要聞

干脆把爹媽也換了!女兒高考完讓家長(zhǎng)崩潰,不讓人喘口氣嗎嘛

本地新聞

AK劉彰邂逅河北南大港濕地

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長(zhǎng)披露伊美諒解備忘錄草案部分內(nèi)容

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版