无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

0
分享至



這兩年,視頻生成模型進步很快。清晰度更高了,鏡頭更穩了,人物和場景看上去也越來越自然。很多時候,我們判斷一個模型強不強,看的就是它 “像不像真的”。但這其實只回答了一半的問題:它看起來像真的,不代表它真的符合現實世界的物理規律。這件事放在短視頻生成里,也許只是 “偶爾有點怪”;但如果視頻模型真的要往 world model、仿真系統、具身智能這些方向走,問題就不一樣了。一個模型如果連物體怎么接觸、狀態怎么變化、事件怎么按因果順序發生都搞不清楚,那它再像,也只是像。



現在的視頻評測,更像是在比 “好不好看”

目前,視頻生成領域常見的評測方式,要么看自動指標,要么讓人直接選 “哪個視頻更好”。這種方式當然有意義,它能比較清晰度、流暢度、觀感這些東西,但它很難告訴你:視頻里到底有沒有違反基本物理常識

比如,一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發生了交互;一個動作的結果是不是和前面的過程根本對不上。這些問題,才真正關系到模型是在 “生成一個像真的畫面”,還是在 “模擬一個可信的世界”。

Physion-Eval:從 “視覺真實” 走向 “物理真實” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個 “誰的視頻更好看” 的排行榜,而是想認真回答一個更關鍵的問題:AI 生成的視頻,在物理層面到底有多真實



  • 論文標題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者單位:Physion Labs,斯坦福大學,MIT,哈佛大學,Character AI
  • 論文鏈接: https://arxiv.org/abs/2603.19607
  • 數據集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個 benchmark 同時覆蓋第一人稱和第三人稱場景,包含10,990 條專家推理軌跡,覆蓋22 類細粒度物理現象。和常見評測不太一樣的地方在于,這里的每條樣本不只是簡單打個分,而是會標出錯誤發生在什么時候、屬于哪一類問題,以及為什么不對

數據上,第三人稱部分來自WISA-80K,第一人稱部分基于EPIC-KITCHENS構建。為了保證標注質量,論文組織了90 位具有 STEM 背景并接受過本科物理訓練的專家標注者,采用雙人標注和資深專家裁決的流程,最后得到的是帶時間戳、錯誤類別和文字解釋的高質量標注。

在這一過程中,人類智能所展現出的優勢尤為明顯:人類不僅能夠識別視覺上的異常,更能夠基于物理直覺與因果理解,對復雜的動態過程進行推理和解釋。相比之下,即使是當前最先進的多模態模型,在時序一致性、交互合理性以及隱含物理規律的判斷上,仍存在明顯不足。





最直接的結論:現在的模型,還遠談不上 “物理一致”

這篇工作的主結論其實很簡單,也很扎眼:在物理過程敏感的場景里,83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻,都至少包含一個人類可以明確識別的物理錯誤。這說明什么?說明今天的視頻模型確實越來越會制造 “真實感” 了,但離 “真正符合物理規律” 還有很遠。



而且這些錯誤不是零零散散的小毛病,而是系統性的。論文里總結的典型問題包括:接觸或交互失敗、對象突然出現或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態變化異常、幾何碰撞不合理等等。換句話說,問題不只是 “畫面有點假”,而是模型對物體、接觸、運動和結果之間最基本的關系,還經常搞錯。



很多錯誤不是粗糙,而是 “看著像,但其實完全不對”

Physion-Eval 里最有意思的地方,其實是那些具體例子。它們不是那種一眼就看出來的低級 bug,而是第一眼好像還行,仔細一想卻明顯不符合常識。

比如,桌面上突然多出一把本來不存在的刀;瓶口朝下,液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來。它們的問題不在于 “渲染不精細”,而在于直接違背了物體守恒、重力、不可穿透性和穩定接觸這些最基本的物理規律。

這也是為什么我們覺得,這項工作不只是 “又多了一個 benchmark”。它更像是在提醒大家:今天很多模型也許已經很會生成 “像真的視頻”,但還遠沒有學會 “世界為什么會這樣動”。





更麻煩的是,連最強的多模態模型也不太會看這些錯誤

論文還問了另一個很現實的問題:那能不能讓現在的大模型來當 “自動評委”,替人判斷一個視頻有沒有物理問題?

答案是,暫時還不行。

文章評估了10 個開源和閉源的 MLLM critic,結果顯示,它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例,它會漏掉超過74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻。而且它們不只是漏檢,還會把錯誤發生的時間說錯,甚至編出根本不存在的原因。

這點其實很關鍵。因為如果以后大家真想靠自動 critic 去評估 world model 或視頻生成系統,那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來看,人類判斷依然是最可靠的標準。









越是高動態的物理過程,越容易暴露當前模型的短板

論文進一步從physical intensitydynamics兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現。結果表明,相比強度大小,過程本身的動態性和復雜性更容易暴露視頻生成模型的物理建模缺陷。對 MLLM critic 來說也是如此:只有當錯誤足夠明顯時,它們才會表現出有限的判斷能力,但整體仍明顯落后于人類。







總結

Physion-Eval 想指出的,不只是 “現在的視頻生成模型還不夠強”,而是一個更根本的問題:當行業越來越關注視頻 “看起來有多真” 的時候,我們可能忽略了它 “實際上對不對”

對于真正想做 world model、機器人、具身智能和仿真的人來說,這個問題繞不過去。畫面更清晰、動作更順滑,當然重要;但如果物體會無故出現,液體不會往下流,動作結果和前因對不上,那模型就還沒有真正學會世界的運行方式。

視頻生成下一階段,也許不該只繼續卷觀感,而應該更認真地去解決物體持續性、接觸關系、狀態變化、時序一致性和因果結構這些更本質的問題。“看起來對”,從來不等于 “實際上對”

作者介紹

本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成,集結 Physion Labs、斯坦福大學、MIT、哈佛大學及 Character AI 的核心研究者。其中,Physion Labs 團隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題,構建了面向行業的評估基礎設施與數據閉環,致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工學院的 Fangqiang Ding,哈佛大學的 Yilun Du,以及 Character AI 的 Weimin Wang 等業內頂尖學者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
訂單太多?特斯拉中國:Model 3 全系...

訂單太多?特斯拉中國:Model 3 全系...

新浪財經
2026-06-12 22:30:54
斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

斷糧斷水快撐不住了,菲方對中國喊話:再不撤就開打,必有一戰

瀲滟晴方DAY
2026-06-12 18:49:43
世界杯才踢兩天,冠軍已經能看出來了,不是阿根廷也不是法國

世界杯才踢兩天,冠軍已經能看出來了,不是阿根廷也不是法國

童叔不飆車
2026-06-13 01:58:22
馬斯克正式成為人類首個10000億美元富豪,還帶動約400名員工成為億萬富翁;這些錢每小時花100萬美元、24小時不停,需要超114年才能花完

馬斯克正式成為人類首個10000億美元富豪,還帶動約400名員工成為億萬富翁;這些錢每小時花100萬美元、24小時不停,需要超114年才能花完

極目新聞
2026-06-12 22:28:06
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
鵝腿阿姨真正可怕的地方

鵝腿阿姨真正可怕的地方

燕梳樓頻道
2026-06-12 14:09:06
現在的年輕人不敢開房了

現在的年輕人不敢開房了

微微熱評
2026-06-13 00:53:53
謝娜巡演風波升級!官方出手,更多荒唐行為被扒,張杰都救不了她

謝娜巡演風波升級!官方出手,更多荒唐行為被扒,張杰都救不了她

李健政觀察
2026-06-11 21:45:16
美國五角大樓已被封鎖!

美國五角大樓已被封鎖!

閃電新聞
2026-06-11 23:45:45
美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

澎湃新聞
2026-06-12 17:40:29
清華副教授蔣勁松去世,享年61歲

清華副教授蔣勁松去世,享年61歲

大風新聞
2026-06-12 16:05:15
韓國也有胡爾克!25歲吳賢揆世界杯首秀致勝 大腿肌肉如綠巨人

韓國也有胡爾克!25歲吳賢揆世界杯首秀致勝 大腿肌肉如綠巨人

智道足球
2026-06-12 16:51:52
中方宣布對菲制裁令,不到24小時,菲防長對華發聲,態度很強硬

中方宣布對菲制裁令,不到24小時,菲防長對華發聲,態度很強硬

李健政觀察
2026-06-12 15:05:01
韓國2-1逆轉出線在望,女球迷又火了,身材顏值都在線,笑容很甜

韓國2-1逆轉出線在望,女球迷又火了,身材顏值都在線,笑容很甜

球盲百小易
2026-06-12 19:28:00
美軍開始空襲伊朗

美軍開始空襲伊朗

財聯社
2026-06-11 05:42:11
老人入住精神病院7年后查出梅毒;哈爾濱精神專科白漁泡醫院稱系舊疾,家屬出示入院前梅毒陰性檢測報告反駁

老人入住精神病院7年后查出梅毒;哈爾濱精神專科白漁泡醫院稱系舊疾,家屬出示入院前梅毒陰性檢測報告反駁

大風新聞
2026-06-12 12:12:20
菲防長回應被華制裁,外交部:特奧多羅仍在顛倒黑白、攻擊抹黑,其言行是撈取政治私利的作秀表演

菲防長回應被華制裁,外交部:特奧多羅仍在顛倒黑白、攻擊抹黑,其言行是撈取政治私利的作秀表演

環球網資訊
2026-06-12 15:33:08
27公斤被盜黃金悉數追回,南京警方破獲國內最大黃金盜竊案件

27公斤被盜黃金悉數追回,南京警方破獲國內最大黃金盜竊案件

現代快報
2026-06-12 14:11:13
克羅地亞美女總統,身材豐滿穿緊身球衣助陣,是世界杯頭號女球迷

克羅地亞美女總統,身材豐滿穿緊身球衣助陣,是世界杯頭號女球迷

秋姐居
2026-06-12 22:00:29
存款去哪了?居民存款連續兩個月減少:合計縮水超2萬億元

存款去哪了?居民存款連續兩個月減少:合計縮水超2萬億元

南方都市報
2026-06-12 20:36:03
2026-06-13 05:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

教育
家居
本地
親子
公開課

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

家居要聞

空間微調 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版