![]()
視覺-語言與多模態(tài)LLM論文占比一年飆漲5.7個百分點,CVPR正以前所未有的速度把具身智能推上主賽道。
作者丨陳淑瑜
編輯丨岑峰
16,092篇投稿,4,071篇錄用,25.3%錄取率,今年的CVPR創(chuàng)下了多項歷史紀錄。
但比數(shù)字更具風向標意義的是行業(yè)風向:5篇獲獎?wù)撐闹兄辽?篇直指具身智能;展臺上NVIDIA和Tesla正合力把機器人從實驗室推向商業(yè)化;一場關(guān)于“可編程生物學(xué)”的重磅演講,則徹底打破了計算機視覺與傳統(tǒng)藥物設(shè)計的邊界。
如果你沒能親自前往丹佛,這篇全景盤點將帶你用最短的時間,一眼看透本屆大會的全部精髓。
01
5篇論文:從4D重建到一步式編輯,
具身智能全面接管
今年CVPR的最佳論文獎項共有74篇入圍,15篇進入決賽圈,最終5篇獲獎。
縱觀這些獲獎作品,能發(fā)現(xiàn)一個顯而易見的行業(yè)共性:計算機視覺正從“被動感知”走向“主動理解與行動”。
▎最佳論文:D4RT——讓機器人“看見”第四個維度
動態(tài)場景的4D重建一直是計算機視覺中的“硬骨頭”。現(xiàn)有方法要么把任務(wù)拆成多個模塊分別處理,慢且復(fù)雜。要么無法處理動態(tài)區(qū)域的對應(yīng)關(guān)系,要么兩者皆有。
D4RT的核心貢獻在于范式轉(zhuǎn)換。模型先用編碼器把整段視頻壓縮成一個全局場景表示,再用一個輕量解碼器按需回答“視頻中某個點在某個時刻的3D位置是什么”,深度圖、點云、點軌跡、相機參數(shù)全部通過同一套查詢接口輸出。
這一設(shè)計的精妙之處在于“統(tǒng)一解碼接口”,避免了逐幀密集解碼的巨大開銷,讓模型可以獨立且靈活地探測空間中任意點在任意時刻的3D位置。比前代方法快300倍,在動態(tài)4D重建與追蹤任務(wù)上達到新的SOTA,并支持對視頻全部像素進行稠密整體重建。
D4RT對具身智能的意義尤為深遠。機器人在動態(tài)環(huán)境中需要理解并預(yù)測人的動作,D4RT的“全像素跟蹤”能力提供了時空連續(xù)的人體運動感知基礎(chǔ)。它能解耦相機運動、物體運動和靜態(tài)幾何,使機器人區(qū)分“人在動”和“環(huán)境在動”,為穩(wěn)定的人機協(xié)作感知奠定了基礎(chǔ)。
![]()
論文:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
機構(gòu):Google DeepMind / UCL / 牛津大學(xué)
論文鏈接:https://arxiv.org/pdf/2512.08924
▎最佳論文提名:NitroGen——從打游戲到操控機器人的通用具身路線圖
NitroGen的核心定位是“視覺-動作基礎(chǔ)模型”。它在涵蓋1000+游戲、總計40,000小時的游戲試玩視頻上訓(xùn)練而成,一個模型看游戲畫面即可輸出手柄操作,并在1000個不同游戲中實現(xiàn)零樣本泛化。相較于從頭開始訓(xùn)練的模型,其任務(wù)成功率實現(xiàn)了高達52%的相對提升。
NitroGen背后的靈魂人物是Jim Fan,NVIDIA高級研究員、GEAR團隊負責人。他的研究脈絡(luò)本身就是一條從虛擬到物理的具身智能進化史:SURREAL的分布式深度強化學(xué)習、MineDojo從10萬+Minecraft YouTube視頻中學(xué)習、Voyager首個自主玩Minecraft的AI Agent、Eureka用GPT-4加速機器人訓(xùn)練,直到NitroGen指向“通用具身Agent”,實現(xiàn)跨技能、跨具身、跨現(xiàn)實(物理和虛擬)泛化。
NitroGen的研究路線對機器人模仿學(xué)習有著直接的遷移價值。這種從大規(guī)模視頻中自動提取動作標簽、訓(xùn)練視覺-動作策略的框架,可以直接搬到人機協(xié)作場景中,讓機器人快速學(xué)會人類的協(xié)作策略。
![]()
論文:NitroGen: An Open Foundation Model for Generalist Gaming Agents
機構(gòu):NVIDIA / 斯坦福大學(xué) / 加州理工學(xué)院 / 芝加哥大學(xué) / 德州大學(xué)奧斯汀分校
論文鏈接:https://arxiv.org/abs/2601.02427
▎最佳論文提名:SAM 3D——一眼看透3D世界
作為Segment Anything系列的3D延伸,SAM 3D包含Objects(重建物體)與Body(估計人體)兩個子模型。兩者均采用多階段DiT架構(gòu),即便面對普遍遮擋和凌亂環(huán)境,也能穩(wěn)健重建。
研究團隊通過“人機協(xié)同”管線實現(xiàn)了這一突破,標注了規(guī)模空前的視覺基底3D重建數(shù)據(jù),并在多階段訓(xùn)練框架中將合成數(shù)據(jù)預(yù)訓(xùn)練與真實世界對齊相結(jié)合,打破了3D領(lǐng)域長期存在的“數(shù)據(jù)壁壘”。在針對真實世界物體和場景的人類偏好測試中,SAM 3D獲得了至少5:1的勝率。
對具身智能而言,它讓機器人無需依賴高昂的深度傳感器,僅憑單張圖像即可實時、準確地獲取人類的3D姿態(tài)和空間場景理解。
![]()
論文:SAM 3D: 3Dfy Anything in Images
機構(gòu):Meta超級智能實驗室
論文鏈接:https://arxiv.org/abs/2511.16624
▎最佳學(xué)生論文:CLAY——3D生成進入大模型時代
3D生成建模領(lǐng)域近年來進展顯著,但現(xiàn)有表示方法仍難以捕捉具有復(fù)雜拓撲結(jié)構(gòu)和精細外觀的3D資產(chǎn)。
CLAY的核心創(chuàng)新是O-Voxel,一種新型稀疏體素結(jié)構(gòu),能同時編碼幾何與外觀,穩(wěn)健地建模任意拓撲,包括開放、非流形及全封閉表面,同時捕捉紋理顏色之外的豐富表面屬性,如基于物理的渲染參數(shù)。
基于O-Voxel,作者設(shè)計了稀疏壓縮變分自編碼器,實現(xiàn)了高空間壓縮率和緊湊的潛在空間,隨后訓(xùn)練了包含40億(4B)參數(shù)的大規(guī)模流匹配模型用于3D生成。盡管規(guī)模龐大,推理過程依然高效,且生成資產(chǎn)的幾何與材質(zhì)質(zhì)量遠超現(xiàn)有模型。
對具身智能研究者而言,CLAY的價值在于:用3D生成模型可以快速構(gòu)建仿真環(huán)境,大幅降低HRI(人機交互)仿真成本。當然,如何保證生成場景的物理合理性、如何讓生成的3D場景支持交互仿真,仍是待解的問題。
![]()
論文:Native and Compact Structured Latents for 3D Generation
機構(gòu):清華大學(xué) / 微軟研究院 / 中國科學(xué)技術(shù)大學(xué) / 微軟AI
論文鏈接:https://arxiv.org/abs/2512.14692
▎最佳學(xué)生論文提名:ChordEdit——讓一步式圖像編輯真正可用
一步式文本生成圖像(T2I)模型帶來了前所未有的生成速度,但將其用于文本引導(dǎo)的圖像編輯卻困難重重:強行把現(xiàn)有免訓(xùn)練編輯方法壓縮到單步推理中,往往導(dǎo)致物體嚴重變形和非編輯區(qū)域一致性丟失。
這個問題的根源在于,直接在模型的結(jié)構(gòu)化場上做樸素的向量運算,會產(chǎn)生高能量、劇烈抖動的軌跡。
ChordEdit將圖像編輯重新表述為一個傳輸問題:在由源文本提示詞和目標文本提示詞所定義的源分布與目標分布之間進行傳輸。基于動態(tài)最優(yōu)傳輸理論,研究者推導(dǎo)出一種有原則的低能量控制策略,得到更平滑、方差更低的編輯場,使得編輯場可以通過一次較大的積分步長完成遍歷,最終讓一步式擴散模型首次實現(xiàn)高保真、實時圖像編輯。
ChordEdit是一個模型無關(guān)、無需訓(xùn)練、也無需反演的方法,這種優(yōu)雅的理論框架讓它在5篇獲獎?wù)撐闹歇殬湟粠谩km然它與具身智能的直接關(guān)聯(lián)較弱,但“一步式推理”的理念,與端側(cè)部署和實時交互的工業(yè)需求高度契合。
![]()
論文:ChordEdit: One-Step Low-Energy Transport for Image Editing
機構(gòu):廣東工業(yè)大學(xué) / 惠州學(xué)院 / 深圳大學(xué) / 北京大學(xué)
論文鏈接:https://arxiv.org/abs/2602.19083
02
1個演講:
Simon Kohl與“可編程生物學(xué)”的震撼宣言
在CVPR 2026的大會特邀演講環(huán)節(jié),前DeepMind蛋白質(zhì)設(shè)計團隊核心成員、2024年諾貝爾化學(xué)獎獲獎項目AlphaFold核心研究員、Latent Labs創(chuàng)始人兼CEO Simon Kohl發(fā)表了題為"Programmable Biology: Generative AI for Molecular Design"的演講。這場演講或許是本屆CVPR最“跨界”的Keynote,也是最具沖擊力的。
![]()
Simon Kohl指出,傳統(tǒng)藥物研發(fā)由于“從錯誤的分子出發(fā)”導(dǎo)致九成候選藥最終失敗。過去五年計算藥物設(shè)計迎來指數(shù)級躍遷,技術(shù)已從基礎(chǔ)的蛋白質(zhì)結(jié)構(gòu)預(yù)測,演進到抗體設(shè)計智能體自主運行的全新階段。
其團隊創(chuàng)建的AI智能體Latent-Y目前已實現(xiàn)實驗室驗證。只需輸入一句自然語言指令,智能體便能自主接管靶點分析、提示詞生成、并行設(shè)計及迭代的全流程。在針對“不可成藥”靶標(如KRAS)和血腦屏障靶標的壓力測試中,AI僅用1天計算加4周驗證,便在結(jié)合力上與傳統(tǒng)耗時數(shù)月的萬億級篩選分庭抗禮。
正如他所言,“生物學(xué)終將成為一門可編程的工程學(xué)科。”從ImageNet到AlphaFold,從像素識別到分子設(shè)計,AI正在以前所未有的速度將一個又一個“不可能”變?yōu)椤翱删幊獭薄?/p>
03
3個展臺:
從NVIDIA到Tesla到Apple,具身智能“卷”出實驗室
論文賽道指明了前沿研究的去向,而展臺則揭示了技術(shù)正以多快的速度被推向商業(yè)市場。在CVPR 2026的展覽廳里,具身智能和物理AI成為了絕對的主旋律。
以下這三個展臺,最具代表性:
▎NVIDIA(Booth 211):具身智能的“軍火商”
NVIDIA是本屆CVPR最大的展商之一,展臺上最吸引眼球的是先進的機器人抓取演示和自動駕駛研究展示。
![]()
此外還展示了Nemotron 3 Nano Omni模型,一個統(tǒng)一視覺、音頻和語言的端側(cè)多模態(tài)模型,讓開發(fā)者在邊緣設(shè)備上也能部署多模態(tài)AI。
![]()
NVIDIA在CVPR 2026的角色更像一個“軍火商”,為整個具身智能生態(tài)提供從訓(xùn)練到推理的基礎(chǔ)設(shè)施。從GPU算力到仿真平臺,從大模型到端側(cè)部署,NVIDIA的展臺幾乎覆蓋了具身智能全鏈條。
Jim Fan團隊的NitroGen獲得最佳論文提名,進一步證明了NVIDIA在學(xué)術(shù)和工程兩端的統(tǒng)治力。
▎Tesla:純視覺的激進賭注
Tesla的展臺則聚焦于純視覺自動駕駛和機器人進展。在WDFM-EAI Workshop上,Tesla Autopilot及AI負責人Ashok Elluswamy的演講引發(fā)全場熱議,他系統(tǒng)披露了Tesla在具身智能方向的技術(shù)積累,包括FSD上下文長度從約10秒猛增至約30秒(提升3倍),以及FSD模型完整輸入/輸出架構(gòu)的首次公開。
![]()
清晰傳遞出Tesla的戰(zhàn)略意圖:將自動駕駛作為更廣泛機器人與具身AI平臺的一部分,與Optimus人形機器人項目深度協(xié)同。Tesla在丹佛傳遞的核心信息是,純視覺路線已經(jīng)超越了技術(shù)選擇的范疇,更像一種信仰。
▎Apple(Booth 231):安靜的顛覆者
Apple以贊助商身份參加CVPR 2026,設(shè)有展位并帶來多篇論文與特邀演講。重點研究包括視頻生成模型STARFlow-V、視覺統(tǒng)一分詞器AToken、4D幾何外觀表征Velox等。
![]()
Apple的展臺風格一如既往地低調(diào),但研究卻不容小覷。AToken試圖統(tǒng)一視覺理解與生成的底層表征,Velox則指向4D動態(tài)場景理解,這些方向與D4RT、SAM 3D的獲獎?wù)撐男纬闪擞腥さ暮魬?yīng)。
Apple的“慢而穩(wěn)”策略,在NVIDIA和Tesla的“快而猛”之間,提供了一種截然不同的技術(shù)路線參照。
04
深層趨勢:
CVPR從“讓人看懂圖像”走向“讓機器人看懂世界”
綜合5篇獲獎?wù)撐摹imon Kohl的演講和三大展臺的信號,CVPR 2026傳遞的最深層趨勢可以概括為一句話:計算機視覺正在經(jīng)歷從“被動感知”到“主動理解與行動”的范式轉(zhuǎn)移。
▎趨勢一:多模態(tài)與具身智能成為絕對主線。
視覺-語言與多模態(tài)LLM論文占比從去年的4.9%飆升至10.6%,增幅達5.7個百分點,這是CVPR近年來單一類別最大幅度的增長。
5篇獲獎?wù)撐闹兄辽?篇與具身智能直接相關(guān),展臺上超過100家公司中相當比例在展示物理AI方案。具身智能已經(jīng)從“分會場議題”升級為主線劇情。
▎趨勢二:視覺架構(gòu)正從“識別像素”走向“重建世界”。
D4RT重建4D動態(tài)場景,SAM 3D從單圖重建3D世界,CLAY用4B參數(shù)生成3D資產(chǎn),這些工作的共性在于:視覺系統(tǒng)已經(jīng)不再滿足于“識別”和“分類”,開始試圖從2D輸入中重建完整的3D/4D世界表征。
未來的視覺架構(gòu)將更關(guān)注空間理解而非像素識別。
▎趨勢三:感知問題正被基礎(chǔ)模型統(tǒng)一解決,重心上移至認知層。
D4RT解決動態(tài)感知,SAM 3D解決空間感知,NitroGen解決行動策略。
研究者的重心正從“如何讓機器人看見”轉(zhuǎn)向“如何讓機器人理解它看到的東西”,從感知層上升到認知層。這也是為什么Simon Kohl的演講在CVPR的舞臺上如此引人注目:當視覺模型足夠強大,下一個前沿就是“理解”與“決策”。
▎趨勢四:中國力量從“參會”走向“設(shè)局”。
在CVPR 2026高校論文接收Top 10中,中國高校占據(jù)八席:上海交通大學(xué)以46篇高居榜首,浙江大學(xué)40篇緊隨其后。在產(chǎn)業(yè)端,騰訊拿下最高級別Ultimate Sponsor,MiniMax躋身白金贊助商,蘇度科技、Linkerbot等具身智能新銳集體亮相。更值得注意的是,在GigaBrain Challenge 2026中,中國團隊在四個賽道包攬全部冠軍,這在CVPR歷史上極為罕見。中國企業(yè)已從“底層代工”升級為“軟硬一體全棧AI產(chǎn)業(yè)鏈”。
回到標題的問題:計算機視覺下一個十年的答案是什么?CVPR這5篇論文、1個演講、3個展臺的回應(yīng)匯聚成一句話:視覺的終點不是看見,而是理解、行動、改變物理世界。下一個十年,這一頁已經(jīng)被翻開了。
去哪看 CVPR 核心【演講/論文】詳解?
為了讓國內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網(wǎng)已全面上線【CVPR 2026 深度專區(qū)】。
專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會議動態(tài)。
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.