无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

代碼驅動的視覺感知:為什么說「看得懂代碼」才是大模型攻克理科題的真正鑰匙 |CVPR 2026

0
分享至


代碼驅動的視覺感知,正在為大模型補上「看」這門必修課。

作者丨陳淑瑜

編輯丨岑 峰

如果把過去幾年多模態大模型在STEM領域的進展放在一起審視,會發現一個相當微妙的錯位。研究者們幾乎把全部精力都押在了推理能力的提升上,強化學習、思維鏈、自我糾錯……各種花式推理策略層出不窮,模型在文本推理基準上的得分也確實在節節攀升。

但一個尷尬的事實始終擺在那里:當模型被丟進一道需要看圖才能解答的幾何題時,它依然經常給出讓人啼笑皆非的答案。

這中間到底出了什么問題?

過去,業界習慣性地把鍋甩給“推理能力不足”,認為只要把CoO做得更長、把RL獎勵設計得更精巧,模型自然能在視覺推理任務上迎頭趕上。于是大量的工作涌向推理鏈路優化,視覺感知端卻幾乎被當成了一個“已經夠用”的黑箱。

但上海交通大學人工智能研究院與Qwen團隊聯合提出的CodePercept(代碼驅動的視覺感知),則給出了一個截然不同的診斷結果:

當前階段,限制大模型STEM視覺推理的真正瓶頸,并非是推理能力,而是視覺感知。


論文地址:https://arxiv.org/pdf/2603.10757

開源代碼:

https://github.com/TongkunGuan/Qwen-CodePercept

這不是一個隨意的猜想。團隊的診斷方式非常系統,他們將STEM視覺推理任務解耦為“感知”和“推理”兩個階段,分別擴展其中一個能力、同時保持另一個能力不變。結果證明,擴展感知能力帶來的性能提升,始終優于擴展推理能力。


圖1:擴展感知優于擴展推理

換句話說,模型的“眼神”遠比我們想象的更差,而解決“眼神差”的問題,帶來的邊際收益遠超繼續優化“腦子”。

01


自然語言的天花板

一旦確認“感知才是短板”,接下來的問題就是:如何提升感知?

一個直覺方案是:用強大的閉源模型去生成圖像描述(Caption),然后做知識蒸餾。既然GPT-5和Claude看得懂,讓它們當老師不就行了?

但研究團隊在實際操作中發現了一個更深層的問題:自然語言是模糊的,表達能力存在上限,很難非常精準地描述一個場景。

想象一下,你要用文字去精確描述一個三維四面體的空間結構,包括每條棱的長度、每個面的傾斜角、輔助線的空間走向。即便你用上了“位于左下角45度方向、長度為3.2cm、與水平面夾角30度”這樣精確的語言,描述依然是模糊的。因為自然語言本質上就是為“大概意思”而生的媒介,它天然缺乏數學層面的精確性。

更致命的是,這種描述的模糊性還會在被AI生成描述的過程中進一步放大。

團隊將這個問題概括為自然語言的“描述性失語”。

但如果說自然語言是“模糊”的,那什么語言才是“精確”的?

答案是代碼。

一段Python程序畫出的幾何圖形,每個坐標都是確定的、每個參數都是可驗證的、每個空間關系都是可執行的。

代碼不承認“差不多”,要么對,要么運行報錯。這種二值化的精確性,恰恰是STEM視覺感知最需要的。

02


讓代碼成為視覺感知的“第二語言”

基于這一洞察,研究團隊提出了一個全新的范式——CodePercept(代碼驅動的視覺感知),其核心思想可以用一句話概括:讓代碼成為視覺感知的“第二語言”。

團隊從兩個維度系統性地用代碼重新定義了視覺感知任務:

第一個維度:代碼驅動的描述生成(Code-Grounded Caption Generation)。

傳統Caption生成的做法是“看圖說話”,模型看了圖,生成一句自然語言描述。但CodePercept的做法變成了“看圖→寫代碼→用代碼驗證描述”的三段式。

可執行代碼被當作圖像描述的“絕對真理”,代碼中寫明的坐標、數量、幾何關系,無一不是對原始圖像的精確轉錄。模型通過生成可執行的代碼來“驗證”自己對圖像的理解是否正確。

第二個維度:STEM圖像到代碼轉錄(STEM Image-to-Code Translation)

這比前一個步子邁得更大。

團隊直接引導模型學習從圖像到代碼的端到端映射,給大模型一張幾何圖,讓它直接生成能夠重現這張圖的Python代碼。這不是讓模型去“描述”圖,而是讓模型去“復現”圖。

這個任務的精妙之處在于它的可驗證性:代碼是唯一一種可以“執行后驗證”的表達形式。你描述一張圖,沒人知道你描述得對不對;但你寫一段代碼,運行之后渲染出來的圖一比對,對就是對,錯就是錯。沒有中間地帶。

由于模型必須真正理解“觀測特征”與“代碼片段”之間的內在映射法則,才能生成正確的重建代碼,所以這種二值化的確定性反饋,反過來又迫使模型得以建立更精確的視覺理解。


圖 2. CodePercept 的總體流程圖

Part 01:構建高質量圖像-代碼對 Part 02:代碼驅動的描述生成、STEM圖像到代碼轉錄Part 03:形成 ICC-1M數據庫。

03


百萬級數據的煉成

新范式的落地,需要與之匹配的訓練數據。但問題是,代碼驅動的視覺感知數據在現實中幾乎不存在,無法僅靠簡單地爬取網頁就得到“圖像-描述-代碼”三元組。

為此,研究團隊構建了ICC-1M數據集,包含100萬個高質量的三元組(Image-Caption-Code),并通過三條創新的合成流水線實現了從零到百萬的數據生產:

第一條:圖像復現(Image Reproduction):將現有的STEM圖像精準轉化為可執行的Python代碼。

這相當于給每張圖配上一段“源代碼”,確保代碼與圖像之間形成嚴格的對應關系。

第二條:圖像多樣化(Image Diversity):提取種子圖像的核心STEM原理,在不改變數學本質的前提下,通過參數變化在不同的視覺語境中重新實例化,從而生成大量視覺上不同但原理一致的新圖像。

第三條:立體幾何合成(Solid Geometry Synthesis):基于模板的立體幾何代碼生成,能夠產生大量包含三維空間變換、多面體交叉和輔助線體系的訓練樣本。

這三條流水線突破了當前MLLMs在立體幾何空間關系上的集體短板,也為新范式的出現搭建了強硬的數據底座。


圖3:從圖像復現到圖像多樣化到立體幾何合成

04


從“看得見”到“看得準”

有了數據,接下來就是訓練策略的問題。

CodePercept的獨特之處在于,它沒有簡單地在ICC-1M上做一輪SFT(監督微調)就收工,而是設計了一套兩階段漸進式訓練策略,完整覆蓋了“學會”到“精通”的全過程。

第一階段:CodePercept-S1(監督微調)

既然描述和代碼本質上都是對同一視覺信息的表達,為什么不把“看圖寫描述”和“看圖寫代碼”當作兩個并行任務來聯合優化?

于是,團隊在SFT階段同時優化 Image2Caption 和 Image2Code 兩條任務路徑,讓模型在同一套視覺編碼器上建立雙通道的感知能力,既學會生成自然語言描述,也學會生成精確的復現代碼。

兩條任務共享視覺特征提取過程,相互促進、相互補充。

第二階段:CodePercept-R1(強化學習)

SFT能讓模型“學會”寫代碼,但離“寫對”還有距離。

原因在于,代碼生成是一個容錯率極低的任務。Caption寫錯一個數,讀者大概還能猜出原意。代碼寫錯一個坐標,渲染結果就完全走樣了。

為了從“差不多對”跨越到“精準對”,團隊引入了GRPO(Group Relative Policy Optimization)強化學習,并設計了三層遞增的獎勵機制:

  • 格式獎勵:語法必須正確,代碼至少能跑起來。

  • 內容執行獎勵:運行結果必須與目標圖像在關鍵指標上匹配。

  • 圖碼相似度獎勵:重構圖像與原始圖像之間的感知相似度。

GRPO讓模型在不斷的自我試錯中,逐漸學會“什么樣的代碼才能精確還原圖像”。這種從SFT到RL的遞進,本質上就是從“知道怎么干”到“知道怎么干對”的質變。


圖4 CodePercept-S1 模型和CodePercept-R1 模型的訓練曲線

05


可驗證的感知評估

在傳統的評測體系里,感知能力往往是通過最終的解題正確率來反推模型感知好不好。但這種評估方式存在一個根本性漏洞:模型可能答對了題,但根本沒看懂圖(比如僅憑文本提示就猜出了答案),也可能看懂了圖但推錯了解題步驟。

簡而言之,傳統評估無法將“感知”和“推理”真正解耦。

為了解決這個問題,團隊推出了STEM2Code-Eval,這是一個包含1000張經過人工精校圖像的感知評測基準。

它的評測邏輯簡單而苛刻:模型必須生成能夠100%還原原始圖像的Python代碼,然后用代碼渲染結果與原圖進行像素級精確度比對。

基于STEM2Code-Eval,研究團隊得以充分驗證代碼能不能跑、跑出來像不像。


圖5 STEM2Code-Eval 基準的流程

在這個基準上,團隊以Qwen3-VL為基座模型進行了全面測試,結果相當震撼:

在Captioner-Solver評測模式下,CodePercept-8B-S1僅用80億參數就超越了Qwen2.5-VL-72B(優勢達6.2%),甚至逼近了Claude-Opus 4.1-Thinking和GPT5-Thinking這樣的閉源前沿模型。

而在純粹考查感知的圖像還原任務(STEM2Code-Eval)上,經過強化學習優化的CodePercept-8B-R1斬獲63.56分,全面超越了Seed 1.6-Vision和Qwen3-VL-Plus等超大參數規模的旗艦模型。


圖 6. 在 STEM2Code-Eval 上使用 1k 樣本的性能評估

這些數據指向了一個反直覺的結論:參數的堆砌并不能彌補感知能力的缺陷,而代碼驅動的感知訓練,即使在小參數模型上,也能產生超越量級的感知躍遷。

06


結語

把CodePercept放在CVPR 2026的大背景下看,它的意義遠遠不止是“又一個新SOTA”。

過去幾年,多模態大模型領域有一個默認的“升級路徑”,參數越做越大、數據越堆越多、推理鏈越走越長。這條路徑的隱含假設是: 視覺感知已經足夠好了,只要能推理,就能解決問題。

但CodePercept用系統的實驗證據證明,這個假設可能從一開始就是錯的。當模型的“眼神”連一個簡單幾何圖形的坐標都讀不準時,再強的推理能力也無從發揮。

更值得關注的是它的方法論轉向:用代碼作為視覺感知的錨點。這是對“視覺理解”這件事本身的重新定義。

如果視覺理解的最終目標是“能夠精確復現所看到的東西”,那么代碼比自然語言天然更具優勢,因為它自帶可驗證性。

而Qwen團隊的加持,更意味著這一范式有強大的工程底座作為支撐。從Qwen3-VL的視覺編碼能力到GRPO在代碼生成場景的落地,這套技術棧的成熟度遠非一個純學術原型可比。

也許未來,更多團隊會重新審視“感知vs推理”的權重分配,更多研究者會將代碼納入視覺理解的標準工具箱。“給大模型裝上基于代碼邏輯的火眼金睛”,正在成為一條真實可行的技術路線。

這次去 CVPR 現場,一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

你能獲得什么?

認識大牛:你將可以進入CVPR名師博士社群;

錢多活少:提供豐厚獎金,任務量精簡;

聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

【限額5位,先到先得】

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

聽心堂
2026-06-13 22:26:26
中國人保集團原黨委委員、副總裁俞小平被查

中國人保集團原黨委委員、副總裁俞小平被查

澎湃新聞
2026-06-13 18:58:26
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
中國不需要也不可能復制SpaceX

中國不需要也不可能復制SpaceX

大象新聞
2026-06-13 15:33:12
嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

閃電新聞
2026-06-13 19:49:12
惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

風過鄉
2026-06-13 20:03:49
演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

娛樂的硬糖吖
2026-06-13 20:34:48
A股,重大調整!就在下周一

A股,重大調整!就在下周一

證券時報
2026-06-13 22:02:33
全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

金錯刀
2026-06-12 18:22:07
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

極目新聞
2026-06-13 20:47:12
隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

側身凌空斬
2026-06-13 21:43:43
“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

易玄
2026-06-13 19:17:27
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

大風新聞
2026-06-13 18:34:21
特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

財聯社
2026-06-14 02:40:11
貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

細說職場
2026-06-13 12:04:14
國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

環球網資訊
2026-06-13 19:11:01
曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

念洲
2026-06-13 20:33:46
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

共工之錨
2026-06-14 01:40:45
2026-06-14 06:19:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
游戲
親子
公開課
軍事航空

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

親子要聞

真正覺醒的家庭

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版