網易首頁 > 網易號 > 正文申請入駐

代碼驅動的視覺感知：為什么說「看得懂代碼」才是大模型攻克理科題的真正鑰匙｜CVPR 2026

2026-05-15 20:36:55　來源: AI科技評論

廣東舉報

分享至

代碼驅動的視覺感知，正在為大模型補上「看」這門必修課。

作者丨陳淑瑜

編輯丨岑峰

如果把過去幾年多模態大模型在STEM領域的進展放在一起審視，會發現一個相當微妙的錯位。研究者們幾乎把全部精力都押在了推理能力的提升上，強化學習、思維鏈、自我糾錯……各種花式推理策略層出不窮，模型在文本推理基準上的得分也確實在節節攀升。

但一個尷尬的事實始終擺在那里：當模型被丟進一道需要看圖才能解答的幾何題時，它依然經常給出讓人啼笑皆非的答案。

這中間到底出了什么問題？

過去，業界習慣性地把鍋甩給“推理能力不足”，認為只要把CoO做得更長、把RL獎勵設計得更精巧，模型自然能在視覺推理任務上迎頭趕上。于是大量的工作涌向推理鏈路優化，視覺感知端卻幾乎被當成了一個“已經夠用”的黑箱。

但上海交通大學人工智能研究院與Qwen團隊聯合提出的CodePercept（代碼驅動的視覺感知），則給出了一個截然不同的診斷結果：

當前階段，限制大模型STEM視覺推理的真正瓶頸，并非是推理能力，而是視覺感知。

論文地址：https://arxiv.org/pdf/2603.10757

開源代碼：

https://github.com/TongkunGuan/Qwen-CodePercept

這不是一個隨意的猜想。團隊的診斷方式非常系統，他們將STEM視覺推理任務解耦為“感知”和“推理”兩個階段，分別擴展其中一個能力、同時保持另一個能力不變。結果證明，擴展感知能力帶來的性能提升，始終優于擴展推理能力。

圖1：擴展感知優于擴展推理

換句話說，模型的“眼神”遠比我們想象的更差，而解決“眼神差”的問題，帶來的邊際收益遠超繼續優化“腦子”。

自然語言的天花板

一旦確認“感知才是短板”，接下來的問題就是：如何提升感知？

一個直覺方案是：用強大的閉源模型去生成圖像描述（Caption），然后做知識蒸餾。既然GPT-5和Claude看得懂，讓它們當老師不就行了？

但研究團隊在實際操作中發現了一個更深層的問題：自然語言是模糊的，表達能力存在上限，很難非常精準地描述一個場景。

想象一下，你要用文字去精確描述一個三維四面體的空間結構，包括每條棱的長度、每個面的傾斜角、輔助線的空間走向。即便你用上了“位于左下角45度方向、長度為3.2cm、與水平面夾角30度”這樣精確的語言，描述依然是模糊的。因為自然語言本質上就是為“大概意思”而生的媒介，它天然缺乏數學層面的精確性。

更致命的是，這種描述的模糊性還會在被AI生成描述的過程中進一步放大。

團隊將這個問題概括為自然語言的“描述性失語”。

但如果說自然語言是“模糊”的，那什么語言才是“精確”的？

答案是代碼。

一段Python程序畫出的幾何圖形，每個坐標都是確定的、每個參數都是可驗證的、每個空間關系都是可執行的。

代碼不承認“差不多”，要么對，要么運行報錯。這種二值化的精確性，恰恰是STEM視覺感知最需要的。

讓代碼成為視覺感知的“第二語言”

基于這一洞察，研究團隊提出了一個全新的范式——CodePercept（代碼驅動的視覺感知），其核心思想可以用一句話概括：讓代碼成為視覺感知的“第二語言”。

團隊從兩個維度系統性地用代碼重新定義了視覺感知任務：

第一個維度：代碼驅動的描述生成（Code-Grounded Caption Generation）。

傳統Caption生成的做法是“看圖說話”，模型看了圖，生成一句自然語言描述。但CodePercept的做法變成了“看圖→寫代碼→用代碼驗證描述”的三段式。

可執行代碼被當作圖像描述的“絕對真理”，代碼中寫明的坐標、數量、幾何關系，無一不是對原始圖像的精確轉錄。模型通過生成可執行的代碼來“驗證”自己對圖像的理解是否正確。

第二個維度：STEM圖像到代碼轉錄（STEM Image-to-Code Translation）

這比前一個步子邁得更大。

團隊直接引導模型學習從圖像到代碼的端到端映射，給大模型一張幾何圖，讓它直接生成能夠重現這張圖的Python代碼。這不是讓模型去“描述”圖，而是讓模型去“復現”圖。

這個任務的精妙之處在于它的可驗證性：代碼是唯一一種可以“執行后驗證”的表達形式。你描述一張圖，沒人知道你描述得對不對；但你寫一段代碼，運行之后渲染出來的圖一比對，對就是對，錯就是錯。沒有中間地帶。

由于模型必須真正理解“觀測特征”與“代碼片段”之間的內在映射法則，才能生成正確的重建代碼，所以這種二值化的確定性反饋，反過來又迫使模型得以建立更精確的視覺理解。

圖 2. CodePercept 的總體流程圖

Part 01:構建高質量圖像-代碼對 Part 02:代碼驅動的描述生成、STEM圖像到代碼轉錄Part 03:形成 ICC-1M數據庫。

百萬級數據的煉成

新范式的落地，需要與之匹配的訓練數據。但問題是，代碼驅動的視覺感知數據在現實中幾乎不存在，無法僅靠簡單地爬取網頁就得到“圖像-描述-代碼”三元組。

為此，研究團隊構建了ICC-1M數據集，包含100萬個高質量的三元組（Image-Caption-Code），并通過三條創新的合成流水線實現了從零到百萬的數據生產：

第一條：圖像復現（Image Reproduction）：將現有的STEM圖像精準轉化為可執行的Python代碼。

這相當于給每張圖配上一段“源代碼”，確保代碼與圖像之間形成嚴格的對應關系。

第二條：圖像多樣化（Image Diversity）：提取種子圖像的核心STEM原理，在不改變數學本質的前提下，通過參數變化在不同的視覺語境中重新實例化，從而生成大量視覺上不同但原理一致的新圖像。

第三條：立體幾何合成（Solid Geometry Synthesis）：基于模板的立體幾何代碼生成，能夠產生大量包含三維空間變換、多面體交叉和輔助線體系的訓練樣本。

這三條流水線突破了當前MLLMs在立體幾何空間關系上的集體短板，也為新范式的出現搭建了強硬的數據底座。

圖3:從圖像復現到圖像多樣化到立體幾何合成

從“看得見”到“看得準”

有了數據，接下來就是訓練策略的問題。

CodePercept的獨特之處在于，它沒有簡單地在ICC-1M上做一輪SFT（監督微調）就收工，而是設計了一套兩階段漸進式訓練策略，完整覆蓋了“學會”到“精通”的全過程。

第一階段：CodePercept-S1（監督微調）

既然描述和代碼本質上都是對同一視覺信息的表達，為什么不把“看圖寫描述”和“看圖寫代碼”當作兩個并行任務來聯合優化？

于是，團隊在SFT階段同時優化 Image2Caption 和 Image2Code 兩條任務路徑，讓模型在同一套視覺編碼器上建立雙通道的感知能力，既學會生成自然語言描述，也學會生成精確的復現代碼。

兩條任務共享視覺特征提取過程，相互促進、相互補充。

第二階段：CodePercept-R1（強化學習）

SFT能讓模型“學會”寫代碼，但離“寫對”還有距離。

原因在于，代碼生成是一個容錯率極低的任務。Caption寫錯一個數，讀者大概還能猜出原意。代碼寫錯一個坐標，渲染結果就完全走樣了。

為了從“差不多對”跨越到“精準對”，團隊引入了GRPO（Group Relative Policy Optimization）強化學習，并設計了三層遞增的獎勵機制：

格式獎勵：語法必須正確，代碼至少能跑起來。

內容執行獎勵：運行結果必須與目標圖像在關鍵指標上匹配。

圖碼相似度獎勵：重構圖像與原始圖像之間的感知相似度。

GRPO讓模型在不斷的自我試錯中，逐漸學會“什么樣的代碼才能精確還原圖像”。這種從SFT到RL的遞進，本質上就是從“知道怎么干”到“知道怎么干對”的質變。

圖4 CodePercept-S1 模型和CodePercept-R1 模型的訓練曲線

可驗證的感知評估

在傳統的評測體系里，感知能力往往是通過最終的解題正確率來反推模型感知好不好。但這種評估方式存在一個根本性漏洞：模型可能答對了題，但根本沒看懂圖（比如僅憑文本提示就猜出了答案），也可能看懂了圖但推錯了解題步驟。

簡而言之，傳統評估無法將“感知”和“推理”真正解耦。

為了解決這個問題，團隊推出了STEM2Code-Eval，這是一個包含1000張經過人工精校圖像的感知評測基準。

它的評測邏輯簡單而苛刻：模型必須生成能夠100%還原原始圖像的Python代碼，然后用代碼渲染結果與原圖進行像素級精確度比對。

基于STEM2Code-Eval，研究團隊得以充分驗證代碼能不能跑、跑出來像不像。

圖5 STEM2Code-Eval 基準的流程

在這個基準上，團隊以Qwen3-VL為基座模型進行了全面測試，結果相當震撼：

在Captioner-Solver評測模式下，CodePercept-8B-S1僅用80億參數就超越了Qwen2.5-VL-72B（優勢達6.2%），甚至逼近了Claude-Opus 4.1-Thinking和GPT5-Thinking這樣的閉源前沿模型。

而在純粹考查感知的圖像還原任務（STEM2Code-Eval）上，經過強化學習優化的CodePercept-8B-R1斬獲63.56分，全面超越了Seed 1.6-Vision和Qwen3-VL-Plus等超大參數規模的旗艦模型。

圖 6. 在 STEM2Code-Eval 上使用 1k 樣本的性能評估

這些數據指向了一個反直覺的結論：參數的堆砌并不能彌補感知能力的缺陷，而代碼驅動的感知訓練，即使在小參數模型上，也能產生超越量級的感知躍遷。

結語

把CodePercept放在CVPR 2026的大背景下看，它的意義遠遠不止是“又一個新SOTA”。

過去幾年，多模態大模型領域有一個默認的“升級路徑”，參數越做越大、數據越堆越多、推理鏈越走越長。這條路徑的隱含假設是: 視覺感知已經足夠好了，只要能推理，就能解決問題。

但CodePercept用系統的實驗證據證明，這個假設可能從一開始就是錯的。當模型的“眼神”連一個簡單幾何圖形的坐標都讀不準時，再強的推理能力也無從發揮。

更值得關注的是它的方法論轉向：用代碼作為視覺感知的錨點。這是對“視覺理解”這件事本身的重新定義。

如果視覺理解的最終目標是“能夠精確復現所看到的東西”，那么代碼比自然語言天然更具優勢，因為它自帶可驗證性。

而Qwen團隊的加持，更意味著這一范式有強大的工程底座作為支撐。從Qwen3-VL的視覺編碼能力到GRPO在代碼生成場景的落地，這套技術棧的成熟度遠非一個純學術原型可比。

也許未來，更多團隊會重新審視“感知vs推理”的權重分配，更多研究者會將代碼納入視覺理解的標準工具箱。“給大模型裝上基于代碼邏輯的火眼金睛”，正在成為一條真實可行的技術路線。

這次去 CVPR 現場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區做貢獻、認識更多大牛，歡迎聯系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0

谷歌創始人承認：入場代碼編程晚了，但押注AI的自我改進飛輪

DeepTech深科技 2026-06-13 13:25:10
3 跟貼 3

Agent終于長出了身體：Jiuwen Symbiosis背后的思考與實踐

量子位 2026-06-13 16:08:07
3 跟貼 3
LLM+運籌優化：工業級多機器人協同控制軟件生成新范式

機器之心Pro 2026-03-30 12:42:25
0 跟貼 0

HuggingFace CEO力薦：這個1500美元訓出的HRM模型，憑什么火了？

量子位 2026-06-13 20:36:36
0 跟貼 0

FlashAR：僅用0.05%數據，讓預訓練好的自回歸圖像模型飛起來

機器之心Pro 2026-05-24 17:52:21
0 跟貼 0
AI時代，別再提“人人都是程序員”了

虎嗅APP 2026-06-14 02:46:07
0 跟貼 0

對話智源研究院理事長黃鐵軍：構建完整的世界模型是一條漫長的道路

每日經濟新聞 2026-06-13 21:53:05
0 跟貼 0
200+AI專家集結北京，共議世界模型、智能體、具身智能等話題，這屆智源大會釋放什么信號？

智東西 2026-06-13 21:18:29
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
指甲摳可樂罐、手指捏薯片，這些動作靈巧手是怎么做到的？

量子位 2026-06-11 17:19:03
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
如何跨越“同質化”與商業深水區？智源王仲遠、銀河通用王鶴、面壁智能李大海激辯：真壁壘在“場景閉環”，Scaling Law遠未見頂

每日經濟新聞 2026-06-13 23:27:05
0 跟貼 0
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
Fable 5突遭下架，GLM-5.2全量開放！

新智元 2026-06-13 22:29:08
2 跟貼 2
女生表演單手側手翻，身段靈活視覺上胖瘦錯覺，女生身段太迷惑了

幽默達人館 2026-06-12 15:29:51
1 跟貼 1
日媒：韓國決定申請加入CPTPP

參考消息 2026-06-13 12:18:28
12829 跟貼 12829
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0
美國4比1大勝美國主導比賽巴拉圭疲于奔命讓人意外

澎湃新聞 2026-06-13 11:06:27
9412 跟貼 9412
光子球層——黑洞的視覺之謎

夜貓戶外軍武 2026-06-12 06:49:54
0 跟貼 0
多模態大模型視覺定位難題怎么解？

機器之心Pro 2026-06-10 11:31:45
0 跟貼 0
英語的東拼西湊 vs 漢語的嚴謹邏輯：外國博主狂贊中文的先進性

狂戰獠牙 2026-06-13 05:56:57
0 跟貼 0

AI科技評論

點評學術，服務AI

7372文章數 20757關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

游戲

親子

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

代碼驅動的視覺感知：為什么說「看得懂代碼」才是大模型攻克理科題的真正鑰匙 ｜CVPR 2026

SpaceX上市首日破2萬億美元，馬斯克再封神

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

美國4比1巴拉圭：這統治力真是美國隊？！

鄧超曬孫儷親手織的帽子，笑瘋全網！

梁文鋒向左，楊植麟向右

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

廣州再建一座“小蠻腰”？190米，頂著個球，2027年見！

LPL淘汰賽：就差一點，今天無奇跡！BLG五局戰勝WE，決賽見

真正覺醒的家庭

伊外長披露伊美諒解備忘錄草案部分內容

代碼驅動的視覺感知：為什么說「看得懂代碼」才是大模型攻克理科題的真正鑰匙｜CVPR 2026

特朗普:美伊協議計劃周日簽署如不順利還有終極手段

特朗普:美伊協議計劃周日簽署如不順利還有終極手段

深藍S07華為乾崑激光版增程車型上市限時15.49萬元起