網易首頁 > 網易號 > 正文申請入駐

獨立研究者與Maptek公司攜手打造：AI真的會"看地圖"嗎？

2026-04-23 21:27:13　來源: 科技行者

北京舉報

分享至

這項由獨立研究者與澳大利亞礦業技術公司Maptek聯合開展的研究，發表于2026年ICLR（國際學習表征會議）高效空間推理研討會，論文編號為arXiv:2604.09594，提交時間為2026年3月5日。有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

你可能覺得，那些能寫代碼、會解數學題、還能聊天的大型AI模型，應該也擅長空間感這類事情吧？畢竟它們處理過海量圖像和文字，理解三維空間對它們來說應該不在話下。然而，當研究團隊設計了一套真正考驗"空間直覺"的題目之后，三款當前最頂尖的AI模型——Claude Sonnet 4.5、Gemini 3 Pro Preview和GPT-5.2——的表現讓人大跌眼鏡。最好的成績也不過剛剛超過一半的正確率，而且越往深處考，越接近零分。

這套考試叫做SCBench，也就是空間能力基準測試（Spatial Competence Benchmark）。它不是那種"這兩個形狀哪個更大"的選擇題，而是要求AI直接輸出可運行的坐標、邊集合或操作序列，然后由程序自動判卷——沒有模糊地帶，答案對就是對，錯就是錯。這份考卷的誕生，是因為研究者發現：現有的AI空間測試太表面了，只考了皮毛，沒有觸及真正的空間推理核心。

一、為什么AI的"空間感"很難測？

要理解這份考卷有多特別，先得搞清楚"空間能力"究竟是什么。

把空間能力想象成一個人在腦子里搭樂高的本事。不是看著說明書照搬，而是要在腦海里構建一個環境的完整模型，然后用這個模型來推斷規律、做出決策。比如，一個經驗豐富的倉庫管理員能在腦海中規劃出最高效的貨物擺放方式；一位外科醫生能在操刀前就在腦中完整模擬手術路徑；一個下棋高手能提前預見十幾步的棋局變化。這種能力的核心是兩點：一是維持一個連貫的內部模型，二是用這個模型在約束條件下推理和規劃。

現有的AI空間測試大多停留在表面。它們通常是選擇題或問答題，比如"這個物體旋轉90度后是什么樣子"，或者"圖中哪個物體更靠近鏡頭"。這類題目考的是感知和識別，但真正的空間推理需要的是構建、驗證和在約束下求解——就像考試的區別在于，一種是認出樂高零件叫什么名字，另一種是把它們真正拼成指定的形狀。

SCBench的設計思路從根本上不同。每道題都要求AI輸出一個可執行的答案——具體的坐標、完整的路徑序列、精確的幾何結構——然后由程序直接運行這個答案，檢驗它是否滿足所有條件。這就好比不是問廚師"你會做紅燒肉嗎"，而是直接讓他做出來，端上桌驗收。

二、三關大考：從識字到寫作文

SCBench把空間能力分成了三個層次，研究團隊把它們叫做"能力階梯"，就像武術的初、中、高段位。

第一個層次叫做公理推斷，考的是從規則出發推導出精確結構的能力。這類題目就像數學里的邏輯推理：給定一組條件，推斷出必然成立的結論。其中一道題是這樣的——把一個正方形的四個角分別標上數字（代表不同的"類別"），根據這些標記，枚舉出哪些邊上一定存在類別分界線。另一道題更復雜：給你一棵描述"遞歸二分"的樹（想象把一個正方形不斷對折，每次沿不同的軸），然后指出某個目標小格子的所有鄰居是哪些。這些題目看起來像紙上的數學游戲，但要做對，AI必須在腦中構建出完整的拓撲結構，而不是靠記憶或猜測。

第二個層次叫做構造合成，要求AI輸出滿足全局約束的幾何對象。這就像不只是說"我知道怎么搭橋"，而是要真的給出一份能通過工程檢驗的設計圖。這里有一道極有代表性的題：在一個三維網格空間里擺放一批體素（可以理解成三維版本的像素，每個是一個小立方體），要求無論從正面、側面還是頂面看，投影都完全填滿，同時整個結構不能有任何旋轉對稱性。這兩個條件單獨來看都容易滿足，合在一起就非常棘手，因為一旦你為了填滿投影而添加體素，往往就不小心制造出了對稱性，反之亦然。還有一道題要求用標準樂高積木拼出半球形殼體，不僅要近似球形，積木之間還必須真正能咬合，不能懸空，整體不能倒塌——這道題所有模型的得分都是零，堪稱全場最難的題目。

第三個層次叫做規劃，也是最高難度。這類題目需要設計一個多步驟的操作序列，而且每一步都會改變環境狀態，影響下一步的可行選項。判分不看過程，只看最終模擬結果。其中最直觀的一道題是"流體模擬"：給你一個三維體素世界，初始是一片平坦的巖石地面，要求你通過添加或刪除巖石，使得從上方降雨后，水會積成特定形狀的湖泊。例如，要求形成三個在不同高度的獨立水體，或者形成一個環形湖泊（中間有一塊高地是干燥的）。還有一道題叫"地形爆破"：給你一張起伏的地形高度圖，通過規劃一系列爆破操作，讓巖石碎裂滾動后，形成盡可能大的平整區域用于建城——而且爆破后的巖石去向由物理引擎（PyBullet）模擬，AI無法預先查詢，必須憑空間直覺預判。這道題所有模型全部得零分。

三、頂尖AI的成績單：越往上越慘

測試結果非常清晰地呈現出一條下降曲線，仿佛三個學生同時參加了從初中到博士的連續考試。

在公理推斷這一關，Gemini 3 Pro Preview得了81.3分（滿分100），GPT-5.2得了74.7分，Claude Sonnet 4.5得了49.3分。這個成績算是及格，說明這幾款模型對基礎的拓撲和幾何規則有一定理解。

到了構造合成這一關，三款模型的分數都大幅滑落。Claude跌至30.2，Gemini和GPT-5.2分別是51.4和51.9——也就是說，連最好的模型也只答對了大約一半。在具體題目上，差異更為懸殊。樂高半球題三款模型全部得零，最難的"最大可3D打印質數"題也是全部得零。相比之下，"隱藏與尋找"題（把一群人藏在建筑物后讓狙擊手看不見）和"矩形打包"題中，部分模型還能拿到相當高分，說明問題結構比較規整時，模型的表現就會好很多。

規劃這一關，Claude只得到27.5，Gemini得39，GPT-5.2得50。流體模擬中的幾道較簡單的題（比如只需要挖一個盆地截住水流）各模型還能拿到不錯的分數，其中GPT-5.2在這道題上甚至得滿分。但地形爆破題，沒有任何模型能得分，因為這道題要求模型預判物理模擬的結果，而這是目前AI完全無法憑語言推理完成的任務。

綜合下來，Gemini和GPT-5.2總分并列，都是57.6分，Claude只有34.9分。三款模型的成績都遵循同一個規律：公理推斷最好，構造合成次之，規劃最差。這個規律不是某款模型的特有弱點，而是所有模型共同面對的能力上限。

四、給AI配上工具，會好一些嗎？

研究團隊還做了一組對比實驗：給這三款模型配上工具——具體來說是Python代碼解釋器和網絡搜索。有了這些工具，模型可以真正運行代碼來做計算，而不只是靠推理。

結論是：工具有幫助，但幫助是有條件的。

在構造合成這一關，工具的幫助最明顯。Claude提升4.3個百分點，Gemini提升12.3個百分點，GPT-5.2提升15個百分點。原因很直觀：這類題目需要大量坐標計算，有了代碼執行能力，模型可以把繁瑣的數值運算交給程序，把注意力集中在邏輯架構上。其中最典型的是德勞內三角剖分題（Delaunay Triangulation，一種將點集連成三角網格的經典算法），加了工具之后，Claude提升56個百分點，GPT-5.2提升48個百分點——因為只需要調用一個現成的幾何庫函數，就能繞過模型自己完全掌握不了的外接圓推理。

然而，工具在公理推斷這一關反而帶來了輕微的負面效果。Gemini下降6.7個百分點，GPT-5.2下降4個百分點。研究團隊的解讀是：對于這類題目，模型本來憑推理就能處理，引入工具反而分散了注意力，打亂了推理節奏。

規劃這一關，工具的效果最不穩定。Gemini因為"超級貪吃蛇"這道題（在多維網格里規劃蛇的路徑）大幅提升了59.3個百分點，總規劃分數上漲23.6個百分點。但Claude和GPT-5.2在這一關加了工具反而略有下降。這說明工具能不能幫上忙，取決于問題是否能被分解成可編程的子任務，一旦問題的核心是預判物理后果或設計全局策略，工具就幫不上忙。

五、越想越多，反而越錯——計算資源的邊際遞減

研究團隊還做了一項有趣的實驗：如果給模型更多的"思考空間"（也就是更多的輸出token預算），分數會持續提升嗎？

結果是：不會。

實驗只在公理推斷題目上進行，因為這類題目規模小，便于隔離變量。GPT-5.2的測試預算從1024個token一路增加到65536個token。在低預算階段，每增加預算，分數提升都很顯著——從0.04一路攀升到0.76。但超過32768個token之后，分數不再增長，甚至略微下滑到0.73。Claude Sonnet 4.5的走勢類似，在32768個token處達到0.55的頂點，之后再增加預算，分數維持不變。

更有意思的是，相比GPT-5.2，Claude在每個預算檔位上消耗的token更多，但得分始終更低。這說明"更努力地想"并不等于"想得更好"——如果推理方法本身有問題，再多的計算資源也是白費。這就像一個方向錯了的人走路，走得越快，離目的地越遠，而不是越近。

六、AI到底是在哪里出了問題？

光知道分數還不夠，研究團隊想搞清楚AI為什么失敗。他們對所有得分低于0.6的答案進行了事后診斷，讓另一款AI充當獨立評審，對每一個失敗案例貼上一個標簽，共有五種：拒絕任務（直接不答或給出空白）、偷換概念（悄悄把難題簡化成另一道題來做）、思維過載（寫了一大堆推理過程但始終沒有給出答案）、局部正確（局部邏輯無誤但整體不滿足全局約束）、差點成功（答案幾乎全對，只有一個細節出錯）。

在三款模型中，局部正確是最普遍的失敗原因，在Claude和Gemini中尤為突出，占據了失敗案例的大多數。以"兩段線"任務為例（要求在正方形邊界上放置兩條線段，把內部分割成指定數量和形狀的多邊形），Claude能正確運用歐拉公式計算出面和邊的數量關系，在嘗試各種擺放方案時邏輯也是對的，邊界線段也滿足格式要求，但最終給出的分割方案里，有一個區域是四邊形，而題目要求的是五邊形——局部看每一步都對，但全局約束沒有被滿足。

GPT-5.2則更傾向于拒絕任務。在德勞內三角剖分的第21題中，GPT-5.2直接判定這道題"計算上不可行"，返回了一個空的三角網格，而不是嘗試給出哪怕一個候選答案。

配上工具之后，這些失敗模式的分布發生了有趣的變化。GPT-5.2的拒絕比例從68%降到44%，但局部正確的比例上升了。Claude的局部正確比例從68%降到44%，但拒絕比例反而增加了三倍。Gemini的失敗分布基本沒變。無論哪款模型，局部正確始終是殘留失敗的主要原因。這說明：工具能解決部分"不會算"的問題，但無法修復"看不到全局"的根本弱點。

七、這場考試背后：空間能力為什么這么難？

看到這里，你可能會問：為什么空間推理對AI來說這么難？明明它們在很多其他任務上表現得那么好。

答案藏在這兩個詞里：全局約束。

局部推理對AI來說并不難。它能計算出一個三角形的三個角之和是180度，能知道兩個相鄰體素的關系，能理解一段路徑上的每一步是否合法。但真正的空間問題往往要求同時滿足多個約束，而這些約束互相影響、互相牽制，只有在腦中建立起整個環境的完整模型，才能找到一個全部約束都滿足的解。

可以用拼圖來理解這個差距。AI能很好地描述每一塊拼圖的形狀，也能判斷兩塊拼圖的邊緣是否大致吻合，但要把幾百塊拼圖在腦中同時協調，找出唯一正確的完整圖案，這種"全局視野"正是當前AI最薄弱的地方。

這種弱點在規劃任務中尤其致命，因為規劃本質上是一個動態的多步驟約束滿足問題——每一步都會改變下一步的約束條件，沒有全局視野，根本無從下手。

SCBench的存在意義就在于此：它不只是給AI打了一個分數，更是精確地指出了當前大模型在空間智能上的真實邊界，以及這條邊界背后的根本原因。正如研究團隊在結論中明確指出的，當前最好的AI在這套考試中達到57.6%的總分，但這個數字背后是一個明顯的能力梯度，從公理推斷到構造合成再到規劃，分數單調下降，沒有任何例外。

說到底，這份研究告訴我們的是：AI的聰明是有邊界的，而這條邊界，恰好劃在"把整個世界裝進腦子里，然后在約束下做出完整計劃"這件事上。流體模擬中那些能挖個簡單盆地的題目，AI還能應付；但要它預判爆炸后巖石的滾動路徑，或者設計一個真正能拼成球形的樂高方案，它就完全束手無策了。這不是算力不夠，而是推理方式本身的局限。

未來的研究方向在于將這類測試擴展到多輪對話、自我糾錯和主動使用工具的場景，讓AI不只是在單次嘗試中回答問題，而是能像真正的工程師一樣迭代、驗證、修正自己的方案。那時候，空間能力的邊界或許才會真正開始移動。有興趣深入了解這套測試的細節和全部22道題的規格，可以在arXiv上搜索編號2604.09594查閱完整論文。

Q&A

Q1：SCBench和其他AI空間推理測試有什么本質區別？

A：SCBench要求AI直接輸出可執行的答案，比如具體坐標或操作序列，然后由程序自動驗證。大多數現有測試是選擇題或問答題，只考感知和識別，而SCBench考的是在全局約束下構造和規劃，更接近真實世界中工程師或設計師需要完成的任務。

Q2：給AI配上代碼工具之后，SCBench的得分能提升多少？

A：配上Python代碼解釋器和網絡搜索之后，整體提升有限。在構造合成類題目中提升最明顯，GPT-5.2提升了15個百分點，主要原因是可以調用現成幾何庫繞過手工推理。但在公理推斷題上工具反而輕微拖累了成績，在規劃題上效果也不穩定，因為局部正確的失敗模式靠工具無法根本解決。

Q3：SCBench里最難的題目是什么，AI為什么完全解不出來？

A：地形爆破題和樂高半球題是所有模型都得零分的題目。地形爆破要求AI預判物理引擎模擬出的巖石滾動結果，這超出了語言模型的推理能力范圍。樂高半球題則要同時滿足球形近似、積木咬合、結構穩定等多個工程約束，這類需要全局協調的三維構造任務是當前大模型最根本的弱點所在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.