AM易道分享
Autodesk Research上周在arXiv上掛了一篇論文,標題叫Zero to CAD。
低調到不像Autodesk的風格。但很多人這兩天都在轉。![]()
原因是論文里有一組數字,乍看不太對勁。
一個20億(2B)參數的AI模型,能跑在你手機上的那種,讓它從圖像生成CAD代碼這道題上做到82.1%的成功率。
同一道題,GPT-5.2開到最高推理強度,只有72.2%。
不微調的同款基礎模型只有6.6%。
更反常識的是這個2B小模型從頭到尾沒看過一份真實CAD數據。
它學會的所有東西,都是另一個大模型在反復試錯里寫出來的合成程序。
Autodesk這一手,本質上是把困住AI畫CAD這件事好幾年的數據墻,用一種很取巧的方式繞了過去。
對3D打印行業來說,這意味著AI生成可編輯模型源文件這件事,第一次有了像樣的路徑。
![]()
3D打印行業一直在等的那種AI
打印機這兩年迭代得很快。
多色、高速、大尺寸、多材料,新機型一年能發好幾代。
但有一件事沒怎么動,可編輯的模型源文件從哪里來。
不管是工業用戶做小批量定制件,還是消費用戶打游戲手辦,模型來源就那么幾條路。
自己畫,找設計師外包,從模型站下載現成模型,或者拿照片用網格掃描重建。
除了前兩條,出來的是都是死網格。
死網格的意思是,你能打印它,但你不能改。
想把孔位往左挪兩毫米,想把壁厚加一圈,想把卡扣的間隙調小一點,對不起,從頭來。
整個行業都在等一種AI:
你給它一句話或者幾張圖,它給你一個能改、能調、能直接進切片的真正CAD源文件。
不是網格,是一段能回放、能修改的構造歷史。
這件事過去幾年沒做出來,最大的瓶頸不在模型,在數據。
行業卡了多少年的坎
CAD模型和我們打印用的STL網格,本質上是兩個東西。
STL是最終的幾何外形。一個零件在屏幕上長什么樣,文件里就記錄什么樣。
但工程師真正在用的CAD文件不是這樣。
一個支架在CAD軟件里被打開,左邊那條參數樹里寫著:
先在XY平面畫一個矩形,長60寬40,往上拉伸8毫米;
然后在頂面畫一個圓,直徑8毫米,向下挖透;
再選四條豎邊,倒2毫米的圓角。
這條參數樹就是構造歷史。
它記錄了設計意圖。改尺寸、調參數、把這個支架的孔位從中心挪到邊角,靠的全是它。
AI模型如果拿公開的已有的網格數據訓練,能生成靜態幾何,做不了可編輯的源文件。
之前學術界有人嘗試過填這個坑。
DeepCAD做了17.8萬條序列,Fusion 360 Gallery做了8600條,規模都太小,而且都被鎖在最簡單的一種操作里:畫草圖,再拉伸。
倒角、圓角、抽殼、放樣、掃掠、布爾運算這些機械設計里最常見的動作,全部不支持。
更近一些的工作叫CAD Recode,去年發的,規模也接近一百萬。
但它生成出來的代碼長這樣,一串坐標的連續調用:機器能執行,人完全改不動。
r = w0.sketch().segment((...),(...)).segment((...),(...))....close().finalize().extrude(8)對比一下,Zero to CAD生成出來的代碼長這樣:
result = bracket變量是有名字的,plate_length、hole_diameter、fillet_radius,工程師一看就知道哪個數字是干嘛的。
邏輯順序也是清楚的,先建底板、倒圓角、再開孔。
想把孔徑從8毫米改成10毫米,把hole_diameter那一行改一下就行,整個零件自動重建。
這就是可編輯和不可編輯的區別。
這就是Zero to CAD要解決的問題。
![]()
上圖是現有CAD數據集對比,加粗那行是Zero to CAD,規模大、可執行、可讀、操作覆蓋廣
Autodesk的解法似乎并不復雜
讓一個大模型自己寫代碼,自己跑,跑不通自己查文檔改了再跑。
具體來說,研究團隊挑了一個開源大模型gpt-oss-120b,把它扔進一個CAD環境里。
環境給模型配了三件工具,一個執行驗證器,一個文檔檢索器,一個文檔正則匹配器。
然后讓模型干一件事:
寫CadQuery代碼(一種用Python語法描述參數化CAD的開源庫,可以理解成給程序員用的Fusion 360),執行,看報錯,查文檔,改代碼,再執行,直到幾何成立。
論文里舉了個很直觀的例子。
模型生成了一段沉頭孔代碼,跑出來報錯,說cskHole這個函數缺一個叫cskAngle的參數。
它就自己去查CadQuery文檔,找到正確的函數簽名,把參數補齊,再跑一次。
一次不行就十次,每個零件最多允許跑100次嘗試。
![]()
上面是AI代碼合成與驗證的完整閉環流程圖
還有兩件事值得提。
一是分兩階段干。
先讓模型當零件管理員,按65個常見類別(支架、滑輪、外殼、法蘭這些)批量列清單,每批200個,逼它換花樣別重復。
然后再按清單去寫代碼。
二是質量關卡嚴。
代碼能跑只是第一步。還要確認零件不是斷成幾塊的、不是面數少得可疑的方塊、能干凈地導出STL(用來打印)和STEP(用來CNC)。
這幾關都過,才進數據集。
一周時間,一百萬個零件
整個流程跑了大概一周。
GPU在2到80塊之間動態調度,CPU峰值用到3000核。
處理了602億輸入token,生成了55.9億輸出token。
最終入庫999633條。
首次嘗試就成功的占22.3%,剩下的平均要試3.3次才過。
更關鍵的是質量,和ABC(業內最權威的真實CAD數據集)比,Zero to CAD的零件復雜度(平均46.2個面)接近真實數據(50.7),上一代CAD Recode只有16.4,而且一半以上是斷成幾塊的偽零件。
Zero to CAD這一關過濾得很干凈。
研究團隊再用AI視覺模型測了一遍分布相似度,結論一樣:
它合成出來的,比之前的合成數據更像真工程師畫的。
![]()
上圖是Zero to CAD、ABC、DeepCAD、CAD Recode樣本視覺對比
真正出圈的,是后面那個2B的小模型
數據集本身已經是厲害的成果。但這兩天火爆的是后面的一個收尾實驗。
研究團隊拿那一百萬條合成數據,全量微調了一個Qwen3-VL-2B-Instruct。這是一個20億參數的視覺語言模型,能塞進消費級顯卡甚至手機里。
任務是圖像到代碼:給8張多視角渲染圖,輸出能跑的CadQuery代碼,重建幾何。
![]()
整個零件由草圖、拉伸、倒角、挖孔、打孔幾個動作組合而成。
測試結果在文章開頭說過,自家測試集82.1%的成功率,把GPT-5.2 High(72.2%)按在地上。
而基礎Qwen不微調只有6.6%。
研究團隊自己也很坦誠地說了一個限制。
把這個模型放到ABC(真實人類設計的CAD)上做泛化測試時,成功率掉到61%,IoU(衡量重建幾何和原始幾何重合程度的指標,1是完全重合,0是完全不沾邊)也下降明顯。
GPT-5.2在ABC上的衰減反而更小。
這個對比說明了兩件事。
一件是這套合成數據真的能讓一個小模型從零學會一項GPT-5.2級別才能勉強做的活。
另一件是合成數據訓練出來的模型,遷移到真實數據上還有距離。
社區評論區的反應也分兩派。
有人肯定對于一個能跑在手機上的2B模型,這個表現已經相當驚人。
而有些質疑是指那些被算成成功的結果里,到底有多少是2.5D的簡單平面拉伸?
多少是真正需要空間感、多平面方向、多個草圖相互參考的3D幾何?
這個問題論文里沒有正面回答。
從前面的圖片里能看到的零件類型不少,但要真做工業級的復雜殼體、多孔配合面、帶斜度的精鑄件,目前的樣本分布夠不夠。
![]()
上圖是ABC真實數據集上的重建對比(Ground Truth對比微調后的Qwen3 VL 2B對比GPT-5.2
這事和3D打印有什么關系
說回我們的行業。
很多同行最大的痛點之一是設計成本。
一個客戶拿著草圖來,要你給他做一批支架、夾具、外殼,傳統流程是設計師在CAD軟件里畫,驗證完打樣。
設計費攤到每件上,比材料費和打印工時加起來還貴。
如果AI能把這個流程壓縮到分鐘級,整個小批量定制的經濟模型就變了。
Zero to CAD指向的就是這條路。
它現在還做不到完美,但已經把基礎能力跑通:
給圖像,能生成可編輯的CadQuery代碼;
這個代碼能直接導出STL進切片,也能導出STEP。
模型權重和數據集都開源放在HuggingFace上(ADSKAILab/Zero-To-CAD-Qwen3-VL-2B),消費級顯卡能本地跑,不用調API。
對企業用戶來說,最直接能做的幾件事:
做內部設計提效工具。
把客戶發來的參考圖丟給模型,先生成一版基礎幾何,設計師在這版基礎上調整,比從零畫快很多。
還可以做產品配置工具。
比如做定制夾具的廠家,可以訓練一個領域內的小模型,讓客戶上傳工件照片就生成對應的夾具設計。
對個人用戶和小工作室來說,更實用的是關注HuggingFace上后續會出現的微調版本。
Autodesk放出了基礎模型,社區基本一定會有人在它上面繼續微調,比如專門針對某些特定行業應用的版本。
這些垂類微調出來的小模型,可能比通用大模型在具體場景上更好用。
但61%的真實數據成功率,意味著現在還不能無人值守地用。
![]()
Autodesk在論文里也很坦誠地放了一組失敗案例。
薄壁斷開、孔位偏移、幾個零件浮在空中沒連上、看起來像零件其實加工不出來。
這些失敗現在還得靠人眼把關。
把它當一個高效的草稿生成器,比把它當一個全自動設計師,更現實。
研究團隊說他們沒有引入視覺反饋,這也是為什么模型還無法可靠地檢測這類幾何缺陷。
也就是說,Zero to CAD的整套自我修正機制,是語法層面和幾何拓撲層面的修正,不是工程合理性層面的判斷。
模型能保證代碼能跑、幾何可行、能導出,但保證不了這是一個能合理加工出來的零件。
這條路的下一段,大概率要靠兩件事補齊。
3D打印這一項尤其值得期待。
因為打印的可制造約束相對清晰,懸垂角、最小壁厚、支撐位置這些規則都有現成的判定邏輯,容易做進自動驗證里。
這也意味著,3D打印很可能是AI生成CAD最先跑通商用閉環的工藝。
回到今天這篇論文。
![]()
![]()
Autodesk這次放出來的還是是一整套可以直接用的資產:
100萬條帶完整構造歷史的CAD數據集、一個微調好的2B模型權重、一份開源的訓練代碼,全在HuggingFace上。
消費級顯卡能本地跑,不用調API。
現在數據和基礎模型都開源了,剩下的就看誰動作快。
Autodesk自己當然會把這套能力慢慢嵌進自己的軟件棧。
而其他所有做3D打印軟件生態的廠家,再加上一批做AI生成3D內容的企業,理論上都在同一個起跑線上。
本文是AM易道對論文的解讀和轉述,帶有大量主觀判斷、內容取舍和添加行業視角,原文信息密度大、專業細節多,如果您是相關領域的專業讀者,強烈建議直接閱讀原文,本文的內容可能與原作者的嚴謹表述存在部分差異。
論文:
arXiv原文:https://arxiv.org/abs/2604.24479
HuggingFace論文頁:https://huggingface.co/papers/2604.24479
資產(HuggingFace):
項目集合頁(所有資產匯總):
https://huggingface.co/collections/ADSKAILab/zero-to-cad
100萬條完整數據集:
https://huggingface.co/datasets/ADSKAILab/Zero-To-CAD-1m
10萬條精選子集:
https://huggingface.co/datasets/ADSKAILab/Zero-To-CAD-100k
2B微調模型:
https://huggingface.co/ADSKAILab/Zero-To-CAD-qwen-vl-2B
項目組主頁:
https://huggingface.co/ADSKAILab
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.