網易首頁 > 網易號 > 正文申請入駐

清華大學詹仙園：大模型時代，先把“底層骨架”做好

2025-11-23 13:14:44　來源: 問芯

北京舉報

分享至

如果不是看研究方向，很難把詹仙園和 “ 具身智能 ” 直接聯系起來。他本科讀的是清華土木工程，后來去美國普渡大學讀交通工程博士，博士期間一半時間泡在計算機系做機器學習；畢業后進入微軟亞洲研究院，再跟著前上司轉去京東科技，主導過基于離線強化學習的火電優化研發項目，并完成了產品化及在國內多個電廠的推廣落地。直到 2021 年，他回到清華，正式把重心轉回學術研究。

“說白了，就是希望能自由地做一些自己感興趣的事。”他笑著概括自己一次次轉向的原因。表面上看，他從土木到交通，從工業控制到自動駕駛和具身智能，一路在“換賽道”；但如果把這些經歷抽象成一個問題，就能看出貫穿其中的主線：怎么用數據驅動的決策優化技術，讓智能體在真實物理世界里更好的解決問題。

也因為如此，當具身智能的發展進入大模型時代后，他比很多人更早意識到：真正限制通用機器人能力的瓶頸，不是模型夠不夠大，而是跨具身形態的異質性——不同機器人之間在硬件、感知和控制上的巨大差異，讓本來就相對有限的具身數據形成孤島，也讓所謂的“通用 VLA”經常在遷移時崩塌。

X-VLA 就是在這個判斷下誕生的。

在過去 11 個月里，詹仙園和他的學生們嘗試了幾十種模型結構：從統一動作空間，到各種中間表征的壓縮映射，再到如何讓模型真正理解“不同機器人長得不一樣”。最終，他們把異構性處理前置到模型入口，用一個可學習的軟提示（soft prompt）承載每個機器人獨特的“本體特征”，讓 Transformer 主干可以充分學習跨任務的通用規律。

這一設計帶來了超出預期的結果：以僅0.9B的參數量在五大權威仿真基準上全面刷新性能紀錄；只用1200條示教數據，就學會了疊衣服這種超長程復雜任務；甚至零樣本遷移部署至全新的環境。

最終，在杭州舉辦的 IROS 2025 AGIBOT World Challenge 國際具身智能競賽上，詹仙園團隊與上海人工智能實驗室聯合組隊，奪得冠軍。

（來源：受訪者提供）

回歸學術，為自由度與前沿探索

問芯：你在產業界主導了諸如火力發電優化這樣的優秀項目，是什么促使你回到學術界？

詹仙園：產業界能夠做很多非常務實、有直接落地價值的事情，但在研究方向的選擇上自由度相對有限；相比之下，學術界則提供了更高的自由度，研究者能夠自主決定探索的方向，并有機會從事更加前沿和開創性的研究。

問芯：是什么契機，讓你判斷下一站是具身智能和自動駕駛？

詹仙園：工業控制、自動駕駛規劃以及機器人控制，看似分屬不同領域，本質上都可以歸入同一類問題：決策優化和控制問題。這些場景背后依賴的算法框架、建模方式以及核心思想具有高度共通性。我長期關注的依然是這條主線，只是應用方向在不斷擴展。

當前，我的研究主要聚焦于三個方向：工業控制、自動駕駛，以及具身智能。之所以關注具身智能，一方面是因為大模型的發展推動了機器人認知與決策能力的整體提升，使其不再局限于高度定制化任務（task-specific）的操作；另一方面，也是因為這一領域的技術成熟度正在快速提升，能夠支持我們探索過去難以實現的復雜任務，領域的潛力與想象空間都比較大。

問芯：是否會考慮將具身智能領域的研究成果落地應用？

詹仙園：現在是開展具身智能研究的一個非常關鍵的窗口期。無論是方法論還是具體技術路線，目前都遠未收斂，整個領域仍處在快速演化的階段，蘊含著大量值得探索的問題。盡管業界已經能看到一些人形機器人或其他形態的機器人在接近真實應用的任務上取得進展，但若要真正實現產品化、進入家庭或服務場景并規模化落地，我個人認為至少仍需 3-5 年的時間。

在這個階段，我認為要先把底層的通用框架和模型架構打穩。具身智能體要具備足夠的可擴展性和可遷移性，必須讓其在 scaling law 上展現足夠的斜率——也就是隨著數據和算力的增加，性能能夠持續、顯著提升。但目前許多 VLA 架構在這方面表現并不理想，你很難看到清晰的 scaling 規律。

因此，與其盲目擴大規模，我更看重的是通過前沿探索，把這條 scaling 曲線的斜率真正拉起來，讓模型能夠展示出可持續擴展的能力。只有這樣，后續的大規模訓練才是高效的，也能為未來的實際落地打下更扎實的技術基礎。

做“小而強”的通用 VLA

問芯：如果不解決跨具身異質性難題，所謂的通用機器人模型會卡在哪個“天花板”上？

詹仙園：如果跨具身異質性的問題得不到解決，會帶來一系列連鎖影響。

首先，大量原本可以用于訓練的真實世界數據將無法直接利用。缺乏跨本體的遷移與適配能力意味著每種機器人都必須強依賴自身的小規模數據孤島，哪怕花費高昂的成本采集，最終能夠用來訓練的有效數據量仍然有限，從而無法支撐大規模具身模型的發展。

其次，跨本體訓練本質上能夠極大提升樣本的多樣性。對于任何希望在真實世界落地、且具有魯棒性的具身策略而言，見過的場景足夠多是關鍵前提。如果訓練始終局限在一臺機器人、同一類環境，模型往往會在狹窄分布內過擬合，難以形成真正具有泛化性的能力。

更進一步，一個具備跨本體泛化能力的模型，才真正具備基礎模型的特征：它能夠從規模龐大、來源異構的訓練數據中持續吸收信息，實現大規模預訓練，從而學習到更為本質、跨任務和跨平臺的規律。

問芯：與現有的開源 VLA 模型比較，X-VLA 有什么優勢？

詹仙園：X-VLA 的核心優勢主要體現在高效性和可擴展性兩個方面。

首先，它在極少數據條件下便展現出了令人驚訝的學習能力。我們在論文中展示的疊衣服實驗，只使用了約 1200 條真實示教數據。對于這樣一個涉及抓取、甩動、展平、折疊等多階段動作的長程任務而言，這個數據量在行業內可以說是非常少的。

其次，盡管模型規模只有 0.9B 參數，X-VLA 在幾乎所有主流的具身智能基準上都能達到，甚至在部分任務上超越當前的SOTA。這說明我們設計的架構在效率和效果之間找到了一個相對理想的平衡點。

更重要的是，X-VLA 展現出非常良好的 scaling 特性。從目前的實驗來看，模型的能力遠未達到上限。無論是繼續擴大數據規模、增加訓練步驟，還是適當地擴充模型體量，都有可能進一步提升性能。

問芯：為什么選擇了疊衣服這個場景？

詹仙園：疊衣服之所以被選為實驗任務，主要有兩個原因。首先，它本身是一個超長程的任務，包含許多復雜的操作環節。舉例來說，衣物最初通常是隨意堆成一團的，模型需要先將其從雜亂的形態恢復到相對平整的狀態；隨后，還需要想辦法將衣服展開，而“甩動”這一動作在機器人上實際上非常困難——既要求力度精確，又需要抓取點合適，才能將衣服有效甩平。只有完成這些步驟之后，才進入第二階段的折疊流程。

實際上，疊衣服的第二階段反而是最簡單的部分；最具挑戰性的核心在于第一階段——從完全隨機的狀態開始，把衣物整理、抓取、甩平，再進入折疊。要把這一整套流程做好，模型必須真正學到其中的關鍵規律，而不是簡單模仿。

其次，這個任務本身足夠生活化。雖然我們并不是第一支研究疊衣服任務的團隊，但疊衣服確實是一個貼近日常場景、又能充分體現任務復雜性和模型性能的典型任務。

問芯：0.9B 參數放在具身智能的語境里，它算大還是小？

詹仙園：我認為 0.9B 是一個相對較小的模型參數規模。當前能夠達到類似能力水平的模型，通常都在 3B 到 7B 之間，甚至已經有團隊發布了 72B 甚至更大的版本。相比之下，0.9B 屬于非常精簡的體量。

但對具身智能而言，我認為這樣的小規模反而是更有意義的。未來模型一定是要部署在機器人本體上的，如果模型過大，部署會面臨非常多問題，不可能所有具身智能能力都依賴云端來支撐。在實際場景中，更需要那些“小、通用、輕量，同時又足夠強”的模型，才能真正部署在機器人上，實現可擴展性。

問芯：X-VLA 的參數僅0.9B，但在多個基準上達到 SOTA，為何能實現“規模更小，性能更強”？你怎么看“做小而強”和“堆大算力”這兩種路線？

詹仙園：目前行業中許多體量巨大的 VLA 模型（往往以數十億參數起步），其實大多數還是基于現成的 VLM 搭建出來的。

但這種方式并不一定高效。原因在于，這些被拿來做底座的 VLM，本身的訓練數據并不面向具身智能場景，它們主要使用互聯網圖片、通用圖文對等進行預訓練，并不是一個“具身語境下的大腦”。如果強行以這樣的模型作為基礎，希望通過外接動作模塊訓練出一個高質量的具身智能模型，其效率往往是有限的。

因此，在設計 X-VLA 時，我們刻意沒有選擇規模最大的 VLM，而是選用了一個相對精簡的模型——Florence。它雖然參數量不大，但訓練中包含了豐富的視覺定位（visual grounding）、物體位置關系、物理關系等相關的任務數據，更接近一個“具身場景的視覺大腦”。基于這樣的選擇，整個模型的訓練效率和效果都會更高。

此外，X-VLA 中可有效支撐跨域數據學習的 soft-prompt設計，以及下層簡潔的 Transformer 主干網絡，都在大幅提升模型性能的同時，保持了模型的相對精簡的體量。

圖 | X-VLA 引入了一種稱為 soft prompt（軟提示）的可學習嵌入，用以有效應對跨具身數據集中存在的異質性

問芯：X-VLA在 0.9B 規模上還沒有看到 scaling 飽和，你們接下來想先擴模型，還是擴數據域？

詹仙園：我傾向于采取“兩條腿走路”的策略。

一方面，模型本身仍有明確的優化空間。無論是在架構設計、信息流動方式，還是在訓練目標上，X-VLA 都可以通過進一步的研究獲得性能提升。

另一方面，我們也需要從 scaling 的角度繼續擴展，包括增加數據量、提高算力投入，甚至在合適范圍內適當提升模型規模。

目前我們主要針對單臂、雙臂等機械臂任務進行了訓練和驗證。下一步，我們也會把一些人形機器人全身控制（full-body control）的訓練數據加入進來，看這類數據是否能夠進一步提升模型的泛化性與多任務能力。

問芯：你提到該模型的性能還沒有達到它的上限，那么后續有什么規劃？

詹仙園：第一是在后續的研究中把一些推理能力進一步加入到 X-VLA 中。因為目前的 X-VLA 還是一個相對純粹的視覺—語言—動作模型（VLA），更多是完成感知和控制層面的工作。接下來我們考慮將更多具身推理（embodied reasoning）引入，并以更結構化的方式融入模型，使其能夠在復雜的物理場景中進行一定程度的推理，從而更好地支持長程、多階段任務的執行。這是我們非常想加強的一塊能力。

第二，我們也在研究如何進一步優化整個模型架構，讓它在超長程任務的執行上具備更好的自適應處理能力。現實中的許多具身任務往往不是短序列，而是跨越很長的執行鏈路，因此如何讓模型在超長時間尺度上保持穩定性、連續性和任務理解能力，也是我們下一步會重點推進的方向。

當模型走出實驗室

問芯：在測試過程中，有沒有遇到一些出乎意料的良好結果？

詹仙園：對我而言，最讓我感到意外、甚至印象深刻的結果有兩個。

第一個是模型只使用大約 1200 條數據就學出了一個完整的疊衣服策略。而從結果來看，它展現出的行為非常“像人”，在執行過程中，如果出現意料之外的錯誤，它會自行調整、重新嘗試，并最終能夠把這樣一套復雜的任務流暢地完成。

第二個是模型在主流 benchmark 上甚至更復雜的真實環境中的表現確實足夠好。

在這個工作完成之后，我們的一個企業合作伙伴看到實驗效果，希望我們把模型拿到他們的展會上做一次展示。坦率地說，當時我們是有些缺乏信心的，因為模型訓練完全基于實驗室環境的數據，我們并不確定它在一個復雜的會展現場——光照、背景、動態環境都完全不同——是否還能穩定完成任務。

但結果出乎我們的預期：我們沒有對模型做任何調整，它就能夠“零樣本”地直接遷移到一個完全全新的場景，并且執行得非常好。這一點同樣讓我們感到非常意外。

鄭金亮：讓我感到驚喜的是我們留到最后才進行的一個實驗：使用極少量可訓練參數，通過 LoRA 的方式對下游任務進行微調。我原本并沒有抱太大期待，只是希望驗證一下模型在這種極簡設定下的表現。然而結果遠超預期：在僅使用一個 0.9B 的基礎模型、搭配約 9MB 的可訓練參數的情況下，模型在兩個主流 benchmark 上取得了與全量微調幾乎相同的成績。

這一點對我而言意義重大。它表明，在前期進行大規模異構數據的訓練過程中，模型確實學到了足夠通用和本質的能力，因此只需要極小規模的參數調整，就可以快速適配到全新的任務中，甚至達到 SOTA 的水平。從那一刻起，我才真正確信，我們在 X-VLA 上探索的這條路徑是有效的，也是具有潛在擴展性的。

問芯：你提到在實驗室做的是一個結果，放到展會上面可能會有一些問題，可能會產生什么問題呢？以及什么原因會導致這個問題？

詹仙園：主要原因是我們訓練使用的數據幾乎全部是在實驗室環境中采集的，并沒有進行任何面向泛化能力的專門數據采集。我們當時沒有把系統放到不同的環境里采數據，比如不同的光照條件、不同的背景、不同的場景設置等等。這類變化通常需要更大規模的數據采集才能覆蓋。

但在當時的訓練中，我們只使用了大約 1200 至 1500 條數據來訓練模型，并沒有做額外的數據增強或專門提升泛化性的采集工作。因此，按照常規判斷，這樣的數據規模很可能不足以支持模型遷移到一個完全不同且更復雜的會場環境。

然而，實際結果卻證明模型是足夠的。它成功泛化到了一個高度動態、背景完全不同的現場場景中，并且在任務上表現得非常穩定，這一點也超出了我們的預期。

問芯：基于當前的研究成果和技術發展判斷，你們覺得該模型最快可能會在哪些場景中應用？

詹仙園：我認為，在短期內更有可能在半開放場景中實現落地。例如分揀、裝配、臺面操作（table-top manipulation）等任務，這類場景的環境約束相對明確，任務邊界清晰，對模型的泛化能力要求也較低，因此更容易形成可部署的產品形態。

相比之下，真正進入家庭、完成復雜家務等高度開放的任務，目前整個行業仍處于探索階段。從技術成熟度、數據規模，到硬件協同與產品化路徑，都還需要較長時間的積累。我個人判斷，要把這類任務做到可規模化部署，至少需要三到五年的研發周期，并伴隨大量進一步的前沿探索。

即便如此，基于 0.9B 的 X-VLA，在某些簡單或中等復雜度的臺面任務上已經具備了較強的潛力。如果未來能夠進一步擴大數據規模，并結合更系統的擴展性訓練，我相信它在若干具體場景中已經可以達到較為理想、甚至接近商用的水平。

1.https://arxiv.org/pdf/2510.10274

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.