无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

對話上交大穆堯:具身智能是年輕人改寫世界的機會

0
分享至

在人工智能的眾多賽道中,具身智能(Embodied AI)正處于爆發的前夜。它被視為連接數字世界與物理世界的“最后一公里”,也是人類文明向前邁進的重要里程碑。

從清華大學的強化學習,到香港大學的機器人控制,再到如今在上海交通大學帶領團隊攻堅通用具身智能系統,他站在了計算機視覺(CV)、自然語言處理(NLP)和機器人學(Robotics)的十字路口。

幾年前,這還是一個冷門、艱難的領域,沒有標準數據集,沒有 Benchmark(基準測試),甚至被視為一個費力不討好的領域。如今,隨著大模型技術的溢出,具身智能迎來了日新月異的變革。穆堯也在這個時候成為了上海交通大學的一名年輕的助理教授。他的主頁上寫著一句話:“Shape the intelligence and spirit the machine”(為智慧塑形,為機器注靈)。他相信,真正的創新往往來自那些不設限的年輕人,來自那些敢于在未知中尋找“北極星”的時刻。

在這次對話中,我們試圖還原一位青年學者眼中的具身智能全景圖。從微觀的技術路線選擇,到宏觀的中外產業對比,再到對年輕一代科研者的期許。

圖 | 穆堯課題組(來源:受訪者提供)

這是一個得天獨厚的交匯點

問芯:回看你的經歷,從清華到港大,再到如今的上交大,你似乎很早就鎖定了具身智能這個方向。當初是如何在眾多 AI 領域中選中這條路并長期投入的?

穆堯我認為具身智能對我來說是一個特別合適的領域:它其實是 CV、NLP 和 Robotics 的一個完美交匯點,這與我的經歷和知識儲備非常吻合。我的本科背景涵蓋了跟機器人硬件相關的知識,博士期間在香港大學羅平老師門下,又接觸了比較高端的視覺算法。而具身智能為了理解人類意圖,還會融入 NLP(自然語言處理)的部分。盡管在 2021 年、2022 年這還是一個比較冷門的方向。當時更火的是純 CV 和 NLP,具身智能連標準的數據集和 Benchmark 都沒有。那是一段比較艱難的時期,我們只能一點點去打地基,自己造數據集,自己造 Benchmark,自己去探索方法。

問芯:在它還不是風口的時候,你有動搖過嗎?有沒有想過換個更容易出成果的方向?

穆堯:我是比較堅定的。當然,很多同輩的同學會迷茫、會有困惑,我也經常給他們做疏導。具身這條路確實難。它發文章的難度比正常做視覺要大很多,因為你需要在物理世界里做各種硬件的調整,真機實驗可能就得比別人多做半個月。

但我認為它的 ROI(投資回報率)是非常高的。因為這是一個藍海領域,你做的工作其實更具影響力。這是人工智能真正走進物理世界、與物理世界交互、進而改變物理世界的最后一個里程碑式的進程。當它被攻克時,整個人類文明、社會結構都會被重構。這是一個非常偉大的事業,所以我自己義無反顧。

問芯:你在主頁上寫著一句話:“Shape the intelligence and spirit the machine”。這背后蘊含著怎樣的研究理念?

穆堯:這兩句話是對我對具身智能核心的解釋。

前半句“為智慧塑形”(Shape the intelligence)指的是我們希望從物理交互的層面給大模型一個身體。現在如 ChatGPT 一樣的大語言模型在虛擬世界中非常發達,但它們欠缺一個物理的身體。它可以幫你寫一封郵件,但不可能給你端來一杯水。我們希望教會它如何控制身體,如何擰開瓶蓋,如何施力。

后半句“為機器注靈”(Spirit the machine),則是具身智能與傳統機器人的區別。傳統機器人面向單一場景、單一任務,追求百分之百的精準。而具身智能是大模型賦予了機器人“靈魂”,讓它能理解人類的意圖,甚至觀察人類的狀態。比如覺得你疲憊了,主動為你做些什么。

簡單來說,前面是相對于互聯網 AI,后面是相對于傳統機器人。具身智能正好是那個完美的交叉點,擁有強大的泛化性、與人溝通的能力,以及一個能走進物理世界的身體。

VLA 已進決賽圈,核心戰役在數據

問芯:你在多篇論文中涉及將 Diffusion Model(擴散模型)應用于機器人規劃。為什么選擇這條技術路線?

穆堯:Diffusion Model是一個非常強大的生成器。既然它能生成復雜的視頻,生成機器人軌跡自然不在話下。

更重要的是,具身數據源于人類示教,而人類行為具有極高的多樣性。因此,在同樣觀測下,動作分布會有多個峰值,Diffusion Model 在擬合這種多峰分布上表現極佳。此外,它逐步去噪的過程,允許對整條軌跡進行迭代式優化,“這修修,那補補”,這成為了目前學術界對 Action 建模的主流方式。

問芯:現在大家經常討論具身智能的“不可能三角”——通用性、性能和自主性很難兼得。在你的工作中,如何平衡泛化能力和精確性?

穆堯:我覺得隨著技術的演進,“不可能三角”正在被逐漸淡化和模糊。比如最新的 Pi0 等成果,泛化性很好,效果也很好。之前之所以存在“不可能三角”,本質是因為數據不夠。這就像之前的 NLP 模型,針對單一對話做得好,但通用不行?,F在 ChatGPT 證明了,只要 Scale up(規模化)上來,這些問題都能解決。目前像國外的谷歌 Generalist. AI 等和國內各大數采場都在快速積累數據,大家也逐漸意識到收集多樣化數據的重要性,隨著真機數據、人類數據、仿真數據的不斷“力大磚飛”,“不可能三角”會被不斷稀釋

問芯:既然提到 Scale up,你認為在具身智能中,數據、模型、算力的 Scaling 優先級是怎樣的?

穆堯:優先級最高的絕對是數據。

其實數據的 Scaling 一直做得不夠好。數據分為四個維度:場景、物體、任務、行為。目前場景和物體的多樣性,通過仿真合成數據已經做得相對較好。但任務多樣性很欠缺,不管是真機還是仿真,大多是一幫人拍腦袋定的任務清單,跟人類日常生活的豐富度有巨大鴻溝。

最難的是人類行為的多樣性。即使是真機遙操作采集數據,操作員為了賺快錢,往往傾向于用最快、最單一的方式完成任務。隨著疲勞,他們的行為會越來越單一。而模型訓練恰恰需要多樣化的行為數據。相對而言,模型結構的 Scaling 已經很成熟了,改改結構漲一兩個點意義不大,核心還是數據的 Scaling。

問芯:面對數據難題,你們團隊目前具體在推行什么樣的技術方案?

穆堯:我們正在推進一套“人-數字人-機器人”三元融合驅動的數據和模型Scaling up 方案。核心還是以人為本。我們不能只靠死板的仿真,而是要先學一個人類的 Foundation Model,把它作為先驗嵌入到我們仿真合成數據的管線中,把人的行為多樣性遷移過去。

具體而言,整個流程是:第一步,直接從海量的人類視頻數據中進行大規模預訓練,解決數據量的問題;第二步,利用我們構建的管線生成高質量的機器人仿真數據,將人類的行為域遷移到機器人上,進行第二階段的預訓練;第三步,再加入機器人的真機數據進行微調。這可能是目前解決數據瓶頸最有效的路徑。

問芯:除了數據,Benchmark(基準測試)也是行業痛點。你認為目前的測評體系存在什么問題?

穆堯:目前缺乏統一的 Benchmark,大家各做各的,沒有一個能讓所有人信服。

比如常用的 LIEBRO,大部分算法都能刷到 90 多分的成功率,再漲一兩個點沒什么意義,而且它用的機器人型號在中國都不賣。再比如 RoboTwin,它主打泛化性,對不同場景,不同桌面的雜亂度,目標物體的形狀、初始位姿等的泛化性能要求較高,但沒有和真實的物理場景做完美的對齊。還有一個最大的問題是真機評測的不可復現性。所有人的真機實驗都是自己設計任務、自己搭場景、用自己的機器人,資產也不一樣。

問芯:這有解法嗎?

穆堯:我覺得未來的評價體系應該分三部分:第一,建立一套與真機完全孿生的仿真測試,保證極高的可信度;第二,像 RoboTwin 一樣測策略在廣泛場景下的泛化性;第三,也是目前最糟糕的,真機評測。

我們團隊正在做這件事,推動真機評測的標準化。我們提供標準的硬件清單、場景布置參數,甚至每一個資產的淘寶鏈接,讓大家能購買相應的資產,搭建出一模一樣的平臺。

國內有得天獨厚的優勢,也有不敢冒險的差距

問芯:畢業后你選擇了進入高校,而不是去業界一線的研發團隊。這個選擇的緣由是什么?

穆堯:進入產業界,總是容易“受制于人”。企業的安全閾值比較低,它一定要做短期內有收益的事情。但具身智能目前還不是一個特別成熟的產業,它需要我們有更冒險的想法、更年輕的思路。而學術界則相對自由,而且上交大提供了非常好的平臺。在高校,我們是連接各個企業的橋梁,而如果加入某一家企業,可能就很難與其他企業深度合作了。

問芯:對比 Stanford MIT等頂尖實驗室,你認為國內在具身智能賽道上有哪些優勢和差距?

穆堯:國內最核心的優勢是硬件本體。我們的機器人產業太發達了,實驗室機器人壞了,廠家第二天就能來修好,這在國外是不可想象的,他們可能得漂洋過海去返修。

差距方面,總體沒有質的技術代差。但國外在冒險精神上確實走在前面。比如 UMI 方案收集了 27 萬小時數據,我們很震驚這是怎么做到的,這需要非常大的 Infrastructure 和資本投入。國內在這方面往往是“不見兔子不撒鷹”,看到別人路跑通了再去 Follow。這很大程度上是因為我們不敢冒險。

問芯:在你的觀察中,具身智能是初創公司更有機會,還是會被大廠主導?

穆堯:目前來看,除了 Google、Meta 這種巨頭,國內大部分最前沿的技術發布、開源貢獻,其實都是由初創公司完成的。無論是算法、數據集還是硬件,初創公司展現出了更強的活力。

問芯:你對未來 5 10 年的技術演進有什么判斷?

穆堯:商業閉環會先在 B 端實現。我看到一些公司的方案在工業端已經具備了 80% 的落地能力,比如物流場景、疊衣服場景。

特別是一些具體場景,比如商超零售,或者家庭中“掃地機器人+機械臂”的組合,去處理吸塵器處理不了的紙團、臟襪子。這些在 1-2 年內會很快落地。但如果你說“通用具身智能”,像保姆一樣什么都能干,那可能還需要 5 到 10 年。

不要被單一的投稿周期束縛

問芯你今年的科研產出非常高效。能否分享一下你的科研時間管理經驗?

穆堯:我認為文章產出是整個團隊的努力。不過關于管理,我覺得第一點是不要只盯著自己的“一畝三分地”。要時刻關注 CV、NLP 領域最前沿的技術。比如 Meta 發布的 SAM 3D,直接顛覆了我們之前仿真合成數據的管線。如果不看那個圈子,你還在用傳統方法死磕,效率就很低。

第二,不要以文章投稿周期來管理時間,而應該采用項目管理的方式。我們不應該只盯著投稿,而是要規劃這個工作什么時候開源、什么時候宣傳、什么時候修復 Bug。這會給之前的布局帶來更大的緊迫感,也能倒逼時間管理。

問芯:作為導師,你在帶學生和團隊管理上有什么心得?

穆堯:我最看重學生的主人翁意識。我告訴學生,這個課題分給你,你就是第一負責人,甚至不需要跟我匯報就可以做決策。通過一兩個項目的歷練,他們會形成很強的責任心。我只需要在最開始的構想階段,以及他們遇到真正解決不了的困難時,幫他們捋順關鍵節點。

問芯:你的實驗室招生說明中提到人工智能是年輕人的事業。為什么這么強調年輕這個特質?

穆堯:這和我在回答中美差距時提到過,資深的人往往安全閾值過高,不愿意去嘗試那些“不一定帶來巨大增益”的想法——之前有一些學生提出的我覺得“不靠譜”的想法,最初本想斃掉,但后來想想,實驗室剛建,讓他們試試錯也沒關系。結果反而是一些我沒太看好的項目,做出了很好的效果。這給了我很大的改觀。

我也參加了深圳的具身智能機器人大會,給我的感覺是“天下英雄,如過江之鯽”。新一代博士生蓬勃的生命力和最新想法都非常好。所以,雷軍的那句話說得特別好:“不要聽別人這個建議、那個建議,敢想敢干就完了?!?現在,我也在努力改變自己。

問芯:如果給行業里的年輕研究者一個建議,你會說什么?

穆堯:首先要找到自己心目中的“北極星”——那個你愿意投入巨大精力去做的目標。

找到北極星之后,就堅定的往前走。不要因為別人發了一篇 Blog 說仿真數據不如真機數據,你就猶豫仿真的意義;也不要因為別人發了 Simulation 的大工作,你做真機數據的就動搖。只要你的北極星不是特別離譜,在解決問題的過程中,一定能形成一系列成果。

從工具到伙伴

問芯:現在資本市場對具身智能的態度,你覺得是過熱還是合理?

穆堯:有一段時間確實過熱,但現在的資本已經很理性了。有些投資人對行業的理解甚至比我還深刻(笑)。

大家覺得過熱,往往是因為宣傳上的過熱。但我們看到,僅僅從 2024 年到 2025 年,技術就發生了翻天覆地的變化。24 年初,很多機器人走路都不利索,我們還無法想象機器人能夠疊衣服,能夠端到端 24 小時連軸轉,但現在正在被逐漸攻克。技術的演進非???,所以資本多一些投入是合理的,只是行業里確實存在借噱頭過度營銷的現象。

問芯:最后,請描述一下你心中理想的具身智能系統,它是什么狀態?

穆堯:最理想的狀態,是成為人類的“伙伴”。

它不僅是有應用價值的工具,比如在養老場景中發揮作用;更會在社會心理學層面帶來改變。隨著具身智能的急速發展,社會結構會發生快速變化。終極形態下,機器人將成為我們非常好的朋友。

結語

具身智能從“冷門賽道”到“風口前夜”,其發展軌跡印證了技術演進的非線性特征。數據瓶頸、評測標準的缺失、真機實驗的高成本,這些問題至今懸而未決,但資本與人才的涌入正在加速尋找答案的進程。

至于這場“為機器注靈”的冒險最終將通向何處,答案仍在時間的另一端。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當社保全額征收的時候,你應當想想自己的未來

當社保全額征收的時候,你應當想想自己的未來

新浪財經
2026-06-25 00:41:01
“泥水爸爸”女兒高考成績超本科線50多分 媽媽:很高興,超出預期

“泥水爸爸”女兒高考成績超本科線50多分 媽媽:很高興,超出預期

紅星新聞
2026-06-25 17:55:10
鐘美美不再隱瞞!回應入學波士頓大學的真相,原來董宇輝真沒說錯

鐘美美不再隱瞞!回應入學波士頓大學的真相,原來董宇輝真沒說錯

社會日日鮮
2026-06-25 13:01:17
投資600萬元的加油站,建成即被“責令限期拆除”?河南淮濱縣發布情況通報

投資600萬元的加油站,建成即被“責令限期拆除”?河南淮濱縣發布情況通報

環球網資訊
2026-06-25 14:21:30
2777.77元!A股“股王”,刷屏

2777.77元!A股“股王”,刷屏

新浪財經
2026-06-25 10:56:39
快訊!一聲令下,所有正在發往美國的貨,必須立刻停下!

快訊!一聲令下,所有正在發往美國的貨,必須立刻停下!

故事終將光明磊落
2026-06-25 12:46:17
白俄羅斯關閉信號中繼器,盧卡申科準備離開白俄羅斯

白俄羅斯關閉信號中繼器,盧卡申科準備離開白俄羅斯

山河路口
2026-06-25 09:05:47
今天又見證歷史了

今天又見證歷史了

販財局
2026-06-25 16:26:59
月薪2萬吃不起的稱重快餐,大規模倒閉!

月薪2萬吃不起的稱重快餐,大規模倒閉!

新浪財經
2026-06-25 00:45:41
炸鍋!七寶中學直接逆襲沖進前三,8人上榜屏蔽線!

炸鍋!七寶中學直接逆襲沖進前三,8人上榜屏蔽線!

馬蹄燙嘴說美食
2026-06-25 12:29:05
門店全部關閉!欠款上億!“后續也不會再開”!昔日行業巨頭再爆雷,多方發聲

門店全部關閉!欠款上億!“后續也不會再開”!昔日行業巨頭再爆雷,多方發聲

南方都市報
2026-06-25 09:22:01
盧卡申科跑了!澤連斯基:白俄羅斯邊境的俄軍無線電中繼站已關閉

盧卡申科跑了!澤連斯基:白俄羅斯邊境的俄軍無線電中繼站已關閉

鷹眼Defence
2026-06-25 18:00:23
六旬老人撿棄嬰養20年,供到碩士畢業,但轉頭卻被養女偷走保命錢

六旬老人撿棄嬰養20年,供到碩士畢業,但轉頭卻被養女偷走保命錢

行者聊官
2026-06-24 17:13:34
特控線是什么線?和一本線有什么區別?

特控線是什么線?和一本線有什么區別?

王姐懶人家常菜
2026-06-25 11:32:58
美女法官的“赤腳秀” 為何引來群嘲

美女法官的“赤腳秀” 為何引來群嘲

賓語觀世
2026-06-25 19:56:53
足協官方:捂嘴染紅、限時離場、5秒界外球等新規7月1日起執行

足協官方:捂嘴染紅、限時離場、5秒界外球等新規7月1日起執行

懂球帝
2026-06-25 18:05:08
3場3助攻!巴西28歲中場大師創隊史60年神跡:輔佐維尼修斯沖冠

3場3助攻!巴西28歲中場大師創隊史60年神跡:輔佐維尼修斯沖冠

李喜林籃球絕殺
2026-06-25 16:19:40
泰緬邊境又炸了!妙瓦底倒了,更血腥的“KK園區2.0”正在崛起

泰緬邊境又炸了!妙瓦底倒了,更血腥的“KK園區2.0”正在崛起

小小科普員
2026-06-25 16:06:40
豐田官宣新車:9月3日,正式上市

豐田官宣新車:9月3日,正式上市

科技堡壘
2026-06-25 09:52:46
委內瑞拉全國華僑華人聯合總會主席:據信已有約10名華人被困,一名13歲女孩遇難

委內瑞拉全國華僑華人聯合總會主席:據信已有約10名華人被困,一名13歲女孩遇難

紅星新聞
2026-06-25 14:33:27
2026-06-25 21:28:49
問芯 incentive-icons
問芯
訪遍天下芯事,聆聽大時代人物芯聲
179文章數 28關注度
往期回顧 全部

科技要聞

宇樹機器人大降價

頭條要聞

"美如家"被"如家"起訴侵權并索賠10萬 酒店經營者發聲

頭條要聞

"美如家"被"如家"起訴侵權并索賠10萬 酒店經營者發聲

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

這國產劇太裝了,居然還熱播第一?

財經要聞

又有紙尿褲送檢后被檢測出甲酰胺!

汽車要聞

東風奕派納米06智趣版上市 指導價9.99萬元起

態度原創

家居
本地
藝術
時尚
公開課

家居要聞

綠意盎然 自然之境

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

藝術要聞

投資21億!雄安“荷葉劇院”即將完工,崔愷院士設計!

最高級的夏季配色,來了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版