亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首個實時端側部署世界模型,20萬小時人類視頻,BeingBeyond實現(xiàn)「兩級躍遷」

0
分享至


當世界模型首次在端側實現(xiàn)實時運行,具身智能由此真正邁入可規(guī)模化復制的階段。

在具身智能浪潮回涌的這兩年,仿真、真機與人類視頻,始終構成數(shù)據(jù)來源的“鐵三角”。從早期研究對仿真數(shù)據(jù)的高度依賴,到去年各地真機數(shù)采中心的集中爆發(fā),再到今年,人類視頻正逐漸走向舞臺中央,成為驅動模型能力躍遷的關鍵變量。

4月14日,BeingBeyond(智在無界)發(fā)布最新具身世界模型Being-H0.7。在將人類視頻規(guī)模擴展至 20 萬小時的基礎上,該模型首次將人類視頻學習建立在“隱式推理”的世界模型范式上,并在 6 項國際權威評測中取得綜合第一的成績,進一步展示了其在連續(xù)動態(tài)場景、流體、柔性物體及復雜物理交互中的能力邊界。

主頁鏈接:

https://research.beingbeyond.com/being-h07

論文鏈接:

https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

01


從1000到 20 萬小時,

人類視頻路線開創(chuàng)者的長期主義

時間回到 2025 年,整個行業(yè)仍沉浸在 Physical Intelligence(PI)系列所帶來的突破之中。沿著這一范式,各大廠商開始大規(guī)模建設真機數(shù)據(jù)采集體系,試圖以“更多真實數(shù)據(jù)”驅動模型能力提升。

但在彼時,智在無界基于長期多模態(tài)預訓練的經(jīng)驗,已率先意識到這一路徑的內(nèi)在瓶頸:數(shù)據(jù)工廠所產(chǎn)生的樣本,在背景、任務、物體乃至操作軌跡上高度同質,容易讓模型過擬合于封閉環(huán)境,難以泛化到真實世界的復雜場景。

幾乎同期,NVIDIA 在 GR00T 中提出“數(shù)據(jù)金字塔”框架,將數(shù)據(jù)劃分為塔尖(真實數(shù)據(jù))、塔身(合成數(shù)據(jù))與塔底(人類視頻)。當行業(yè)仍在加碼“塔尖”時,智在無界則將目光投向塔底——人類視頻所蘊含的規(guī)模與多樣性。

正如其創(chuàng)始人、北京大學盧宗青教授所判斷:

“人類視頻天然與真實世界對齊,其分布式采集帶來的多樣性,是集中式真機數(shù)采難以替代的。它更有潛力成為具身模型的核心燃料。”

基于這一判斷,盧宗青與其團隊于2025年 7 月發(fā)布了 Being-H0——全球首個以大規(guī)模人類視頻為核心預訓練數(shù)據(jù),并成功部署到機器人系統(tǒng)中的具身模型。將數(shù)據(jù)規(guī)模首次提升至 1000 小時,H0標志著“人類視頻驅動具身學習”路線的正式確立。

作為這一技術路線的開創(chuàng)者,智在無界并未止步。僅隔數(shù)月,團隊于今年 1 月推出 Being-H0.5,將規(guī)模擴展至 1.5 萬小時,成為全球首個邁入“萬小時級”人類視頻預訓練的玩家。這一進展顯著早于 NVIDIA 的 DreamDojo、EgoScale 及 Generalist AI 的 GEN-1 等后續(xù)工作,體現(xiàn)出團隊在該方向上的前瞻布局。借助人類結構作為通用操作模板,H0.5 已展現(xiàn)出顯著的跨本體、跨場景泛化能力。

4月14日,在Generalist AI推出GEN1不到兩周之時,智在無界推出的Being-H0.7進一步將這一路線推向極致——人類視頻總量提升至 20 萬小時,全世界僅有GEN-1達到這一規(guī)模。


相比前代H0.5,Being-H0.7 最重要的突破是提出了一種世界模型新范式:基于海量人類視頻,以隱式推理的方式進行訓練 。

以 NVIDIA 的 Cosmos Policy、DreamZero 等為代表的視頻生成式世界模型路線,通過“生成未來畫面”的方式來輔助動作生成。這類方法能得到不錯的可視化結果,但卻存在兩大局限:其一是計算開銷極高,無法實時端側部署;其二是2D圖像的生成無法精確對真實物理空間進行動力學建模(如流體,柔性物體等),容易停留在“視覺合理”而非“物理正確”。

作為世界模型,Being-H0.7舍棄了這種低效的動力學建模,其設計更貼近人類的行為方式:

在高速運動中,人類并不會逐幀預測未來畫面,而是依賴一種長期經(jīng)驗積累形成的“物理直覺”——對運動趨勢、受力結果及操作后果的快速判斷。比如看到迎面而來的乒乓球時,運動員不會在腦海中想象下一秒的所有細節(jié),而是會下意識地調(diào)動手臂準確揮動球拍。

為了讓模型具有類似“非想象式”的快速判斷能力,Being-H0.7通過在模型內(nèi)部引入一塊“思考空間”用于潛空間推理,將當前觀察、任務目標以及對未來的判斷壓縮到這一中間表示中,再由它統(tǒng)一指導未來的動作生成。


如果說隱式推理為模型提供了理解世界的機制,那么海量人類視頻則提供了能力的“來源”。

人類的物理直覺不僅來自個體經(jīng)驗,也源于物種長期演化積累的運動經(jīng)驗。對于模型而言,只有在足夠規(guī)模與多樣性的行為數(shù)據(jù)中,才能內(nèi)化類似的規(guī)律。

基于此,智在無界構建了超過 20 萬小時的人類操作視頻數(shù)據(jù)。通過對海量真實行為的學習,模型能夠在潛移默化中捕捉物體運動規(guī)律、交互模式及失敗邊界,從而形成更穩(wěn)定的泛化能力。

在實驗結果上,Being-H0.7 在 6 項世界權威具身評測中取得綜合第一(其中 4 項登頂全球榜首)。更關鍵的是,H0.7的世界理解與交互能力已經(jīng)體現(xiàn)在真實環(huán)境中:它可以在高速傳送帶上完成動態(tài)分揀與上架;跟隨移動容器進行精確傾倒; 預測滑動物體軌跡并完成接取;也能在狹小空間內(nèi)完成插入、定量倒液,甚至處理柔性物體等任務。

02


全球首個端側實時部署

率先突破世界模型商業(yè)瓶頸

作為具身模型賽道的領頭羊,除了在人類視頻學習這一技術路線上的持續(xù)引領,以及在數(shù)據(jù)規(guī)模與模型能力上的長期領先,智在無界在模型商業(yè)化部署層面,同樣處于全球第一梯隊。

早在今年 1 月發(fā)布 Being-H0.5-2B 時,智在無界便率先實現(xiàn)了模型在 NVIDIA Jetson Orin NX 端側算力上的實時部署,并順利通過長時間運行的穩(wěn)定性驗證。即便在今天,依然鮮有國內(nèi)具身模型公司擁有此項能力。

這一工程能力的背后,是團隊長期積累的大規(guī)模多模態(tài)預訓練與系統(tǒng)落地經(jīng)驗。圍繞實際部署需求,智在無界自研了一整套推理優(yōu)化體系,覆蓋模型量化、壓縮蒸餾、CUDA 算子編譯以及異步推理調(diào)度等關鍵環(huán)節(jié),實現(xiàn)了從訓練到部署的全鏈路打通。

在具身智能賽道上,智在無界始終堅持“兩條曲線”并行推進:一條是以人類視頻為核心的數(shù)據(jù) Scaling Law,不斷抬升模型理解世界的能力上限; 另一條則是推理成本與延遲曲線,持續(xù)壓縮模型在真實機器人系統(tǒng)中的部署成本與響應時延。


在這一理念下,Being-H0.7 的部署被進一步優(yōu)化至極致:其平均推理延遲低至3.61 ms/step,推理速度相比業(yè)內(nèi)以效率著稱的模型(如 Fast-WAM)提升超過10 倍,顯存占用僅為同類方案的約 50%。與 Cosmos-policy、DreamZero 等視頻生成式世界模型相比,其推理效率更是實現(xiàn)了50 倍以上的提升

更具標志性的是,智在無界首次在端側計算平臺Orin NX(約 75 TOPS)上,實現(xiàn)了 Being-H0.7 的實時部署。這意味著,其已成為業(yè)內(nèi)首個在同等算力芯片上完成世界模型實時運行的團隊

端側算力、世界模型、實時運行——這三者長期以來被認為難以兼顧,而智在無界在同一系統(tǒng)中同時實現(xiàn),意味著其在推理成本、模型能力與系統(tǒng)效率這三個關鍵維度上,均已達到當前行業(yè)的最先進水平。

03


人類視頻預訓練+數(shù)采閉環(huán)

驅動通用能力與專家能力的“兩級躍遷”

從 H0 到 H0.5,再到如今的 Being-H0.7,作為人類視頻路線的開創(chuàng)者,智在無界在不到一年的時間內(nèi),實現(xiàn)了模型能力與數(shù)據(jù)規(guī)模的三次迭代。目前,團隊已構建起超過 20 萬小時的人類視頻數(shù)據(jù)體系,并預計在今年底進一步擴展至 100 萬小時量級。

這一前所未有的數(shù)據(jù)規(guī)模,為 Being-H 系列模型帶來了高度多樣化的真實世界分布,顯著提升了跨場景泛化能力,推動模型實現(xiàn)“通用能力”的關鍵躍遷。相比之下,依賴封閉環(huán)境與集中式采集的數(shù)據(jù)工廠,盡管在規(guī)模與可控性上具備優(yōu)勢,但在分布多樣性與真實復雜性方面存在天然瓶頸,難以支撐模型真正走向開放世界。

如果說大規(guī)模人類視頻數(shù)據(jù)奠定了“通用能力”的基礎,那么第一視角人類數(shù)據(jù)的采集體系,則成為模型邁向“專家能力”的關鍵支點。然而在當前行業(yè)中,數(shù)據(jù)采集與模型訓練普遍割裂,導致大量高成本數(shù)據(jù)難以被有效利用。“過去一年我們收集了大量外部數(shù)據(jù),也經(jīng)歷過一次性丟棄數(shù)千小時數(shù)據(jù)的情況,”盧宗青指出,“當前數(shù)采體系仍處于早期階段,與大模型領域成熟的數(shù)據(jù)管線相比,仍存在明顯差距。”

對于具身領域來說,要彌合這一割裂,就必須同時具備大規(guī)模預訓練和高質量數(shù)據(jù)采集的能力:只有深度參與大規(guī)模預訓練,才能建立對數(shù)據(jù)的敏感度,從而設計出合理的數(shù)據(jù)格式、配比與數(shù)采硬件;高質量的數(shù)據(jù)采集體系,則如同為模型提供精準的“營養(yǎng)配方”,決定其能力上限。基于這一認知,智在無界率先打通了“大規(guī)模預訓練—數(shù)據(jù)采集”的閉環(huán),成為業(yè)內(nèi)少數(shù)具備全鏈路能力的團隊。

這一閉環(huán)優(yōu)勢的集中體現(xiàn)之一,是智在無界團隊不久前發(fā)布的BeingBeyond U1,作為全球首款 Real DexUMI 設備,U1,實現(xiàn)了“無本體、低成本、真實場景”的規(guī)模化數(shù)據(jù)采集,可同步獲取視覺、動作與觸覺等多模態(tài)信號,并將人手精細操作高保真映射至機器人靈巧手。相比傳統(tǒng)真機采集,U1 的數(shù)據(jù)獲取效率提升超過 10 倍,同時實現(xiàn)“所采即所得”,無需重定向即可直接用于訓練,顯著降低了數(shù)據(jù)使用門檻與精度損耗。

這一能力有效彌補了現(xiàn)有數(shù)采方案在工業(yè)流水線等高精度場景中的關鍵短板,使模型能夠快速掌握復雜裝配、柔性交互等專家級技能,在實際任務中將成功率提升至 90% 以上。隨著 U1 進入真實的工業(yè)流水線等專業(yè)場景,Being-H0.7 進一步完成了從“通用”到“專家”的能力躍遷:一方面依托大規(guī)模人類視頻與世界模型架構,實現(xiàn)對復雜物理環(huán)境的理解與泛化;另一方面借助高質量場景化數(shù)據(jù),深入垂直領域,獲得高精度、可落地的專家能力。

這也揭示了具身智能商業(yè)化的核心路徑:通用能力解決“能用”,而專家能力決定“好用”。以通用能力為底座,以場景化數(shù)據(jù)為抓手,逐步向垂直領域深化,正是具身智能走向規(guī)模化落地的“最后一公里”。

04


尾聲H0.7首個世界模型商業(yè)化部署

智在無界重塑具身模型賽道

從“能理解”到“能行動”,從“實驗室指標”到“真實世界生產(chǎn)力”,Being-H0.7 的意義,已經(jīng)不止于一次模型性能的躍升,而是對具身智能落地路徑的一次關鍵重構。當世界模型首次在端側實現(xiàn)實時運行,長期被視為“不可能三角”的能力、成本與效率,開始在同一系統(tǒng)中收斂,具身智能也由此真正邁入可規(guī)模化復制的階段。

更深層次來看,這一突破并非孤立發(fā)生:其背后是人類視頻預訓練所支撐的通用能力底座,是“隱式推理”所帶來的世界理解范式躍遷,也是數(shù)據(jù)閉環(huán)體系驅動的專家能力持續(xù)進化。三者疊加,使得模型不再只是“會做任務”,而是逐漸具備在開放環(huán)境中穩(wěn)定工作的能力。

當行業(yè)仍在不同路徑之間反復試探時,智在無界通過 H0.7 給出了一條更具確定性的答案——以人類視頻為核心燃料,以世界模型為認知與行動中樞,以端側部署為落地形態(tài),打通從數(shù)據(jù)到模型、從理解到執(zhí)行的完整鏈路。這不僅是一次模型發(fā)布,更像是具身智能從“技術競賽”走向“產(chǎn)業(yè)基礎設施”的分水嶺時刻。隨著 H0.7 的落地,具身模型的競爭邏輯,正在被重新定義。

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
稀土大戰(zhàn)突變!巴西下死命令:中美想買礦,必須在我這加工

稀土大戰(zhàn)突變!巴西下死命令:中美想買礦,必須在我這加工

戶外釣魚哥阿旱
2026-04-16 09:47:19
王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

生活魔術專家
2026-04-17 13:47:08
馬斯克怒批南非種族法:稱比種族隔離時期還多

馬斯克怒批南非種族法:稱比種族隔離時期還多

桂系007
2026-04-17 23:54:49
女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道

亦暖追劇隨筆
2026-04-17 12:28:50
特朗普自比上帝惹眾怒,硬懟教皇拒道歉,這波操作太魔幻!

特朗普自比上帝惹眾怒,硬懟教皇拒道歉,這波操作太魔幻!

最英國
2026-04-17 18:21:19
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
哈里梅根低調(diào)澳洲行:問題遠比答案多,74% 公眾直言全是精心算計

哈里梅根低調(diào)澳洲行:問題遠比答案多,74% 公眾直言全是精心算計

李Dog嗨
2026-04-17 19:50:54
隨著上海申花3-1力克遼寧鐵人,縱觀全場,我發(fā)現(xiàn)5個不爭的事實!

隨著上海申花3-1力克遼寧鐵人,縱觀全場,我發(fā)現(xiàn)5個不爭的事實!

田先生籃球
2026-04-18 22:37:24
馬科斯萬萬沒想到!在仁愛礁坐灘27年破船,反倒成全了中國的計劃

馬科斯萬萬沒想到!在仁愛礁坐灘27年破船,反倒成全了中國的計劃

聞香閣
2026-04-17 16:02:29
太尷尬了!雷軍又被吐槽:山東地名有多“費”學歷,連雷軍都讀錯

太尷尬了!雷軍又被吐槽:山東地名有多“費”學歷,連雷軍都讀錯

火山詩話
2026-04-18 08:11:07
狄龍:雷霆很多球員擅長碰瓷造犯規(guī),防守中我們得把手舉起來

狄龍:雷霆很多球員擅長碰瓷造犯規(guī),防守中我們得把手舉起來

懂球帝
2026-04-18 14:13:09
喬任梁父母首度公開細節(jié),兒子死因復雜,別墅里全是藥,早有預兆

喬任梁父母首度公開細節(jié),兒子死因復雜,別墅里全是藥,早有預兆

情感大頭說說
2026-04-06 19:29:47
能做到這3個動作,說明你的身體壯得像頭牛!!!

能做到這3個動作,說明你的身體壯得像頭牛!!!

中國反邪教
2026-03-28 20:20:47
年紀越大,越要吃肉?提醒:這3種肉要舍得吃,吃對了比吃補品強

年紀越大,越要吃肉?提醒:這3種肉要舍得吃,吃對了比吃補品強

秀廚娘
2026-04-18 21:10:42
71年,楊勇落難無處可去,“老楊哥”說:來我這!我保你安穩(wěn)無事

71年,楊勇落難無處可去,“老楊哥”說:來我這!我保你安穩(wěn)無事

鶴羽說個事
2026-04-18 22:19:29
71歲的成龍說:這輩子我要錢有錢,要名有名,但唯獨做錯了一件事

71歲的成龍說:這輩子我要錢有錢,要名有名,但唯獨做錯了一件事

扶蘇聊歷史
2026-01-01 07:00:03
世上沒有后悔藥!下半身"貪婪"的任素汐,現(xiàn)狀印證王菲評價

世上沒有后悔藥!下半身"貪婪"的任素汐,現(xiàn)狀印證王菲評價

秋姐居
2026-02-27 17:16:02
陰陽先生看房子風水:臥室里若有這2個東西,無論多貴也要丟掉

陰陽先生看房子風水:臥室里若有這2個東西,無論多貴也要丟掉

磊子講史
2026-03-28 18:32:26
沙家浜養(yǎng)傷的新四軍出了多少位開國將軍、大校、上校

沙家浜養(yǎng)傷的新四軍出了多少位開國將軍、大校、上校

小港哎歷史
2026-04-18 16:30:03
一代神車,退場了

一代神車,退場了

鳳凰網(wǎng)財經(jīng)
2026-03-26 19:58:07
2026-04-19 03:20:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7198文章數(shù) 20744關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

健康
時尚
旅游
游戲
教育

干細胞抗衰4大誤區(qū),90%的人都中招

選對發(fā)型,真的能少走很多變美彎路

旅游要聞

云南昆明游客踩在鮮花上拍照,把電動車扔進滇池:建議拉入黑名單

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

教育要聞

畢業(yè)容易但申請難的幾所英國大學!

無障礙瀏覽 進入關懷版