![]()
作者 | 冬梅
大模型的競(jìng)爭(zhēng),正從純文本、多模態(tài)內(nèi)容生成,徹底轉(zhuǎn)向物理世界的智能落地。
昨天,在 2026 中國(guó)臺(tái)北 GTC 大會(huì)上,英偉達(dá)正式官宣重磅產(chǎn)品——NVIDIA Cosmos 3,這款面向物理 AI 的開放世界基礎(chǔ)模型,憑借全新混合 Transformer 架構(gòu),打通視覺(jué)推理、世界生成、動(dòng)作預(yù)測(cè)三大核心能力,成為全球首款完全開放的全模態(tài)物理 AI 模型。與此同時(shí),英偉達(dá)牽頭成立全球開發(fā)者協(xié)作聯(lián)盟,正式拉起物理 AI 生態(tài)陣營(yíng),宣告物理 AI 規(guī)模化落地時(shí)代加速到來(lái)。
不同于當(dāng)下主流聚焦內(nèi)容創(chuàng)作的多模態(tài)大模型,Cosmos 3 的核心定位精準(zhǔn)錨定真實(shí)物理世界,原生支持文本、圖像、視頻、環(huán)境音、動(dòng)作五大模態(tài)的理解與生成,且具備頂尖的物理規(guī)律精準(zhǔn)度。
最關(guān)鍵的是,它徹底重構(gòu)了物理 AI 的開發(fā)效率,將行業(yè)傳統(tǒng)數(shù)月的訓(xùn)練、評(píng)估周期,直接壓縮至數(shù)天,為機(jī)器人、智能汽車、工業(yè)視覺(jué) AI 等領(lǐng)域帶來(lái)代際升級(jí)可能。
1 架構(gòu)革新:破解物理 AI 落地核心痛點(diǎn)
長(zhǎng)期以來(lái),物理 AI 落地始終受制于兩大行業(yè)難題:一是真實(shí)場(chǎng)景訓(xùn)練數(shù)據(jù)稀缺,二是仿真系統(tǒng)碎片化,導(dǎo)致模型難以在復(fù)雜現(xiàn)實(shí)環(huán)境中泛化適配,無(wú)法穩(wěn)定落地。而 Cosmos 3 的核心價(jià)值,正是通過(guò)架構(gòu)創(chuàng)新破解這一行業(yè)瓶頸。
此次全新搭載的混合 Transformer(Mixture-of-Transformers)架構(gòu),是英偉達(dá)的突破性技術(shù)沉淀。該架構(gòu)創(chuàng)新性融合推理 Transformer 與專家生成 Transformer 雙模塊,先通過(guò)推理模塊精準(zhǔn)解析現(xiàn)實(shí)場(chǎng)景中物體交互、時(shí)空運(yùn)動(dòng)、環(huán)境關(guān)聯(lián)等核心物理邏輯,再依托生成模塊輸出貼合物理規(guī)律的視頻畫面與動(dòng)作軌跡,徹底改變了傳統(tǒng)模型“生成優(yōu)先、邏輯缺失”的弊端。
訓(xùn)練層面,Cosmos 3 依托海量高質(zhì)量數(shù)據(jù)集完成迭代,囊括數(shù)十億條文本、圖像、視頻、環(huán)境音及機(jī)器人動(dòng)作軌跡樣本,構(gòu)建起完備的物理世界知識(shí)體系。對(duì)開發(fā)者而言,這意味著無(wú)需海量定制化數(shù)據(jù)、無(wú)需高額訓(xùn)練算力成本,就能基于預(yù)訓(xùn)練模型快速搭建穩(wěn)定、可泛化的物理 AI 系統(tǒng),大幅降低行業(yè)落地門檻。
憑借硬核技術(shù)實(shí)力,Cosmos 3 已拿下多項(xiàng)權(quán)威基準(zhǔn)測(cè)試榜首。
在開放模型賽道中,其包攬 Artificial Analysis、Physics-IQ 等榜單的世界生成精度第一,RoboLab、RoboArena 動(dòng)作策略測(cè)評(píng)第一,以及 VANTAGE-Bench、TAR 視覺(jué)理解排行榜首位,全方位領(lǐng)跑物理 AI 核心能力。
為適配不同開發(fā)者、不同落地場(chǎng)景的差異化需求,英偉達(dá)推出分層版 Cosmos 3 產(chǎn)品矩陣,覆蓋高精度研發(fā)、快速迭代、邊緣實(shí)時(shí)推理全流程:
Cosmos 3 Super:定位高端高精度場(chǎng)景,主打極致物理仿真精度與生成質(zhì)量,適配機(jī)器人、智能汽車等對(duì)安全性、精準(zhǔn)度要求嚴(yán)苛的模型后訓(xùn)練研發(fā)場(chǎng)景;
Cosmos 3 Nano:主打輕量化高效迭代,可在極短時(shí)間內(nèi)完成高質(zhì)量視頻生成與動(dòng)作推理,適合開發(fā)者快速驗(yàn)證算法、迭代原型方案;
Cosmos 3 Edge(即將上線):聚焦終端落地,專為實(shí)時(shí)邊緣推理優(yōu)化,將打通物理 AI 從云端訓(xùn)練到終端部署的最后一環(huán)。
功能層面,Cosmos 3 可一站式充當(dāng)三大核心工具:具備全模態(tài)跨維度推理的視覺(jué)語(yǔ)言模型、可模擬物理環(huán)境、預(yù)測(cè)世界狀態(tài)的仿真訓(xùn)練模型、支撐機(jī)器人定制任務(wù)訓(xùn)練的動(dòng)作骨干網(wǎng)絡(luò),全方位覆蓋物理 AI 開發(fā)全流程。
技術(shù)突破之外,英偉達(dá)同步祭出生態(tài)大招,正式成立NVIDIA Cosmos Coalition 全球協(xié)作聯(lián)盟,集結(jié)全球頂尖世界模型研發(fā)團(tuán)隊(duì)與 AI 開發(fā)者,共同推動(dòng)下一代開放世界模型的技術(shù)迭代與落地普及。
首批創(chuàng)始成員陣容堪稱行業(yè)頂配,涵蓋 Agile Robots、Black Forest Labs、Runway、Skild AI 等全球知名 AI 與機(jī)器人企業(yè)。聯(lián)盟將搭建開放共享的技術(shù)生態(tài),成員可雙向輸出模型、算法與測(cè)評(píng)技術(shù),同時(shí)共享 Cosmos 3 核心技術(shù)、專屬訓(xùn)練工具與 NVIDIA DGX Cloud 云端算力基礎(chǔ)設(shè)施,開展大規(guī)模模型訓(xùn)練與迭代。
這種開放協(xié)作模式,將有效解決當(dāng)前物理 AI 行業(yè)技術(shù)分散、兼容性差、迭代緩慢的痛點(diǎn),通過(guò)生態(tài)合力加速技術(shù)創(chuàng)新,統(tǒng)一行業(yè)技術(shù)標(biāo)準(zhǔn),推動(dòng)物理 AI 從單點(diǎn)技術(shù)突破走向規(guī)模化落地。
目前,英偉達(dá) Cosmos 平臺(tái)已形成成熟的產(chǎn)業(yè)落地能力,平臺(tái)內(nèi)置機(jī)器人動(dòng)力學(xué)、人體運(yùn)動(dòng)、輔助駕駛、空間推理等多領(lǐng)域?qū)m?xiàng)數(shù)據(jù)集,同時(shí)搭載神經(jīng)場(chǎng)景重建、缺陷圖像生成、視頻增強(qiáng)等全新 AI 智能體技能,全面賦能工業(yè)、出行、機(jī)器人等場(chǎng)景。
產(chǎn)業(yè)端已有大量頭部企業(yè)率先入局落地:機(jī)器人領(lǐng)域集結(jié)三星、LG 電子、Doosan Robotics、Agile Robots 等知名廠商;智能汽車領(lǐng)域,理想汽車已依托該平臺(tái)開展相關(guān)技術(shù)研發(fā);視覺(jué) AI 領(lǐng)域,Centific、Milestone Systems 等企業(yè)已基于其搭建工業(yè) AI 與智能空間應(yīng)用方案,物理 AI 的商業(yè)化圖景愈發(fā)清晰。
2 補(bǔ)齊工具短板,推出開源 Agent Toolkit
基礎(chǔ)模型之外,英偉達(dá)進(jìn)一步補(bǔ)齊開發(fā)工具短板,正式推出NVIDIA 物理 AI 智能體技能(歸入 NVIDIA Agent Toolkit 體系),完成“基礎(chǔ)模型 + 自動(dòng)化開發(fā)工具”的雙層布局。隨著 AI 智能體從單純編寫代碼,升級(jí)為統(tǒng)籌全流程開發(fā)任務(wù)的核心載體,這套工具鏈讓智能體可直接調(diào)用英偉達(dá)全系技術(shù)資產(chǎn),實(shí)現(xiàn)物理 AI 開發(fā)全鏈路自動(dòng)化。
NVIDIA 創(chuàng)始人兼 CEO 黃仁勛對(duì)此表示:“AI 智能體正在徹底改變軟件開發(fā),而這一轉(zhuǎn)變正邁向物理 AI,并進(jìn)一步擴(kuò)展到那些將改變交通、制造、醫(yī)療和機(jī)器人技術(shù)的系統(tǒng)中。當(dāng)智能體可以直接使用 NVIDIA 庫(kù)、模型和框架時(shí),物理 AI 開發(fā)速度將大幅提升,使開發(fā)者能夠以驚人的速度構(gòu)建未來(lái)的機(jī)器人、智能汽車和工業(yè)系統(tǒng)。”
英偉達(dá)已完成全棧物理 AI 技術(shù)的“智能體適配改造”,構(gòu)建起一套可被 AI 智能體調(diào)用的完整技術(shù)矩陣:以 Cosmos 世界基礎(chǔ)模型承載物理推理與場(chǎng)景生成,以 Omniverse 支撐仿真與數(shù)字孿生,以 Isaac 賦能機(jī)器人仿真與學(xué)習(xí),以 Metropolis 賦能視覺(jué) AI、Alpamayo 適配輔助駕駛場(chǎng)景,再結(jié)合 Jetson 平臺(tái)打通邊緣 AI 部署,形成端到端技術(shù)閉環(huán)。
此次全新上線的物理 AI 智能體技能,核心價(jià)值是標(biāo)準(zhǔn)化、自動(dòng)化工作流。它將復(fù)雜的物理 AI 開發(fā)流程,拆解為 AI 智能體可重復(fù)執(zhí)行的標(biāo)準(zhǔn)化指令,明確工具調(diào)用規(guī)則、輸出標(biāo)準(zhǔn)與驗(yàn)證邏輯,無(wú)需人工反復(fù)調(diào)試。同時(shí),開發(fā)者可依托 NVIDIA NemoClaw 藍(lán)圖與 OpenShell 運(yùn)行時(shí),安全搭建、部署自主智能體,依托本地與云端的策略管控機(jī)制,保障開發(fā)過(guò)程的安全與隱私合規(guī)。
3 英偉達(dá)鎖定物理 AI 時(shí)代話語(yǔ)權(quán)
從底層Cosmos 3 世界基礎(chǔ)模型,到Agent Toolkit 智能體自動(dòng)化工具鏈,再到 Omniverse、Isaac、Jetson 等全棧技術(shù)底座,疊加全球開發(fā)者聯(lián)盟生態(tài)與各行業(yè)頭部企業(yè)的落地實(shí)踐,英偉達(dá)已構(gòu)建起完整的物理 AI 產(chǎn)業(yè)閉環(huán)。
當(dāng)行業(yè)還在聚焦多模態(tài)內(nèi)容生成、虛擬 AI 迭代時(shí),英偉達(dá)已經(jīng)完成物理 AI 從技術(shù)理論、模型創(chuàng)新、工具賦能到產(chǎn)業(yè)落地的全鏈條布局。這套開放、高效、可規(guī)模化的解決方案,將推動(dòng) AI 徹底走出虛擬場(chǎng)景,深度融入制造、交通、醫(yī)療、機(jī)器人等實(shí)體產(chǎn)業(yè),開啟具身智能賦能實(shí)體經(jīng)濟(jì)的全新周期。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.