網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)甩出物理 AI 王炸！Cosmos 3 全模態(tài)模型開源，Agent Tookit 補(bǔ)齊工具短板

2026-06-05 14:35:28　來(lái)源: InfoQ

北京舉報(bào)

分享至

作者 | 冬梅

大模型的競(jìng)爭(zhēng)，正從純文本、多模態(tài)內(nèi)容生成，徹底轉(zhuǎn)向物理世界的智能落地。

昨天，在 2026 中國(guó)臺(tái)北 GTC 大會(huì)上，英偉達(dá)正式官宣重磅產(chǎn)品——NVIDIA Cosmos 3，這款面向物理 AI 的開放世界基礎(chǔ)模型，憑借全新混合 Transformer 架構(gòu)，打通視覺(jué)推理、世界生成、動(dòng)作預(yù)測(cè)三大核心能力，成為全球首款完全開放的全模態(tài)物理 AI 模型。與此同時(shí)，英偉達(dá)牽頭成立全球開發(fā)者協(xié)作聯(lián)盟，正式拉起物理 AI 生態(tài)陣營(yíng)，宣告物理 AI 規(guī)模化落地時(shí)代加速到來(lái)。

不同于當(dāng)下主流聚焦內(nèi)容創(chuàng)作的多模態(tài)大模型，Cosmos 3 的核心定位精準(zhǔn)錨定真實(shí)物理世界，原生支持文本、圖像、視頻、環(huán)境音、動(dòng)作五大模態(tài)的理解與生成，且具備頂尖的物理規(guī)律精準(zhǔn)度。

最關(guān)鍵的是，它徹底重構(gòu)了物理 AI 的開發(fā)效率，將行業(yè)傳統(tǒng)數(shù)月的訓(xùn)練、評(píng)估周期，直接壓縮至數(shù)天，為機(jī)器人、智能汽車、工業(yè)視覺(jué) AI 等領(lǐng)域帶來(lái)代際升級(jí)可能。

1 架構(gòu)革新：破解物理 AI 落地核心痛點(diǎn)

長(zhǎng)期以來(lái)，物理 AI 落地始終受制于兩大行業(yè)難題：一是真實(shí)場(chǎng)景訓(xùn)練數(shù)據(jù)稀缺，二是仿真系統(tǒng)碎片化，導(dǎo)致模型難以在復(fù)雜現(xiàn)實(shí)環(huán)境中泛化適配，無(wú)法穩(wěn)定落地。而 Cosmos 3 的核心價(jià)值，正是通過(guò)架構(gòu)創(chuàng)新破解這一行業(yè)瓶頸。

此次全新搭載的混合 Transformer（Mixture-of-Transformers）架構(gòu)，是英偉達(dá)的突破性技術(shù)沉淀。該架構(gòu)創(chuàng)新性融合推理 Transformer 與專家生成 Transformer 雙模塊，先通過(guò)推理模塊精準(zhǔn)解析現(xiàn)實(shí)場(chǎng)景中物體交互、時(shí)空運(yùn)動(dòng)、環(huán)境關(guān)聯(lián)等核心物理邏輯，再依托生成模塊輸出貼合物理規(guī)律的視頻畫面與動(dòng)作軌跡，徹底改變了傳統(tǒng)模型“生成優(yōu)先、邏輯缺失”的弊端。

訓(xùn)練層面，Cosmos 3 依托海量高質(zhì)量數(shù)據(jù)集完成迭代，囊括數(shù)十億條文本、圖像、視頻、環(huán)境音及機(jī)器人動(dòng)作軌跡樣本，構(gòu)建起完備的物理世界知識(shí)體系。對(duì)開發(fā)者而言，這意味著無(wú)需海量定制化數(shù)據(jù)、無(wú)需高額訓(xùn)練算力成本，就能基于預(yù)訓(xùn)練模型快速搭建穩(wěn)定、可泛化的物理 AI 系統(tǒng)，大幅降低行業(yè)落地門檻。

憑借硬核技術(shù)實(shí)力，Cosmos 3 已拿下多項(xiàng)權(quán)威基準(zhǔn)測(cè)試榜首。

在開放模型賽道中，其包攬 Artificial Analysis、Physics-IQ 等榜單的世界生成精度第一，RoboLab、RoboArena 動(dòng)作策略測(cè)評(píng)第一，以及 VANTAGE-Bench、TAR 視覺(jué)理解排行榜首位，全方位領(lǐng)跑物理 AI 核心能力。

為適配不同開發(fā)者、不同落地場(chǎng)景的差異化需求，英偉達(dá)推出分層版 Cosmos 3 產(chǎn)品矩陣，覆蓋高精度研發(fā)、快速迭代、邊緣實(shí)時(shí)推理全流程：

Cosmos 3 Super：定位高端高精度場(chǎng)景，主打極致物理仿真精度與生成質(zhì)量，適配機(jī)器人、智能汽車等對(duì)安全性、精準(zhǔn)度要求嚴(yán)苛的模型后訓(xùn)練研發(fā)場(chǎng)景；

Cosmos 3 Nano：主打輕量化高效迭代，可在極短時(shí)間內(nèi)完成高質(zhì)量視頻生成與動(dòng)作推理，適合開發(fā)者快速驗(yàn)證算法、迭代原型方案；

Cosmos 3 Edge（即將上線）：聚焦終端落地，專為實(shí)時(shí)邊緣推理優(yōu)化，將打通物理 AI 從云端訓(xùn)練到終端部署的最后一環(huán)。

功能層面，Cosmos 3 可一站式充當(dāng)三大核心工具：具備全模態(tài)跨維度推理的視覺(jué)語(yǔ)言模型、可模擬物理環(huán)境、預(yù)測(cè)世界狀態(tài)的仿真訓(xùn)練模型、支撐機(jī)器人定制任務(wù)訓(xùn)練的動(dòng)作骨干網(wǎng)絡(luò)，全方位覆蓋物理 AI 開發(fā)全流程。

技術(shù)突破之外，英偉達(dá)同步祭出生態(tài)大招，正式成立NVIDIA Cosmos Coalition 全球協(xié)作聯(lián)盟，集結(jié)全球頂尖世界模型研發(fā)團(tuán)隊(duì)與 AI 開發(fā)者，共同推動(dòng)下一代開放世界模型的技術(shù)迭代與落地普及。

首批創(chuàng)始成員陣容堪稱行業(yè)頂配，涵蓋 Agile Robots、Black Forest Labs、Runway、Skild AI 等全球知名 AI 與機(jī)器人企業(yè)。聯(lián)盟將搭建開放共享的技術(shù)生態(tài)，成員可雙向輸出模型、算法與測(cè)評(píng)技術(shù)，同時(shí)共享 Cosmos 3 核心技術(shù)、專屬訓(xùn)練工具與 NVIDIA DGX Cloud 云端算力基礎(chǔ)設(shè)施，開展大規(guī)模模型訓(xùn)練與迭代。

這種開放協(xié)作模式，將有效解決當(dāng)前物理 AI 行業(yè)技術(shù)分散、兼容性差、迭代緩慢的痛點(diǎn)，通過(guò)生態(tài)合力加速技術(shù)創(chuàng)新，統(tǒng)一行業(yè)技術(shù)標(biāo)準(zhǔn)，推動(dòng)物理 AI 從單點(diǎn)技術(shù)突破走向規(guī)模化落地。

目前，英偉達(dá) Cosmos 平臺(tái)已形成成熟的產(chǎn)業(yè)落地能力，平臺(tái)內(nèi)置機(jī)器人動(dòng)力學(xué)、人體運(yùn)動(dòng)、輔助駕駛、空間推理等多領(lǐng)域?qū)ｍ?xiàng)數(shù)據(jù)集，同時(shí)搭載神經(jīng)場(chǎng)景重建、缺陷圖像生成、視頻增強(qiáng)等全新 AI 智能體技能，全面賦能工業(yè)、出行、機(jī)器人等場(chǎng)景。

產(chǎn)業(yè)端已有大量頭部企業(yè)率先入局落地：機(jī)器人領(lǐng)域集結(jié)三星、LG 電子、Doosan Robotics、Agile Robots 等知名廠商；智能汽車領(lǐng)域，理想汽車已依托該平臺(tái)開展相關(guān)技術(shù)研發(fā)；視覺(jué) AI 領(lǐng)域，Centific、Milestone Systems 等企業(yè)已基于其搭建工業(yè) AI 與智能空間應(yīng)用方案，物理 AI 的商業(yè)化圖景愈發(fā)清晰。

2 補(bǔ)齊工具短板，推出開源 Agent Toolkit

基礎(chǔ)模型之外，英偉達(dá)進(jìn)一步補(bǔ)齊開發(fā)工具短板，正式推出NVIDIA 物理 AI 智能體技能（歸入 NVIDIA Agent Toolkit 體系），完成“基礎(chǔ)模型 + 自動(dòng)化開發(fā)工具”的雙層布局。隨著 AI 智能體從單純編寫代碼，升級(jí)為統(tǒng)籌全流程開發(fā)任務(wù)的核心載體，這套工具鏈讓智能體可直接調(diào)用英偉達(dá)全系技術(shù)資產(chǎn)，實(shí)現(xiàn)物理 AI 開發(fā)全鏈路自動(dòng)化。

NVIDIA 創(chuàng)始人兼 CEO 黃仁勛對(duì)此表示：“AI 智能體正在徹底改變軟件開發(fā)，而這一轉(zhuǎn)變正邁向物理 AI，并進(jìn)一步擴(kuò)展到那些將改變交通、制造、醫(yī)療和機(jī)器人技術(shù)的系統(tǒng)中。當(dāng)智能體可以直接使用 NVIDIA 庫(kù)、模型和框架時(shí)，物理 AI 開發(fā)速度將大幅提升，使開發(fā)者能夠以驚人的速度構(gòu)建未來(lái)的機(jī)器人、智能汽車和工業(yè)系統(tǒng)。”

英偉達(dá)已完成全棧物理 AI 技術(shù)的“智能體適配改造”，構(gòu)建起一套可被 AI 智能體調(diào)用的完整技術(shù)矩陣：以 Cosmos 世界基礎(chǔ)模型承載物理推理與場(chǎng)景生成，以 Omniverse 支撐仿真與數(shù)字孿生，以 Isaac 賦能機(jī)器人仿真與學(xué)習(xí)，以 Metropolis 賦能視覺(jué) AI、Alpamayo 適配輔助駕駛場(chǎng)景，再結(jié)合 Jetson 平臺(tái)打通邊緣 AI 部署，形成端到端技術(shù)閉環(huán)。

此次全新上線的物理 AI 智能體技能，核心價(jià)值是標(biāo)準(zhǔn)化、自動(dòng)化工作流。它將復(fù)雜的物理 AI 開發(fā)流程，拆解為 AI 智能體可重復(fù)執(zhí)行的標(biāo)準(zhǔn)化指令，明確工具調(diào)用規(guī)則、輸出標(biāo)準(zhǔn)與驗(yàn)證邏輯，無(wú)需人工反復(fù)調(diào)試。同時(shí)，開發(fā)者可依托 NVIDIA NemoClaw 藍(lán)圖與 OpenShell 運(yùn)行時(shí)，安全搭建、部署自主智能體，依托本地與云端的策略管控機(jī)制，保障開發(fā)過(guò)程的安全與隱私合規(guī)。

3 英偉達(dá)鎖定物理 AI 時(shí)代話語(yǔ)權(quán)

從底層Cosmos 3 世界基礎(chǔ)模型，到Agent Toolkit 智能體自動(dòng)化工具鏈，再到 Omniverse、Isaac、Jetson 等全棧技術(shù)底座，疊加全球開發(fā)者聯(lián)盟生態(tài)與各行業(yè)頭部企業(yè)的落地實(shí)踐，英偉達(dá)已構(gòu)建起完整的物理 AI 產(chǎn)業(yè)閉環(huán)。

當(dāng)行業(yè)還在聚焦多模態(tài)內(nèi)容生成、虛擬 AI 迭代時(shí)，英偉達(dá)已經(jīng)完成物理 AI 從技術(shù)理論、模型創(chuàng)新、工具賦能到產(chǎn)業(yè)落地的全鏈條布局。這套開放、高效、可規(guī)模化的解決方案，將推動(dòng) AI 徹底走出虛擬場(chǎng)景，深度融入制造、交通、醫(yī)療、機(jī)器人等實(shí)體產(chǎn)業(yè)，開啟具身智能賦能實(shí)體經(jīng)濟(jì)的全新周期。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.