![]()
作者 | 黃昱
在朝著AGI前進的道路上,AI持續(xù)向垂直場景化、3D交互化落地,更多成熟的多模態(tài)大模型也在進入市場。
穩(wěn)坐全球游戲頭把交椅的騰訊,一直瞄準(zhǔn)游戲研發(fā)需求很大的3D生成持續(xù)發(fā)力。
4月16日,騰訊正式發(fā)布并開源了混元3D世界模型(HY-World 2.0)。
騰訊目前的3D系列模型分為兩類,如果說混元3D生成大模型專注單個高精度 3D 資產(chǎn),混元3D世界模型則致力于構(gòu)建完整、可交互、可導(dǎo)入游戲引擎的3D場景。
騰訊混元的3D世界模型正在一步步將“AI造世界”從概念變?yōu)楝F(xiàn)實,但這條賽道角逐,才剛剛開始。同日,阿里也發(fā)布了世界模型Happy Oyster,主打?qū)崟r世界創(chuàng)建與交互。
一鍵生成游戲世界
HY-World 2.0是一個多模態(tài)世界模型,其核心能力在于能夠理解文字、圖片、視頻等不同類型的輸入,進而自動生成、重建和模擬3D世界。
同時,HY-World 2.0支持多格式3D資產(chǎn)(Mesh/3DGS/點云等)導(dǎo)出,可以與現(xiàn)有的游戲工作流無縫對接,用于快速生成游戲地圖和關(guān)卡原型。
也就是說,HY-World 2.0更強調(diào)實用性,可以直接生成可供二次編輯的3D資產(chǎn)文件。
此外,HY-World 2.0在交互性上也實現(xiàn)了突破。該模型支持“角色模式”,允許用戶操作角色在生成的街道、建筑和場景中自由探索。
在技術(shù)實現(xiàn)路徑上,騰訊混元團隊則以3D生成為主軸,通過統(tǒng)一空間理解、生成、重建的架構(gòu),達(dá)到了SOTA級的生成效果。
據(jù)悉,在傳統(tǒng)的3D生成方法中,往往需要精確的相機參數(shù)才能生成全景圖,但在實際操作中這些參數(shù)極難獲取。
HY-World 2.0全新升級的HY-Pano-2.0模型采用了端到端的隱式學(xué)習(xí)方案,使模型能夠自行學(xué)會從普通圖片到360度全景的空間映射,大幅降低對相機元數(shù)據(jù)的依賴。
解決了空間構(gòu)建問題后,模型還需要解決如何在空間中合理移動的挑戰(zhàn)。騰訊團隊自研了空間Agent技術(shù),將視覺大語言模型(VLM)與游戲自動尋路算法中常用的navmesh表征相結(jié)合。
這使得大模型不僅能理解空間語義,還能智能規(guī)劃出諸如“環(huán)繞物體”或“最大漫游”等合理的漫游軌跡,確保覆蓋高價值區(qū)域的同時避免穿墻或跑飛現(xiàn)象。
沿著這些規(guī)劃好的軌跡,騰訊打造新視角生成(NVS)模型HY-WorldStereo模型的任務(wù)則是讓新生成的區(qū)域與已有區(qū)域在幾何和視覺上銜接,保持高度的空間一致性,使得畫面質(zhì)量在快速生成中不會衰減。
早在2024年11月,騰訊就發(fā)布且開源了混元3D生成大模型1.0,到去年騰訊混元3D生成大模型3.0上線。與此同時,去年7月,混元3D世界模型1.0發(fā)布,
騰訊提供數(shù)據(jù)顯示,截至今年3月,混元3D系列模型在開源社區(qū)的下載量突破300萬,騰訊混元3D創(chuàng)作引擎也被德國軟件公司Maxon引入其專業(yè)三維軟件Cinema 4D。
發(fā)力3D生成的背后
以3D大模型為核心的多模態(tài)大模型,近年來一直是騰訊發(fā)力的重點。
華爾街見聞從騰訊內(nèi)部了解到,相較于大語言模型,騰訊大模型團隊這些年顯然將更多精力投入到了多模態(tài)大模型的打造中。
為了提升大語言模型的能力,在今年三月的業(yè)績會上,騰訊總裁劉熾平指出,過去幾個月騰訊比較密集地進行了混元大模型團隊的組織升級和工作流重構(gòu),同時也重新建立了整個預(yù)訓(xùn)練和強化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及進一步提升數(shù)據(jù)質(zhì)量。
據(jù)彼時披露,混元3.0正在內(nèi)測階段,4月初會逐步對外開放。
如今,早于大語言模型混元3.0,“好兄弟”HY-World 2.0先來了。
這也釋放出一個重要信息,即便開始加速提升混元大語言模型的能力,騰訊依然會持續(xù)發(fā)力多模態(tài)大模型。
騰訊重視多模態(tài)與3D世界,背后有著極為清晰的產(chǎn)業(yè)邏輯:一切為了核心業(yè)務(wù)的協(xié)同,尤其是向其最核心的“造血機”——游戲業(yè)務(wù)輸送彈藥。
構(gòu)建一個復(fù)雜的開放世界地圖或精細(xì)的關(guān)卡原型,往往需要龐大的美術(shù)團隊耗費數(shù)月甚至數(shù)年時間。3D大模型的出現(xiàn),精準(zhǔn)擊中了這一痛點。
通過一句話或一張草圖秒級生成可導(dǎo)入UE引擎的3D空間,這種技術(shù)一旦在內(nèi)部工作流中全面鋪開,將為騰訊游戲帶來驚人的降本增效成果,推動游戲研發(fā)流程革新。
據(jù)華爾街見聞了解,騰訊自研無代碼編程游戲編輯器輕游夢工坊已接入騰訊混元3D生成模型最新版本,構(gòu)建了“無代碼可視化編程+預(yù)制系統(tǒng)+海量資源庫+ AI生成”的組合方案,形成了一個“傻瓜式”的工具體系。
而《元夢之星》等數(shù)十款騰訊內(nèi)部游戲也已深度應(yīng)用混元模型能力。
騰訊管理層在3月的業(yè)績會上也曾指出,生產(chǎn)力型AI智能體的普及將推動3D等世界模型需求增長,因AI技術(shù)必然補充并最終強化計算機輔助設(shè)計(CAD)能力,該能力在工業(yè)設(shè)計、建筑領(lǐng)域至關(guān)重要,在游戲領(lǐng)域的重要性也持續(xù)提升。
與此同時,騰訊管理層認(rèn)為,騰訊在物理AI及3D模型領(lǐng)域占據(jù)獨特有利位置,依托游戲業(yè)務(wù)積累的海量、深度3D圖形數(shù)據(jù)集,可為模型訓(xùn)練提供優(yōu)質(zhì)數(shù)據(jù)支撐,進而向市場提供相關(guān)3D工具,具備承接市場需求的良好基礎(chǔ)。
然而,盡管3D生成技術(shù)描繪了宏大的業(yè)務(wù)賦能圖景,它當(dāng)前仍面臨著嚴(yán)峻的挑戰(zhàn)。
作為多模態(tài)生成中難度最大的領(lǐng)域之一,3D生成對算力和數(shù)據(jù)資源有著極高的要求。時長的增加或維度的提升會導(dǎo)致算力呈平方級的上升,復(fù)雜的幾何計算和物理模擬使得大規(guī)模應(yīng)用在推理成本上居高不下。
同時,在追求極致精度的3A級游戲工業(yè)場景中,AI生成的資產(chǎn)通常還需要大量的人工后期修正,距離完全的“開箱即用”仍有一段距離。大模型廠商必須在龐大的算力資本開支與實際的商業(yè)化效率之間找到平衡。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.