據(jù)內(nèi)部消息,SpaceX幾乎完成了自研AI訓(xùn)練棧V1.0版本的編寫(xiě),這套系統(tǒng)全部用C語(yǔ)言寫(xiě)成,精確映射至220萬(wàn)張GB300加速卡,單卡配備800G網(wǎng)卡,極度依賴流水線并行,并且盡可能貼近裸金屬運(yùn)行。在主流框架普遍依賴Python和復(fù)雜抽象的今天,SpaceX選擇了一條更底層、更硬核的路線,試圖將硬件性能壓榨到極致。
這一動(dòng)作迅速在技術(shù)圈引發(fā)震動(dòng)。常規(guī)AI訓(xùn)練通常使用PyTorch或JAX等高層框架,雖然開(kāi)發(fā)效率高,但不可避免地存在性能損耗。SpaceX直接繞開(kāi)所有中間層,從零用C構(gòu)建整個(gè)訓(xùn)練棧,意味著對(duì)延遲和利用率的控制達(dá)到系統(tǒng)級(jí)精度,尤其適合星艦、星鏈等場(chǎng)景下的極端計(jì)算需求。
值得注意的是,如此龐大規(guī)模的集群并行訓(xùn)練本身就充滿挑戰(zhàn),而用C語(yǔ)言管理220萬(wàn)張加速卡并保證高效通信,其工程復(fù)雜度堪稱地獄級(jí)。分析人士指出,如果該技術(shù)棧成功投產(chǎn),SpaceX將成為少數(shù)完全掌控AI基礎(chǔ)設(shè)施到航天應(yīng)用全鏈條的實(shí)體,再次證明其跨領(lǐng)域工程整合的驚人能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.