最近有一個話題的熱度明顯在往上走,就是本地化AI部署。不少開發(fā)者都在抱怨,云端API用著方便,但數(shù)據(jù)出域的問題始終繞不過去,而自己攢一臺能跑千億參數(shù)模型的機器,成本和技術(shù)門檻又太高。技嘉這次推出的AI TOP ATOM工作站,恰好卡在這個節(jié)點上,而且它的定位很直接——桌面級、開箱即用、能跑2000億參數(shù)模型。
![]()
技嘉AI TOP ATOM工作站的核心是NVIDIA GB10 Grace Blackwell芯片,這是一顆把CPU和GPU通過先進封裝整合在一起的超級芯片。制程用的是臺積電3nm,TDP控制在140W左右,這意味著它能在迷你機箱里穩(wěn)定運行,不需要像傳統(tǒng)工作站那樣配大尺寸散熱器。GPU部分繼承Blackwell架構(gòu),6144個CUDA核心,數(shù)量上和RTX 5070一致,但它的AI算力表現(xiàn)遠(yuǎn)超后者,關(guān)鍵差異在于兩點:一是Tensor Core支持FP4和FP8低精度計算,在FP4精度下可以達到1000 AI TOPS;二是統(tǒng)一內(nèi)存架構(gòu),CPU和GPU共享128GB LPDDR5x內(nèi)存,通過NVLink-C2C互聯(lián),帶寬是PCIe 5.0的五倍左右。
![]()
這個統(tǒng)一內(nèi)存設(shè)計對于大模型推理非常關(guān)鍵。傳統(tǒng)PC的顯存和系統(tǒng)內(nèi)存是分離的,模型加載時經(jīng)常卡在顯存容量上。而AI TOP ATOM的128GB統(tǒng)一內(nèi)存可以被CPU和GPU無縫訪問,實測運行GLM-4.5-Air 106B NVFP4模型時,顯存占用約為68-69GB,剩余空間足夠同時跑Embedding和Rerank實例。也就是說單機就能完成完整的RAG鏈路,不需要多臺服務(wù)器拼湊。
![]()
整機尺寸150mm×150mm×50.5mm,金屬外殼采用銀灰色啞光磨砂處理,沒有RGB燈效,散熱出風(fēng)口位于正面和接口側(cè),柵格內(nèi)側(cè)加了強化筋。背部接口包括3個USB 3.2 Type-C、1個HDMI 2.1a、1個萬兆RJ-45,還有一個NVIDIA ConnectX-7接口。這個ConnectX-7值得單獨提一下,它支持兩臺AI TOP ATOM直連,實現(xiàn)算力池化和顯存疊加,理論上可以跑4000億參數(shù)以上的模型。對于有擴容需求的開發(fā)團隊來說,這種樂高式拼接比一次性采購大型服務(wù)器靈活得多。
![]()
軟件層面,這次技嘉和趨境科技做了深度整合。預(yù)裝的趨境智問系統(tǒng)基于Ubuntu底層,但做了全圖形化封裝,用戶不需要敲命令行就能完成模型管理和調(diào)用。登錄后臺管理界面后,趨境AIMA平臺會展示GPU/CPU負(fù)載、顯存占用、Tokens消耗量等關(guān)鍵指標(biāo)的動態(tài)圖表。通過使用量排行榜可以快速定位資源消耗大戶,方便管理員做配額優(yōu)化。
模型管理方面,系統(tǒng)預(yù)裝了GLM-4.5-Air 106B NVFP4大模型,同時也支持用戶自行導(dǎo)入Qwen、Llama等私有模型。實測在模型管理界面下載Qwen 2.5 7B后,放在/mnt/data/models目錄下,配置好參數(shù)即可生效。更實用的場景是多實例并行:我們在測試中同時啟動了GLM-4.5-Air對話、Embedding向量化和Rerank重排序三個實例,系統(tǒng)自動分配資源,互不干擾。
文本生成性能方面,在GLM-4.5-Air 106B NVFP4模型下,100字提示詞的平均輸出速度為22.76 Tokens/s,300字時21.33 Tokens/s,500字時20.96 Tokens/s。這個速度對于本地部署的千億模型來說屬于優(yōu)秀水平,Blackwell架構(gòu)的Tensor Core在NVFP4精度下的加速效果很明顯。并發(fā)處理方面,4線程以內(nèi)平均推理速度能保持在10 Tokens/s以上,這個表現(xiàn)已經(jīng)足夠作為小型團隊共享的AI服務(wù)器使用。
![]()
需要特別說明的是,所有數(shù)據(jù)處理都在本地完成,物理層面與云端隔離。對于企業(yè)用戶和注重數(shù)據(jù)隱私的個人開發(fā)者來說,這意味著沒有數(shù)據(jù)出域風(fēng)險,也不需要擔(dān)心云端API的調(diào)用記錄被留存。
總體來看,技嘉AI TOP ATOM解決的核心問題是:如何讓個人開發(fā)者或小型團隊,用可接受的成本獲得本地化千億模型推理能力。它沒有堆砌夸張的硬件規(guī)格,而是通過GB10芯片的統(tǒng)一內(nèi)存架構(gòu)、NVLink-C2C互聯(lián)、ConnectX-7擴展接口這三項關(guān)鍵技術(shù),在迷你機身內(nèi)實現(xiàn)了以往只有機架式服務(wù)器才能提供的AI算力密度。再加上趨境科技提供的全圖形化軟件棧,從模型管理到應(yīng)用調(diào)用都無需編寫代碼,上手門檻大幅降低。
![]()
對于AI開發(fā)者、科研人員、數(shù)據(jù)科學(xué)家,以及有私有化部署需求的中小企業(yè),這款產(chǎn)品提供了一個明確的選項:不需要自建機房,不需要聘請運維團隊,桌面上一臺迷你主機就能跑通千億模型的訓(xùn)練微調(diào)和推理應(yīng)用。在AI本地化這個確定的發(fā)展方向上,技嘉AI TOP ATOM工作站把門檻降到了目前桌面級硬件能做到的最低程度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.