快科技5月24日消息,據報道,Reddit用戶APFrisco近日通過一套極客方案,利用6根二手英特爾傲騰DCPMM持久內存模塊,在單GPU工作站上成功運行了擁有1萬億參數的Kimi K2.5大模型,推理速度約為每秒4個Token。
該系統基于英特爾至強金牌6246處理器與泰安S5630GMRE-CGN主板構建。內存系統總容量為768GB,由6根32GB三星DDR4-2666 ECC內存條與6根128GB英特爾傲騰DCPMM持久內存模塊組成。
圖形算力由兩張華碩GeForce RTX 3060 OC 12GB顯卡承擔,存儲設備采用西部數據WD SN850X 2TB固態硬盤,電源為華擎Steel Legend SL-850G 850W全模組電源。
軟件運行層面,該方案采用了基于llama.cpp的GPU與CPU混合推理方法。通過llama.cpp的override-tensor標志,系統將模型路由組件強制分流至總計24GB顯存的GPU中處理,其余參數則由傲騰內存承擔存儲與讀取任務,有效規避了單卡顯存不足的瓶頸。
英特爾傲騰系列產品雖已停產,但其介于DRAM與固態硬盤之間的讀寫特性,使其成為替代昂貴內存方案的特殊選擇。
業內分析認為,隨著CXL計算快速連接標準的成熟,未來市場有望出現更具性價比的字節尋址內存解決方案,以支撐大型語言模型對內存容量的迫切需求。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.