快科技5月13日消息,開發者Stormrage34近日發布llama.cpp分支TurboQuant-HIP v0.3.0版本,通過重寫矩陣乘法內核,成功將AMD RX 6800 XT顯卡的MoE大模型預填充速度從上游llama.cpp主分支下的約480 t/s提升至1770 t/s
該團隊長期維護面向AMD GPU深度適配的llama.cpp專屬分支,專門針對AMD硬件特性優化大語言模型推理性能。
![]()
上游官方版本llama.cpp此前將AMD GPU作為通用后端適配,核心計算內核均針對NVIDIA架構開發,隨后直接移植到AMD后端,在RDNA2架構上存在大量帶寬浪費問題,MoE場景運算完全受內存帶寬限制。
該團隊從HIP底層切入做針對性改進,新開發的基于BFE的IQ4_XS反量化內核,獨立運行速度較原有方案提升13倍。
同時,新增異步流水線調度邏輯,將內核啟動延遲和運算過程做重疊處理,直接降低31%的內核啟動開銷。
帶來MoE場景約4倍性能躍升的核心,是實驗性LDS雙緩沖矩陣乘法內核,實現權重加載和DP4A計算并行,最大化利用硬件算力資源。
目前該核心優化功能僅開放手動標志位啟用,仍存在對稱瓦片尺寸下的LDS存儲體沖突問題,導致延遲波動偏高暫不適合生產環境,完整修復方案已經制定完成。
用戶可通過項目倉庫提供的腳本直接構建測試版本,無需修改CMake配置文件,該分支完整保留上游全部原有功能。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.