解碼加速15倍！EdgeRazor助推大模型在PC/移動端“狂飆”

2026-05-25 20:05:12　來源: 機器之心Pro

天津舉報

分享至

近年來，大語言模型參數(shù)的持續(xù)膨脹，帶來了極高的顯存占用和算力需求，在 PC、手機和 IoT 等資源受限的端側(cè)設(shè)備上部署前沿大模型十分困難。因此大語言模型輕量化的研究勢在必行，量化（Quantization）成為主流的輕量化方案。然而，量化端側(cè)部署目前受制于 “不可能三角”：后訓練量化（PTQ）在極低比特下精度崩塌；量化感知訓練（QAT）算力成本極高；而現(xiàn)有的量化感知蒸餾（QAD）又缺乏靈活性。

由南京大學機器學習與數(shù)據(jù)挖掘研究所（LAMDA）和微軟 AI 聯(lián)合推出的開源工具庫 EdgeRazor，直擊端側(cè)部署的核心痛點，一舉打破了極低比特大語言模型 “能力塌陷” 的魔咒；其核心采用混合精度量化感知蒸餾（MPQAD），不僅保障了更低成本的訓練，更支持了靈活的訓練數(shù)據(jù)配比，成功構(gòu)建出一個開源、即插即用的輕量化框架。論文通訊作者為南京大學 LAMDA 團隊張紹群助理教授。

論文標題：EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
論文地址：https://arxiv.org/abs/2605.04062
GitHub 鏈接：https://github.com/zhangsq-nju/EdgeRazor
Hugging Face 鏈接：https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit
Playground 鏈接：https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround

端側(cè)破局：兼得 SOTA 與 15 倍加速

圖 1：EdgeRazor 和基線算法在基礎(chǔ)型、指令微調(diào)型和多模態(tài)大模型上的性能表現(xiàn)

全面評測，性能領(lǐng)跑：EdgeRazor 在基礎(chǔ)型（MobileLLM-350M）、指令微調(diào)型（Qwen3-0.6B/1.7B）和多模態(tài)（Qwen2.5-Omni-7B）大模型上開展了系統(tǒng)的性能評測。評測范圍包括常識推理、指令遵循、數(shù)學推理、代碼生成以及視頻理解類型的 16 個下游任務(wù)。如圖 1 所示，面對當前主流 PTQ、QAT 及 QAD 方法，EdgeRazor 在各類模型架構(gòu)和比特位寬下均保持性能的領(lǐng)先，確立了全新的 SOTA 性能基準。

圖 2：Qwen3-1.7B-EdgeRazor 在 PC 端和手機端部署效果演示

端側(cè)部署，絲滑落地：為了展示真實受限資源下的工程落地，EdgeRazor 提供了適配于端側(cè)部署的 DEMO。如圖 2 所示，在 PC 端和手機端的 CPU 部署場景下，EdgeRazor 釋放出極高的推理潛能。相較于 16-bit 基座模型，其解碼速度分別實現(xiàn)了 16× 和 12× 的飛躍，整體端到端響應(yīng)速度也獲得了 10× 和 11× 的大幅提升，真正賦予了本地輕量化模型絲滑、“秒回” 的體驗。

圖 3：EdgeRazor 和基線算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表現(xiàn)

打破魔咒，拒絕塌陷：在極低比特位寬下，量化模型的復(fù)雜推理能力往往最先遭遇災(zāi)難性衰退，但 EdgeRazor 打破了這一魔咒。如圖 3 所示，在 GSM8K（數(shù)學推理）和 HumanEval（代碼生成）復(fù)雜任務(wù)上，現(xiàn)有主流 2-bit 方法普遍出現(xiàn)性能的斷崖式下跌，甚至面臨徹底失效的困境。相比之下，EdgeRazor 即使在 1.88-bit 這種極低比特預(yù)算下，依然展現(xiàn)出較好的穩(wěn)健性，其任務(wù)表現(xiàn)顯著優(yōu)于同類 2-bit 方法。

圖 4：EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表現(xiàn)和訓練開銷

十倍輕訓，降本增效：高質(zhì)量的低比特模型往往依賴龐大的訓練開銷，而 EdgeRazor 徹底打破了這一現(xiàn)狀。如圖 4 所示，在 MobileLLM-350M 上，EdgeRazor 不僅在全比特位寬下超越了性能最強的 QAT 基線 ParetoQ，更在訓練效率上實現(xiàn)了大幅優(yōu)化。其訓練所需的 tokens 數(shù)量縮減了 75%–90%（最低僅需 3.1B，而基線高達 30B）。

圖 5：EdgeRazor 和基線算法在 Qwen3-0.6B 模型下的量化比例和壓縮比

全員量化，刷新極限：傳統(tǒng)的量化方法往往因規(guī)避精度崩潰而對嵌入層和語言模型頭 “手下留情”。如圖 5 所示，這導致模型整體的真實量化參數(shù)覆蓋率僅 73.89%，然而 EdgeRazor 突破了這一妥協(xié)，實現(xiàn)了 99.99% 的極高量化參數(shù)覆蓋率，并且在 1.58-bit 極低比特下達到了突破性的 7.03× 壓縮比，遠超傳統(tǒng)方法 2.94× 的瓶頸。

圖 6：EdgeRazor 在 llama.cpp 推理框架上測試 Qwen3-0.6B 的效率表現(xiàn)

EdgeRazor 選取 Qwen3-0.6B 為基座模型，依托開源推理框架 llama.cpp，在純 CPU 算力環(huán)境下（Apple M4 Pro）進行推理效率評測。

百兆體積，輕量部署：如圖 6 所示，相較于 16-bit 基座模型，1.58-bit EdgeRazor 量化模型將磁盤占用壓縮至 1/5.8（僅約 190MB），峰值運行內(nèi)存降至 1/2.9。百兆級別的輕量資源占用，掃清了大模型向智能手機、IoT 等內(nèi)存受限設(shè)備遷移的物理障礙。
十五倍速，解碼狂飆：如圖 6 所示，1.58-bit EdgeRazor 量化模型的預(yù)填充吞吐量不僅達到了基座模型的 2.11×，在對用戶體驗起決定性作用的自回歸解碼環(huán)境，速度更是實現(xiàn)了 15.16× 的爆炸級提升。這標志著端側(cè)大模型邁入 “秒回” 級別的全新階段。

即插即用：一鍵訓練輕量化大模型

圖 7：EdgeRazor 用于輕量化模型訓練的流程圖

EdgeRazor 不僅在性能與效率上追求極致，在工程易用性上也同樣力求開發(fā)者友好。如圖 7 所示，EdgeRazor 被設(shè)計為一個高度模塊化的開源工具庫。開發(fā)者無需精通底層的復(fù)雜量化感知蒸餾邏輯，通過統(tǒng)一的配置文件（配置量化比例、目標比特數(shù)和蒸餾損失等內(nèi)容），將龐大的 16-bit 模型訓練為 1.58-bit 輕量化模型。其核心使用優(yōu)勢包括：

代碼解耦，即插即用：零侵入式設(shè)計。只需寥寥數(shù)行代碼配置，EdgeRazor 就能無縫并入開發(fā)者現(xiàn)有的全精度大模型訓練流水線，完全不需要重構(gòu)底層的訓練代碼。
極簡配置，一鍵啟動：EdgeRazor 通過三個輸入（16-bit 模型、自由配比的數(shù)據(jù)和配置文件），即可輸出各種低比特模型（例如，1.58-bit 模型）。
混合數(shù)據(jù)，配比自由：相比于傳統(tǒng)的 QAD 方法只支持蒸餾 16-bit 模型的數(shù)據(jù)進行訓練，EdgeRazor 還支持人類標注數(shù)據(jù)和高質(zhì)量模型合成數(shù)據(jù)，訓練數(shù)據(jù)配比自由。
繁雜底層，自動接管：框架內(nèi)部接管了繁雜的底層操作。從加載各種格式的配置，利用量化選擇器為特定層注入量化實現(xiàn)（QAT 模塊），到同步計算各種蒸餾損失（KD 模塊），全流程自動化閉環(huán)。
算力降維，單機可訓：告別傳統(tǒng) QAT 方法對龐大算力的依賴（例如，ParetoQ 使用了 16 張顯卡，消耗了 30B tokens）。EdgeRazor 在常規(guī)單機多卡環(huán)境下即可完成訓練（相同模型只使用了 8 張顯卡，消耗了 3.1B tokens）。

核心架構(gòu)：三大模塊攻克極低比特

圖 8：EdgeRazor 框架的核心模塊

開發(fā)者友好的易用性背后，是核心算法的支撐。如圖 8 所示，EdgeRazor 采用混合精度量化感知蒸餾范式來壓縮各類型的大模型，其核心創(chuàng)新主要由以下三個模塊構(gòu)成：

混合精度的結(jié)構(gòu)量化（Structural Quantization with Mixed Precision, SQMP）：打破傳統(tǒng)量化統(tǒng)一位寬的設(shè)定。SQMP 支持將 4-bit 和 1.58-bit 在輸入通道維度進行細粒度的靈活混合（例如實現(xiàn) 1.88-bit 或 2.79-bit 的平均位寬）。這不僅能精準契合實際硬件的資源預(yù)算，交錯的 4-bit 高精度行還能作為 “緩沖區(qū)”，有效吸收激活異常值帶來的量化誤差。
層自適應(yīng)的特征蒸餾（Layer-Adaptive Feature Distillation, LAFD）：告別盲目的人工調(diào)參。LAFD 通過計算教師模型相鄰層的余弦相似度（表征結(jié)構(gòu)變換程度），自適應(yīng)地找出對特征轉(zhuǎn)換最關(guān)鍵的 Top-k 層進行重點特征蒸餾。從而將 “好鋼用在刀刃上”，不僅避免了盲目依賴人工經(jīng)驗去啟發(fā)地選擇蒸餾層，還有效阻止了量化誤差在層間的放大。
熵感知的 KL 散度（Entropy-Aware KL Divergence, EAKLD）：擺脫了對教師模型生成數(shù)據(jù)的強依賴。EAKLD 純粹依靠教師模型輸出分布的熵來動態(tài)調(diào)節(jié)前向 KL 散度與反向 KL 散度的比例。這使得 EdgeRazor 能夠完美兼容人工標注數(shù)據(jù)和高質(zhì)量模型合成數(shù)據(jù)，實現(xiàn)了訓練數(shù)據(jù)的配比自由。

總結(jié)

回歸到輕量化的初衷，EdgeRazor 想解決的并不是單純的 “跑個分”，而是一個更底層且務(wù)實的問題：如何通過一套統(tǒng)一的算法框架，讓各種架構(gòu)、各種參數(shù)規(guī)模的大模型低成本地轉(zhuǎn)化為在資源受限環(huán)境（例如，手機和 PC 等端側(cè)設(shè)備）下可部署的低比特輕量化版本。其實現(xiàn)的開源工具庫打通了 “低成本量化”、“輕量化訓練” 與 “極低成本部署” 的 AI 全生態(tài)鏈路，為個人 AI 助理的普惠化與私密化提供有力的解決方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.