无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

超越TurboQuant,長上下文推理真2-bit KV Quantization算法問世

0
分享至



本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大學博士,研究方向為高效機器學習系統,方向覆蓋 模型訓推算法與系統協同設計,LLM 壓縮與量化。團隊成員均來自 TogetherAI,悉尼大學以及伊利諾伊大學厄巴納 — 香檳分校。

Together AI 于 2022 年 6 月創立,由蘋果前高管 Vipul Ved Prakash、斯坦福大模型研究中心主任 Percy Liang、芝加哥大學副教授 Ce Zhang、Flash Attention 作者 Tri Dao 聯合創辦。

超越 TurboQuant,內存有救了!TogetherAI 最新論文OSCAR直面沖擊 TurboQuant,提出一個面向長上下文推理服務的真正的 2-bit KV Cache 系統,開盒即用。



  • 論文標題:OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
  • 論文鏈接:https://arxiv.org/abs/2605.17757
  • 項目主頁:https://oscar-quantize.github.io/
  • 代碼:https://github.com/FutureMLS-Lab/OSCAR;
  • RotationZoo:https://huggingface.co/Zhongzhu/OSCAR-RotationZoo
  • 作者:Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

長上下文模型越來越強,但服務時的瓶頸往往不是算力,而是 KV Cache:每生成一個 token,都要從顯存中讀取越來越長的歷史 key,value。上下文越長、batch 越大,KV Cache 越吃顯存,也越吃帶寬。把歷史 KV 壓到 2-bit,理論上可以讓歷史段顯存減少約8 倍;但真正難的是,壓完之后推理能力不能崩,系統也必須能在真實 serving 框架里跑起來。

為什么 2-bit KV Cache 這么難?INT2 只有 4 個量化等級,而 KV activation 中常常有少數幅值極大的 outlier channel。如果這些 outlier 主導量化尺度,大多數正常值會被擠到很少的有效等級里,注意力分布很快漂移。普通 Hadamard 旋轉能把 outlier 攤平,但它不知道模型在 attention 里真正讀哪些方向。OSCAR 的核心就是把旋轉目標從「重建原始 K/V 向量」改成「保留 attention 消費 KV 的方式」。

相比之前量化的工作,比如 TurboQuant 壓縮的是向量,但忽略了真正影響模型的是 attention 的質量,OSCAR 保留的是 attention 真正會讀的方向。樸素 INT2 和全模型層的 3-bit K/V TurboQuant 都會在困難推理任務上明顯掉分;OSCAR 在約2.28 effective bits per KV element下仍能接近 BF16,并在 Qwen3-4B-Thinking 上相對 3-bit K/V TurboQuant 最高提升40.1 分。

OSCAR 的動機



圖 1:為什么只看 K/V 重建誤差會誤導判斷

圖 1 對比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化誤差傳播鏈路上的差異。關鍵點是,原始 K/V 的重建誤差并不能完全解釋模型最終表現;真正影響推理質量的是 attention-score KL、attention-block output MSE 以及后續 hidden-state error。OSCAR 的優勢不只是讓向量數值更平滑,而是把量化誤差壓到 attention 不敏感的方向上。

OSCAR 的設計

具體來說,對 key 來說,量化誤差會進入 attention logits,也就是 QK?,因此 OSCAR 用 query covariance(Q?Q)構造 key 的旋轉目標;對 value 來說,誤差經過注意力權重進入輸出,因此 OSCAR 使用 score-weighted value covariance(V?S?SV)。離線校準階段,OSCAR 從少量校準樣本中估計這些 attention-aware covariance,為每層、每個 head 生成固定旋轉和 clipping 閾值。最終旋轉寫作R = U?Hadamard?bit-reversal:U 對準 attention 相關方向,Hadamard 分散 outlier,bit-reversal 平衡 INT2 分組,避免某個 group 被少數通道支配。

更重要的是,OSCAR 不是以往的量化論文,離線跑量化得到指標,而是已經接入SGLang,做到開箱即用的 2-bit KV serving。OSCAR 在 SGLANG 中維護一個 token 池:

BF16 sink (64 tokens) | INT2 history (~2.28 BPE) | BF16 recent (256 tokens)

其中 sink token 和 recent window 保持 BF16,用來保護 attention sink 與短期局部上下文;中間最長的歷史段存成旋轉后的 INT2。新 token 先寫入 recent window,隨著解碼推進,最老的 recent token 再由融合 Triton kernel 執行 rotate /clip/quantize/pack,并 demote 到 INT2 history。每 4 個 2-bit 值打包進 1 個 byte。decode 階段,OSCAR 在 GPU 上把緩存分成 BF16 段和 INT2 段:INT2 kernel 負責 unpack、scale/zero point 還原和浮點累加,BF16 kernel 處理 sink/recent,最后用 online softmax merge 合并結果。它同時兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,因此可以直接用于長上下文 workload,而不是停留在論文圖表里。



圖 2:OSCAR 整體流程圖

圖 2 展示 OSCAR 從離線校準到在線 serving 的完整路徑。左側是離線階段:OSCAR 從少量校準樣本中估計 attention-aware rotation 和 clipping threshold,讓 KV activation 在進入 INT2 前變得更適合量化。右側是在線階段:sink/recent token 繼續保持 BF16,中間最長的 history KV 進入旋轉后的 INT2 cache,并在 SGLang paged KV 中完成真實 serving。因此 OSCAR 不是單一量化技巧,而是一整套 2-bit KV Cache pipeline。

評估結果

OSCAR 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上測試,任務覆蓋 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500,生成長度最高 32K,每個設置運行 5 次取均。

OSCAR 在2.28 BPE下,Qwen3-4B-Thinking 距 BF16 僅3.78分,Qwen3-8B 距 BF16 僅1.42 分,Qwen3-32B 與 GLM-4.7-FP8 基本與 BF16 持平。相比之下,QuaRot-INT2 和 naive INT2 在這些 reasoning /coding 任務上大多直接崩潰;TurboQuant 在全層 3-bit K/V、無 mixed-precision 保護的公平設置下,也在小模型推理任務上掉分明顯。

OSCAR還在128K長上下文設置下對中 / 大規模模型做了 RULER-NIAH 測試:OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都保持了明顯更穩定的檢索性能,說明這種 attention-aware 旋轉不僅能撐住短評測,也能抵抗超長歷史中 KV 誤差的累積。換句話說,OSCAR 是少數能在真近 2-bit 設置下仍保持現代 reasoning model 質量的方法。

系統收益也非常直接:相對 BF16 history storage,OSCAR 可減少約8×KV Cache memory;在 100k context、batch-size-1、full prefix-cache hit 設置下,decode 最高約3×加速;在大 batch、同顯存預算下,job-level throughput 最高約7×。prefix cache 命中率越高,OSCAR 越能利用更小的 KV footprint 提升并發吞吐,這對共享系統提示、多輪 Agent、工具調用循環等長前綴復用場景尤其重要。

精度損失



圖 3:完整主結果表,多種 KV 量化方法同場對比



圖 4:AIME25 32K 生成,和 KIVI / Kitty 的專項對比

圖 3 是論文主結果表,包含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四個模型、五個任務上的完整對比。BF16 是精度上界;Saw-INT4 是強 4-bit 參考,BPE 為4.25;TurboQuant 在這里使用無 mixed-precision 保護的全層3-bit K/V設置,BPE 為3.25;QuaRot-INT2 和 Naive INT2 是接近 2-bit 的旋轉 / 樸素基線,BPE 約2.25;OSCAR 則在2.28 BPE下運行。

這張表的重點不是單一模型,而是「低比特能不能穩定」。在 Qwen3-4B-Thinking 上,TurboQuant mean 為31.74,QuaRot-INT2 只有1.40,Naive INT2 為0.00;OSCAR 達到71.86,距離 BF16 只差3.78,并相對 TurboQuant 提升40.1 分。在 Qwen3-8B 上,OSCAR mean 為69.42,距離 BF16 只差1.42,而 TurboQuant 為56.88。到 Qwen3-32B 和 GLM-4.7-FP8,OSCAR 基本與 BF16 持平。換句話說,在接近 2-bit 的 KV 預算下,OSCAR 是表中唯一能在多模型、多任務上穩定貼近 BF16 的 INT2 方法。

圖 4 單獨看 AIME25 這個高難數學推理任務,并對比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 沒有 framework 支持,無法進行 long context run,所以選取了他們方法唯一在 32K 匯報的結果 - AIME25。在 Qwen3-8B 上,OSCAR 以2.38 BPE達到66.67,基本追平 BF16 的66.00,明顯高于 KIVI-KV2 和 Kitty;在 Qwen3-32B 上,OSCAR 達到74.00,甚至略高于 BF16 的72.59,也超過 Kitty 的69.26。這說明 OSCAR 不只是相對 TurboQuant 有優勢,在已有 KV-cache 量化方法中,也能在接近 2-bit 的預算下保住困難數學推理能力。

系統加速



圖 5:100k 長上下文下的 decode /batch throughput

圖 5 展示 100k 上下文下的系統性能。OSCAR 在 batch-size-1、full prefix-cache hit 的純 decode 場景下最高約3×加速;在固定顯存預算下,batch size 增大時,INT2 history 帶來的 KV footprint 降低可以顯著提高 job-level throughput,最高約7×。這說明 OSCAR 不只是精度能保住,也能實打實降低顯存帶寬壓力。



圖 6:prefix cache 命中率越高,吞吐前沿越往外推

圖 6 展示 prefix-cache hit ratio 對端到端 serving throughput 的影響。橫軸是單用戶吞吐,縱軸是單 GPU 吞吐;從 cache disabled 到 normal cache,再到接近 100% warmup replay,吞吐前沿逐步外擴。OSCAR 保持標準 paged KV /prefix cache 抽象,因此共享系統提示、多輪 Agent、工具調用循環等長前綴復用場景可以直接受益。

這些結果的一個重要含義是,OSCAR 并沒有依賴「挑選少數層保留高精度」來保住分數。很多低比特方法在真正部署時會借助混合精度:第一層、最后一層或若干敏感層仍然保留較高 bit,這會讓平均 bit 數上升,也會讓 kernel 和 cache layout 變復雜。OSCAR 的對比更嚴格:歷史 KV 主體保持統一的 INT2 表示,只在 sink 和 recent 兩個很小窗口保留 BF16。這樣做的好處是,系統工程上更容易接入 paged cache、prefix cache 和批量調度,也更接近真實服務場景中的顯存預算。

總結

另一個值得強調的點是,OSCAR 的收益不是只在小模型或短上下文上成立。論文同時測試了 4B、8B、32B 以及 GLM-4.7-FP8 這樣的大模型;既看了數學、代碼、知識問答等 32K 推理生成任務,也看了 128K RULER-NIAH 長上下文檢索。短評測里,OSCAR 能接近 BF16;長上下文里,它也能讓 attention 分布隨上下文增長更穩定。這說明 attention-aware rotation 不是只在某個 benchmark 上調參有效,而是在緩解 KV 誤差隨歷史長度累積這個根本問題。

從應用角度看,這對長上下文 Agent 特別關鍵。真實 Agent 往往包含很長的系統提示、工具說明、歷史對話和檢索內容,并且不同請求之間存在大量共享前綴。如果 KV Cache 只能用 BF16 存,系統很快會被顯存卡住;如果直接做樸素 INT2,又可能讓推理鏈條失真。OSCAR 的設計剛好夾在兩者之間:長歷史用 INT2 降顯存和帶寬,關鍵 sink/recent 用 BF16 兜住穩定性,再讓 prefix cache 復用共享前綴。換句話說,它把「能壓到 2-bit」和「能上線 serving」 放在同一個系統里考慮。

TurboQuant 是很強的通用 online vector quantization 方法;OSCAR 針對的是 attention-aware 2-bit KV serving。二者不是簡單替代關系,例如OSCAR 的 最新codebase中已經在attention-aware rotation 引入了更強的 Lloyd Max Codebook,將壓縮推向極致。OSCAR 帶來了一個獨特的觀點:2-bit KV Cache 要能上線,旋轉不只是「有沒有」,而是必須對準 attention,并且要有真實 serving 系統支撐。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

時尚
數碼
家居
房產
公開課

美回巔峰的她們,帶火的這些爆款真的好用嗎

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

家居要聞

云棲 舒展如流云

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版