網易首頁 > 網易號 > 正文 申請入駐

OpenClaw太貴?QuantClaw幫你挑精度,成本砍掉21%,還能提速15%

0
分享至



華為聯合新加坡國立大學和中國科學技術大學研究人員提出 QuantClaw。

這是一款面向 OpenClaw 的即插即用動態模型精度路由插件,基于大規模低精度量化實證研究,讓模型精度成為可動態分配的資源,實現服務質量不降反升、成本下降、延遲降低的三重收益。



項目主頁:https://sparkengineai.github.io/QuantClaw/

GitHub 倉庫:https://github.com/SparkEngineAI/QuantClaw-plugin

arXiv 論文:https://arxiv.org/abs/2604.22577

OpenClaw 很強大,但成本讓人頭疼

2026 年,OpenClaw 已經成長為最火爆的開源 AI Agent 框架之一。它不只是「聊天機器人」,而是能操控瀏覽器、執行 Shell 命令、讀寫文件、管理記憶的全功能數字助手。但真正用過 OpenClaw 的開發者和用戶都知道一個痛點:Token 消耗太猛了。

一個看似簡單的查詢,可累積消耗超 23 萬 Token,你付的錢不只是為了那個最終答案,而是在為整個 Agent 系統的「運行開銷」買單。更糟的是,目前這些系統通常以固定精度運行。無論任務是簡單查個資料,還是寫一段復雜代碼,模型都在全力輸出,導致不同任務復雜度與計算資源之間缺乏匹配機制。該策略同時帶來不必要的計算開銷、推理延遲增加以及整體成本上升。

破局思路:不是每個任務都需要「超算級」精度

量化(Quantization)是業界常用的降本手段。把模型的數值精度從 32 位浮點壓縮到 4 位甚至 2 位,能顯著減少內存占用和計算量。但問題是:量化對復雜 Agent 任務的影響到底有多大?所有任務都適合壓低精度嗎?目前仍缺乏系統性的研究來回答這一問題。

華為聯合新加坡國立大學、中國科學技術大學,對 OpenClaw 工作負載進行了系統性的量化研究,基于 ClawEval 評測集(release v0.0.0),覆蓋 24 類任務、104 個實例、6 個主流大模型(9B–744B),系統揭示了 OpenClaw 框架下 Agent 量化的核心規律:

(1)Scaling Effect:模型越大,量化容忍度越高



在 OpenClaw 量化評測結果上,研究團隊發現了一個清晰的模型規模和性能下降之間的關系:

  • 小模型(<30B):量化后性能下降 3-5%。
  • 中等模型(30B-70B):下降通常在 2% 以內。
  • 大模型(200B+):下降不到 2%,部分模型(如 GLM-5、MiniMax-M2.5)量化后反而有輕微性能提升(+0.9% 到 +1.4%)。

實驗結果顯示,模型規模與量化誤差容忍度呈正相關,這可能源于更大參數量的模型擁有更高的表征冗余,從而削弱了量化噪聲的影響。

(2)量化對 Agent 的影響,顯著依賴任務類型

研究團隊對所有測試模型的結果取平均值并進行任務敏感度分析,根據敏感度將 OpenClaw 任務分為三類:高、中、低。



  • 高精度敏感區(推薦 16bit/8bit):涉及代碼生成、安全關鍵決策和復雜操作工作流的任務對量化高度敏感。這些領域的共同特征是需要精確的邊界判斷,模型輸出的微小擾動都可能導致性質完全錯誤的行為,例如錯誤的工具調用、策略違規或代碼邏輯錯誤。
  • 低精度友好區(推薦 4bit):知識檢索、分析類與問答類任務對量化具有較強容忍度,有的甚至還能小幅提升。這可能是因為量化充當了隱式正則化器的角色,從而促進更具泛化性的表示。

(3)如何實現得分、速度與成本的平衡?



真正決定是否應該對某個任務使用低精度,不能只看分數變化,必須把速度和成本一起納入考量;谌蝿彰舾行苑治,研究團隊給出了兩種實用的優化視角:

  • 得分 vs 速度(更快):在不犧牲質量的前提下降低推理時延,優先選擇速度收益大于分數邊際變化的任務。
  • 得分 vs 成本(更便宜):在質量基本持平的情況下壓低推理成本,重點關注成本降低時仍能保持或提升質量的任務。

QuantClaw:開箱即用的精度調度引擎

基于以上發現,研究團隊推出了 QuantClaw,一個為 OpenClaw 設計的即插即用的任務路由量化插件。



(1)QuantClaw 的工作邏輯非常清晰:

  • 任務識別:用戶發來請求,QuantClaw 首先判斷它屬于哪種任務類型。
  • 精度路由:根據預設的「任務-精度敏感度檔案」,自動將請求分配給 4bit、8bit 或 16bit 的模型實例。
  • 透明執行:用戶無感知,不用手動選擇精度,系統在后臺完成一切。

(2)QuantClaw 的架構設計兼顧了實用性和靈活性:





實測效果:省錢、提速、分數還漲了

研究團隊在 PinchBench 上進行端到端評估。結果表明,QuantClaw 在省錢提速的同時,任務完成質量反而更高。低敏感任務用低精度高效執行,高敏感任務保留高精度確?煽,實現整體上更好的質量、成本和時延平衡。

(1)GLM-4.7-Flash(PinchBench v1.2.0):相比 BF16 基線,得分 +2.85,成本 -21.6%,延遲 -8.4%



(2)GLM-5(PinchBench v2.0.0):相比 FP8 基線,得分 +2.09,成本 -21.4%,延遲 -15.7%



展望

QuantClaw 不止是一個插件,更提供了一種將精度納入系統調度的實現路徑:把精度當作像算力、內存一樣的動態調度資源;輕任務跑低成本配置,重任務保留高精度。

當精度成為可動態調配的資源,Agent 系統才能真正從演示場景走向生產級應用。未來,個人 AI 助手不再是「單模型滿負荷跑」,而是多精度、多能力協同的智能系統。QuantClaw 正是這一方向的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視披露瀏陽爆炸煙花廠內部畫面:幾乎所有火藥生產線工房門口貼符,希望保佑平安;火藥混堆安全隱患突出,電線桿斷裂、車輛僅剩骨架

央視披露瀏陽爆炸煙花廠內部畫面:幾乎所有火藥生產線工房門口貼符,希望保佑平安;火藥混堆安全隱患突出,電線桿斷裂、車輛僅剩骨架

山西晚報
2026-05-09 14:45:41
1億美元種子輪!SGLang團隊RadixArk,打造下一代開放AI基礎設施

1億美元種子輪!SGLang團隊RadixArk,打造下一代開放AI基礎設施

機器之心Pro
2026-05-08 17:13:20
原廣州軍區副司令員兼南海艦隊司令員王永國逝世,享年87歲

原廣州軍區副司令員兼南海艦隊司令員王永國逝世,享年87歲

澎湃新聞
2026-05-09 12:08:29
華為Pura 90系列:橘色海面下,深邃的影像底蘊

華為Pura 90系列:橘色海面下,深邃的影像底蘊

愛范兒
2026-04-20 18:42:35
恒大原總裁夏海鈞廣州豪宅被拍賣,428平方米頂層復式評估價7062萬元,其曾因年薪超2億被譽為地產界“打工皇帝”

恒大原總裁夏海鈞廣州豪宅被拍賣,428平方米頂層復式評估價7062萬元,其曾因年薪超2億被譽為地產界“打工皇帝”

極目新聞
2026-05-09 12:31:29
日本富豪辦派對讓年輕女孩全裸疊成“人體金字塔”!全網立已婚好爸形象一夜翻車!

日本富豪辦派對讓年輕女孩全裸疊成“人體金字塔”!全網立已婚好爸形象一夜翻車!

東京新青年
2026-05-08 18:31:53
不愧是馬司令!文章飯店正式開業,她帶女兒來支持

不愧是馬司令!文章飯店正式開業,她帶女兒來支持

白面書誏
2026-05-08 20:45:46
女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發聲:買家才20多歲,她父母想協商和解,我要求依法處理,并公開道歉

女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發聲:買家才20多歲,她父母想協商和解,我要求依法處理,并公開道歉

大風新聞
2026-05-09 10:00:07
美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

云上烏托邦
2026-05-09 14:53:05
上市三年,造假三年,“小巨人”清越科技被立案調查

上市三年,造假三年,“小巨人”清越科技被立案調查

未名財經
2026-05-09 15:39:24
員工人均獎金達610萬人民幣?SK海力士回應

員工人均獎金達610萬人民幣?SK海力士回應

第一財經資訊
2026-05-09 16:50:23
人民日報發聲:機關事業單位的隱性收入,正在消失

人民日報發聲:機關事業單位的隱性收入,正在消失

細說職場
2026-05-09 12:16:27
澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

羅富強說
2026-05-09 14:02:37
朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

安珈使者啊
2026-05-09 14:24:39
39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

白面書誏
2026-05-08 16:13:29
4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

中國新聞周刊
2026-05-09 19:38:06
尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

火山詩話
2026-05-08 21:39:02
捷途汽車:把「方盒子」做成冠軍,把「旅行」做成生態

捷途汽車:把「方盒子」做成冠軍,把「旅行」做成生態

汽車預言家
2026-05-09 11:32:23
4月吉利逆市扛旗,高質量增長跑出行業韌性

4月吉利逆市扛旗,高質量增長跑出行業韌性

汽車公社
2026-05-06 20:16:34
國際油價本周大跌7%

國際油價本周大跌7%

每日經濟新聞
2026-05-09 09:16:42
2026-05-09 20:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12957文章數 142646關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

王菲出新歌首用陜西話唱戲腔 時隔24年與張藝謀再合作

頭條要聞

王菲出新歌首用陜西話唱戲腔 時隔24年與張藝謀再合作

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

游戲
房產
本地
手機
公開課

LCK第二賽段:又是爆冷?BFX找回狀態,專門搞KT?

房產要聞

低價甩賣!?谶@個地標商業,無人接盤!

本地新聞

用蘇繡的方式,打開江西婺源

手機要聞

OPPO Reno16系列配置曝光:全系2億像素+金屬中框,5月亮相

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版