網易首頁 > 網易號 > 正文申請入駐

Token成本直降25%!大模型上下文管理迎來新解法

2026-06-01 08:21:27　來源: AI先鋒官

北京舉報

分享至

當下，AI 大語言模型越來越多地使用超長上下文，雖然能提升問答、推理等任務效果，卻也讓 token 調用、算力成本大幅上漲。

這幾乎成了限制大模型發展及用戶使用的主要矛盾之一。

為此，各類精簡上下文的技術層出不窮，比如信息檢索、內容壓縮等，但這些方案往往只會單獨看模型效果或，運行成本，而沒有統一的評判標準，很難判斷哪種方案更適合實際落地。

針對該問題，日前，西北大學、杜克大學、卡耐基梅隆大學等組成的研究小組推出《效率前沿：面向大語言模型上下文管理的成本-性能協同優化統一框架》的論文。

論文提出了“效率前沿”這套全新評估框架，以平衡大模型上下文管理中的性能與成本問題。

研究團隊選用經典問答數據集完成測試，覆蓋檢索、內容壓縮、全量上下文等主流用法。

論文指出：“英偉達顯卡相關邏輯不適用于大模型上下文優化，不同場景沒有萬能方案”，實驗證實，結合實際使用場景做優化，在性能相近時，可將有效 token 用量降低約25%。

這套框架最大的特點，是加入了“復用成本”考量。即，如果一段上下文會被多次調用，前期壓縮處理的開銷就能被平攤。在追求更高模型表現的場景下，內存壓縮方案相比直接使用全文，token 成本能減少五成以上。

研究也明確了不同方案的適用范圍：追求低成本，優先選用輕量化檢索；內容反復調用，內容壓縮性價比更高；想要拿到最佳效果，就必須保留完整上下文。

整體來看，該成果填補了行業評測的空白。它跳出了單純比拼模型精度的思維，幫開發者根據業務需求、使用頻次選擇最優方案。既能控制算力與使用成本，減少資源浪費，也為大模型高效、可持續地規模化部署，提供了簡單可行的參考標準。

以下為論文全文——

《效率前沿：面向大語言模型上下文管理的成本-性能協同優化統一框架》

摘要

當下大語言模型（LLM）愈發依賴長上下文處理能力，但擴展上下文窗口會帶來高昂的計算與資金成本。現有上下文精簡技術（包括檢索、內存壓縮等方法），通常將性能指標與效率指標分開評估，難以開展系統性對比，也無法結合實際部署場景制定決策。

本文提出效率前沿框架，這是一套用于大語言模型上下文管理、實現成本與性能協同優化的統一體系。

該框架將上下文策略選擇轉化為面向實際部署的優化問題，結合平攤成本建模，綜合考量任務性能、token 開銷與預處理復用價值。以往研究多對各類方法進行孤立測試，而本框架可結合不同運行場景，從決策角度分析各類上下文管理策略的適用條件。

研究基于5000條HotpotQA數據集樣本完成實驗，清晰劃分出檢索類策略與預處理類策略的適用區間及切換邊界。

實驗結果表明：在模型性能基本持平（F1值≈0.78）的情況下，這套面向部署場景的優化方案可將有效token使用量降低約25%；在高性能運行場景中，采用平攤式內存壓縮方案，相較于全上下文提示方案，token開銷降幅超50%。

總體而言，本框架為評估和落地可擴展、高效率、可持續的大語言模型系統，提供了兼具理論依據與實踐價值的支撐。

一、引言

近年來，大語言模型技術發展迅猛，在搜索、客戶服務、知識處理等各類自然語言處理任務中均展現出優異能力。但模型規模擴大、輸入上下文長度不斷增加，也持續推高計算成本與使用成本。

隨著上下文窗口不斷擴容，新增token帶來的計算開銷增速，往往遠超下游任務的性能提升幅度，如何高效利用上下文，已成為一大重難點。

與此同時，大規模人工智能系統產生能耗、水資源消耗等環境問題，其長期可持續發展也受到業界廣泛關注。上述問題，凸顯出優化大語言模型上下文利用率的迫切需求。

目前已有諸多研究探索在保障任務性能的前提下縮短上下文長度的技術，主流方案包括基于檢索的信息篩選、文本摘要、上下文壓縮等。這類技術通過保留高價值相關信息、剔除冗余低效內容來提升運行效率。

盡管相關方法已取得不錯效果，但現有評估體系較為零散。過往研究一般單獨報告精確匹配率（EM）、F1值等性能指標，以及token消耗量、推理時延等成本指標，很少綜合評估成本削減與性能損耗之間的取舍關系。

此外，檢索法、壓縮法、長上下文方案的實驗設置各不相同，難以開展橫向對比。因此，在實際部署的約束條件下，如何系統性對比各類上下文精簡策略、判斷不同場景下的最優方案，目前仍缺乏有效手段。

針對該問題，本文構建一套統一評估框架，規范化測評大語言模型上下文精簡技術的運行效率。

我們提出效率前沿概念，這是一套分為三階段的評估體系，可量化不同上下文管理策略下，任務性能與計算成本的制衡關系。

區別于以往割裂評估性能與成本的思路，本框架明確給出上下文策略的選擇邏輯，打通了檢索類方法與長上下文處理方案之間的測評壁壘。框架引入參數化對數效用指標，用以描述新增上下文帶來的收益遞減規律，同時納入預處理平攤成本。

通過調整復用參數N，該框架可模擬真實部署環境，定位不同策略的適用切換區間，實現多方案系統性對比。

除評估功能外，本框架還能結合不同成本條件與復用場景，為學術研究和工程落地中的上下文策略選型提供實操指導，將研究重心從單純擴充上下文容量，轉向優化真實場景下的上下文利用效率。

本文選用HotpotQA數據集開展實驗，該數據集面向多跳推理任務，同時包含有效上下文與干擾信息，可全面測評上下文精簡方案對模型精度造成的影響。

二、相關研究

2.1 大語言模型評估體系

現階段大語言模型的評估體系不再局限于任務準確率，還拓展至魯棒性、公平性、泛化能力、計算效率，以及對提示詞、交互形式的敏感度等多個維度。

除任務性能外，HELM等主流評測框架及各類專項基準測試，愈發強調對模型表現的多維度評估，尤其關注準確率與運行效率之間的權衡關系。

與此同時，面向高效、可持續人工智能的相關研究，也凸顯出資源導向型評估標準的重要性，評估指標涵蓋計算開銷、能耗、推理時延等。

例如隨著模型規模與部署成本持續攀升，綠色人工智能理念倡導將運行效率與資源消耗納入模型評估體系。

除通用表現與資源消耗外，近期研究提出，還需評估對齊系統的適配能力，即系統在現實環境擾動下的運行穩定性。

這一轉變也說明，評測工作需要擺脫靜態基準測試的局限，采用能夠適配實際部署場景、具備可靠魯棒性的評估框架。

但現有評估方法通常將任務效果、計算成本、部署效率視作相互獨立的指標。這種割裂的評估方式，無法體現實際部署中的真實取舍關系，工程人員也難以在缺乏統一標準的情況下平衡任務性能與計算開銷。

多數研究僅單獨報告F1值、壓縮率等性能指標，或是基礎成本指標，很少結合實際部署場景，端到端對比不同上下文管理策略下，單條請求的詞元開銷、資金成本與任務性能的對應關系。

在長上下文應用場景中，這一缺陷尤為突出：上下文長度增加會大幅抬升計算成本，卻未必能穩定提升下游任務性能。現有長上下文相關評測也證實，單純擴充上下文或提升模型復雜度，無法帶來成比例的性能增益。

2.2 上下文長度擴展與收益遞減效應

隨著長上下文技術不斷發展，大語言模型的最大上下文長度被大幅提升，模型能夠處理更長文本序列，并將更多信息融入推理過程。雖然擴大上下文窗口，能夠提升多跳推理、長依賴關聯類任務的表現，但實驗證明，這類性能增益普遍存在收益遞減現象。

研究發現，大語言模型并不能始終高效利用超長輸入文本。“中間信息缺失”現象表明，模型往往無法充分利用長序列中段的內容；另有研究指出，隨著上下文長度增加，注意力分散、干擾信息增多等問題會導致模型性能下降。大規模評測也進一步證實，模型常常無法充分發揮額外上下文信息的價值。

與此同時，注意力機制具備二次復雜度，長上下文處理的計算開銷會隨文本長度呈非比例增長，但性能提升往往增速緩慢、表現不穩定。

基于上述問題，業界開始重點研究上下文精簡與選擇性處理技術，力求在保障任務性能的同時提升運行效率。不過現有研究大多聚焦于優化長上下文能力、開展性能基準測試，并未系統性建模上下文長度、計算成本與下游任務性能三者間的制衡關系。

2.3 上下文精簡技術

為解決長上下文處理高成本的問題，大量研究開始探索在保留任務性能的前提下縮減上下文長度的技術。

目前已涌現出多種上下文壓縮方案，包括詞元級壓縮策略、基于指令的路由機制等，這類方法通過對輸入詞元進行稀疏化處理，降低推理時延。

還有研究結合推理增強適配、指令微調、多模態融合等技術，優化復雜場景下的上下文理解與利用效率。這類技術現已廣泛應用于時延敏感型實時業務。

此外，語義稀疏化、內容過濾等上下文精簡方法，可在文本生成前剔除冗余內容，提升系統運行效率、魯棒性與風險抵御能力。結合上述思路，學界還提出了檢索與路由混合方案，進一步優化上下文篩選效果與系統穩定性。

現有研究大多對檢索、壓縮、長上下文處理三類技術分別開展評測，實驗所用數據集、提示詞設置、成本假設也各不相同。

因此，在同等條件下，很難判定哪一種策略效率更高、效果更好。評估標準的缺失，導致業內無法系統性分析各類上下文管理策略的效率與性能取舍，這也推動了本次統一評估框架的研究。

三、研究方法

本文設計了一套分三階段的結構化框架，用于系統性評估各類上下文管理策略在性能與計算成本之間的權衡關系。以往方法僅單獨優化準確率或運行效率，而本框架結合實際部署約束建立決策模型，可根據性能要求與系統使用特征選擇最優策略。

本研究的核心創新在于，區分固有成本（單條請求推理成本）與平攤成本（包含可復用的預處理開銷），并通過復用參數N實現量化。該模型貼合真實部署場景，例如共享內存系統、摘要緩存、多請求并發任務等場景中，一次性預處理計算結果可被多條請求重復使用。依托該模型，本框架能夠在統一目標下，完成不同運行模式的效果評估。（此部分其他細節略過）

四、實驗結果與分析

本文運用所提框架，分析不同性能要求、部署約束下各類上下文管理策略的表現。本研究不再孤立對比單一策略，而是分析最優方案如何同時受目標性能、計算預算、內容復用特征三者影響。

實驗從三個維度展開分析：一是效率前沿分析，解讀不同策略內部、策略之間的性能-成本取舍關系；二是分場景決策規律，根據性能目標匹配不同部署環境下的最優策略；三是總結結論與工程落地啟示，提煉可指導大語言模型部署的系統性經驗。下文所有詞元開銷數據，均按照公式(1)完成預處理成本平攤后，基于全部HotpotQA樣本計算得到的單條請求平均有效詞元用量。

4.1 效率前沿分析

圖1整體展示了各類策略對應的效率前沿與決策路徑。每張子圖包含三層信息：全部待測參數配置、固有帕累托最優前沿、由效率得分確定的最優運行路徑。

實驗總結出核心規律：每一種策略都存在專屬的固有前沿，但運行點位會隨部署環境變化。隨著偏好權重w調整，最優參數配置會沿前沿曲線移動，而非固定不變。

1. 查詢感知型檢索可優化固有前沿：相較于基礎版TF-IDF，查詢感知型檢索能在同等成本下實現更高性能，在不增加預處理開銷的前提下，抬升帕累托最優曲線。

2. 平攤機制改變內存壓縮的綜合表現：檢索類方法幾乎無預處理成本，而內存壓縮會產生高額前期開銷。但隨著內容復用次數增加，平攤效應會降低其綜合成本，讓內存壓縮在全局前沿曲線中占據更大優勢區間。

圖2整合所有策略，展示全局效率前沿。每條曲線代表權重w從“優先控成本”向“優先提性能”切換時，最優策略與參數配置的變化軌跡，曲線拐點即為策略優劣切換的臨界點。

實驗呈現統一規律：內容復用次數N越高，高前期開銷的策略越占優勢。N增大后，平攤效應降低綜合成本，內存壓縮可在更多均衡型場景中成為最優選擇。

這也證明：最優策略并非固定不變，而是高度依賴部署場景。單條獨立請求場景更適合輕量檢索方案；而長期智能助手、企業知識庫等高頻復用場景，采用內存壓縮這類重預處理方案收益更高。

4.2 分場景決策規律

效率前沿曲線可連續展示不同偏好下的最優選擇，而工程落地中往往需要明確的離散化指導：給定目標性能，應當選用哪種策略？為此，本文將前沿曲線轉化為面向決策的可視化結果，結合不同部署條件，根據性能目標匹配最優方案。

結合業務性能要求，本文將運行場景劃分為三類：效率優先型、均衡兼顧型、高性能型。表1匯總全局前沿曲線上的典型運行點位，將連續的曲線規律轉化為可直接落地的離散化決策指南。

1. 效率優先場景（F1＜0.78）：輕量檢索方案憑借極低開銷成為主流。在低復用場景下，問答優化版TF-IDF可在最少詞元用量下達到理想性能。

2. 均衡兼顧場景（0.78≤F1＜0.82）：該場景下不同部署環境的策略差異最大。復用次數提升后，內存壓縮的優勢逐步凸顯，在多數均衡場景中具備競爭力甚至成為最優選擇。

3. 高性能場景（F1≥0.82）：若要達到性能峰值，必須采用全上下文提示方案，但該方案成本大幅上漲，開銷通常達到均衡場景的2倍以上，收益遞減特征十分明顯。

基于框架可量化不同場景下的效率提升效果：

? 均衡場景中，復用次數從N=1提升至N=100，最優方案從問答優化版TF-IDF（有效詞元數566）切換為內存壓縮（有效詞元數424），在F1值穩定為0.78的前提下，綜合開銷降低約25%。

? 高性能場景（F1≥0.82）必須使用全上下文提示，但其開銷顯著偏高：達到實驗最高性能時，詞元用量是均衡場景最優配置的2倍以上，充分體現高性能區間的收益遞減規律。

本次實驗的具體閾值基于HotpotQA數據集得出，但不同效率區間、策略切換邊界是由成本-性能的固有制衡關系決定，對于具備相似上下文特征的任務，該規律均具備通用性。

4.3 實驗結論與工程啟示

1. 統一評估框架不可或缺

所有參數配置的測試結果表明，性能與token開銷呈強非線性關系。小幅提升性能，往往需要大幅增加計算量。

例如性能從中等水平（F1≈0.78）提升至高水平（F1≈0.84）， token 用量翻倍。若單獨評估性能或成本，會忽略部署場景帶來的取舍關系，得出片面結論。

本文提出的效率指標可實現一體化評估，支撐各類競爭策略的公平對比與科學決策。

2. 實現系統級效率躍升

結合部署場景選擇適配策略，可大幅提升系統整體效率。本實驗中，均衡場景下復用次數從N=1提升至N=100，策略切換后詞元用量降低約25%；在均衡場景上限附近（F1≈0.80），策略從全上下文提示切換為內存壓縮后，綜合開銷降幅超50%。這類效率提升并非來自單一策略的算法優化，而是在對應場景下選擇最優方案帶來的成果。

3. 策略選擇必須貼合部署場景

不存在適用于所有場景的萬能策略。成本優先場景優選輕量檢索方案；內容高頻復用時，內存壓縮等預處理類方案優勢顯著；追求性能峰值時，即便成本高昂，也必須使用全上下文提示。這說明評估與選型必須納入內容復用、性能目標等部署要素。

4. 落地使用指導

本框架支持兩種應用模式：一是遍歷偏好權重w，連續分析性能與成本的制衡關系；二是依托決策對照表，根據目標性能直接匹配最優策略，可無縫融入系統設計與部署流程。

5. 助力人工智能可持續發展

該框架能夠系統性削減無效計算量，為大規模大語言模型實現高效、可持續部署提供可行路徑。摒棄盲目擴充上下文的思路，針對性優化上下文使用方式，可在保障任務性能的同時降低計算開銷。

五、結論

本文提出效率前沿統一框架，用于在明確性能-成本制衡關系的前提下，評估大語言模型的各類上下文管理策略。

該框架不再將準確率與計算效率作為兩個獨立目標，而是將策略選擇定義為面向部署場景的決策問題，綜合考量任務性能、推理開銷與預處理復用帶來的平攤收益。

基于HotpotQA數據集的多組實驗，總結出三條通用規律：

第一，性能與計算成本呈強非線性關系，性能小幅提升往往需要詞元用量大幅增加；

第二，沒有通用最優的上下文管理策略，效率優先場景以輕量檢索為主，高復用場景下內存壓縮等預處理方案更具優勢；

第三，全上下文提示是達到性能峰值的必要選擇，但其計算成本過高，收益遞減現象突出。

本研究彌補了現有上下文精簡技術評估體系的多項缺陷：

一是構建了同時兼顧性能與成本的統一優化目標；

二是明確了不同策略之間的實際切換臨界點；

三是結合內容復用特征、性能目標，給出貼合部署場景的選型建議。

依托復用參數N實現預處理成本平攤建模，本框架還覆蓋了現有基準測試常忽略的真實場景，例如持久化內存系統、共享檢索鏈路、多請求并發推理等。

該框架兼具學術價值與工程落地價值。

在科研領域，效率前沿提供了標準化評測體系，可在統一決策邏輯下對比各類異構上下文管理技術，讓新型大語言模型優化算法的評測結果更具備可復現性、更貼合實際部署需求。

在產業領域，該框架可結合時延預算、token成本上限、請求復用特征等運行約束，完成系統級策略優化。

實驗證明，結合部署場景選型，中等性能區間可在性能持平的前提下將有效詞元用量降低約25%；高復用場景下，相較于全上下文基線方案，開銷降幅可超50%。上述優化無需擴容模型、額外訓練，僅通過優化上下文使用方式即可實現。

放眼長遠，該框架也為構建可持續的大規模人工智能系統提供支撐。

隨著大語言模型在企業、科研、公共服務領域不斷普及，計算效率不僅關系使用成本，更影響基礎設施擴容與生態環保。效率前沿框架引導行業從“一味拉長上下文”轉向“精細化利用上下文”，具備重要指導意義。

未來可從多個方向開展延伸研究：

第一，將框架從問答任務拓展至智能體內存、代碼生成、文檔推理、對話助手等各類長上下文任務；

第二，在優化目標中加入推理時延、能耗、硬件利用率、資金成本等更多系統指標；

第三，優化現有效用函數，采用自適應、可學習的偏好模型，適配不同業務的個性化部署需求；

第四，結合領域知識、定制化優化目標改進檢索與壓縮技術，進一步提升上下文管理效果。已有領域自適應表征學習相關研究證實，定制化隱空間建模與優化目標，能夠提升表征保真度，挖掘高維系統中的復雜關聯特征。

綜上，本文提出的效率前沿框架，為大語言模型上下文利用率的部署導向型優化，奠定了理論與實踐基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.