網易首頁 > 網易號 > 正文申請入駐

最強Claude比黃金還貴，有人用省token.skill 立降65%，還有10個小妙招

2026-04-09 10:07:48　來源: AppSo

廣東舉報

分享至

也是史上最貴的。25/125 美元每輸入/輸出百萬 Token，作為對比，Claude Sonnet 4.6 的價格是 3/15 美元——貴了將近 8 倍。

而這還只是 API 價格。Mythos 目前根本沒有對普通用戶開放，因為能力太強，Anthropic 自己都沒想好怎么給我們用。

最強，也最貴。這兩件事放在一起，某種程度上已經預示了接下來的走向：模型越來越聰明，Token 越來越值錢，我們跟 AI 說話的成本，也越來越高。

但眼下的問題還不用等到 Mythos。就是普通的 Agent，甚至是對話聊天，在各種 Skill、記憶系統的加持下，發一句「你好」，都有可能用掉 13% 的月度 Token 額度。

Reddit 討論帖鏈接：https://www.reddit.com/r/Anthropic/comments/1s8wwra/13_usage_for_one_hello_is_insane_max20_plan/

AI 是越來越聰明，但我們可能快要跟它「說不起話」了。怎么節省 Token 成了這段時間以來，社交媒體上熱議的話題。

有人提出用文言文的方式和 AI 聊天，畢竟古人說話字斟句酌，沒有半點廢話；還有人想到在不同的模型之間快速切換，用聰明的 Claude 指定策略、Gemini 進行深度研究、然后 ChatGPT 來完成枯燥的流程工作。

這種感覺很像回到了 2000 年還沒有數據流量的時候，用手機短信和朋友聊天，0.1 元/條，每條短信還有字數限制，超過字數會自動計算為兩條短信，所以一定得事先組織好語言，把要講的事情在一條短信內說清楚。

回到大模型，在對話框里每按一次發送，一邊要擔心上下文窗口有限，一邊也在想這次又要花掉我多少 Token。

當個山頂洞人，回到石器時代

以文言相與，觀若用字更少，然其實果更省乎？

前段時間，有網友在 X 上發梗圖討論用文言文，是不是能減少 Token 的使用。畢竟文言文相比白話文，用的字更少，把我們的語言都壓縮成「之乎者也」的表達，所消耗的 token 按理說也會更少。

評論區都在調侃，這是在用人腦的 Token 來彌補 AI Token。

我們的大腦編譯文言文不用花錢，消耗再多 Token 倒也無所謂；但真實的情況是，消耗了腦力，寫出了像模像樣的文言文，最后并沒有減少 Token 的使用。

對于大語言模型來說，越常用的詞占用的 Token 越少，它并不是按照文字的長短來定義數量，而是依據語義進行劃分。

就像下面的例子，一開始使用文言文只有 21 個字符，但是 Token 數也是 20，切換到白話文，字符數來到 31 個，Token 數依然是 21。

Token 計算：https://platform.openai.com/tokenizer

更離譜的是，我們之前分享過的 GPT-4o 詞元污染，輸入一串 8 個字符的短語，在 AI 大模型眼里只占用了 1 個 Token。而對于一些非常用字，例如「無恙」，ChatGPT 會將其編碼成 3 個 token，因為「恙」會變成亂碼。

文言文不行，又有開發者提出回到石器時代，用穴居人的方式和 AI「對話」。

一個名叫 caveman 的項目這幾天在 GitHub 上走紅，和用文言文玩梗不同，這個項目實打實地做了一些測試，并給出了可以復現的 benchmark。

在展示的多項基準任務里面，使用 Cavemen 項目之后，能節省約 65% 的 Token，同時能保證輸出內容的 100% 準確。

測試結果顯示，在標準軟件工程任務上，平均壓縮率達到 65%，而且推理令牌不受影響，只有輸出有效載荷被壓縮。項目鏈接：https://github.com/JuliusBrussee/caveman

具體的做法是通過一個 Skill 來實現，它會在發送給大模型的請求中，強制加入特定的角色設定和指令，從源頭上阻止模型講廢話。

它會要求模型停止使用客套話（如「Sure I'd be happy to」）、去除冠詞（a, an, the）以及避免使用模棱兩可的詞匯（如「It might be worth considering」）。

同時，它也要求模型必須保留代碼塊、錯誤信息和專業技術術語的原樣。

而關于深度思考方面，Caveman 只會影響輸出 Token，模型尋找 Bug、梳理邏輯的內部推理過程依然是完整且龐大的。當模型結束思考，準備「開口」給我們解釋時，它受到了 caveman 指令的約束，只用最少的輸出 Token 把結論輸出。

除了讓模型「說山頂洞人的話」來節省輸出 Token，這個項目還提供了一個 caveman-compress 腳本來讓模型「少閱讀」。

它可以將我們的項目記憶文件（如 CLAUDE.md）預先重寫并壓縮成「山頂洞人語版本」。這樣一來，每次我們開啟新會話時，大模型需要讀取的輸入 Token (Input Tokens) ，經過測試減少了約 45%，實現了輸入和輸出的雙重節省。

目前這個項目在 GitHub 上已經拿下了快有 6000 個 Stars。然后很快又有網友給出了「山頂洞人-壓縮版」，通過進一步壓縮 Caveman 項目的輸入來減少 Token。

Caveman 的開發者在項目說明文檔里面提到，使用山頂洞人的模式是有科學依據的，他提到了今年 3 月的一篇名為《Brevity Constraints Reverse Performance Hierarchies in Language Models》（簡短約束逆轉了語言模型的性能層級）的論文。

研究發現，大模型的客套話和長篇大論有時是一種 debuff。強制大型模型給出簡短的回復，不僅沒有讓它變笨，反而使其在某些基準測試上的準確率提高了 26 個百分點。

簡潔性的約束消除了反向規模效應。（A）三個條件下的表現顯示，在簡潔性約束下，大模型顯著提升（控制組：40.2% → 簡潔組：66.5%，+26.3 個百分點）。（B）差距縮小在不同數據集上有所變化，在 GSM8K 和 MMLU-STEM 中甚至出現完全反轉，在簡潔條件下大模型表現更優。（C）響應長度驗證確認該干預成功操控了冗長度（控制組：197 個 token → 簡潔組：78 個 token，減少 60%），從而建立了過度思考與性能下降之間的因果聯系。論文鏈接：https://arxiv.org/abs/2604.00025

去年，視頻會議公司 Zoom 也發布了一篇論文，《Chain of Draft: Thinking Faster by Writing Less》（草稿鏈：通過少寫來更快思考），提出了一種全新的大語言模型推理策略，解決了現有方法中太啰嗦且成本高的問題。

傳統的思維鏈（Chain-of-Thought, CoT）雖然能幫助大模型通過分步推理來解決復雜任務，但這種方法要求模型在給出最終答案前生成大量詳細的中間步驟。這導致了極高的計算資源消耗、更長的輸出長度以及更高的延遲。

我們人類在解決復雜問題，如數學題或寫代碼時，通常不會把所有思考細節都長篇大論地寫下來。我們習慣于只記錄簡短的「草稿」或核心信息來推進思考。

論文也是受此啟發，希望讓大模型也模仿這種高效、極簡的策略。作者提出了 CoD（草稿思維鏈）。

在提示詞設計上，CoD 同樣要求模型一步一步地思考，但做了一個關鍵限制：每個推理步驟只保留最精簡的草稿，最多不超過 5 個詞。

例如，在解決簡單的數學應用題時，CoT 可能會輸出幾段完整的句子來描述題意，而 CoD 只需要模型輸出類似 x=20-12=8 這樣最核心的公式即可。

比較 Claude 3.5 Sonnet 在三種不同提示策略下（直接回答（Standard）、思維鏈（CoT）和草稿鏈（CoD））在不同任務中的準確性和令牌使用情況。CoD 在實現與 CoT 相似準確性的同時，使用的令牌數量顯著更少。論文鏈接：https://arxiv.org/abs/2502.18600

結果，CoD 在保持甚至超越 CoT 準確率的同時，消耗的 Token 數量大幅減少，最低僅為 CoT 的 7.6%。

兩個研究，都是通過 Skill 或提示詞的方式，來強制限制模型的輸出長度。CoD 的提示詞同樣直接，要求模型，「一步一步思考，但每個思考步驟只保留最少的草稿，最多 5 個詞」。

更實用的十個 Token 節省方案

除了使用 Caveman 的 Skill，有網友還總結了更完整的節省 Token 十大訣竅。

1、在已發送的消息上修改，而不是另發一條消息

當 AI 回答不符合我們的預期時，盡量不要發一條「不對，我是指……」來跟進。

因為每發一條新消息，大模型都要把前面的所有聊天記錄重新讀一遍，導致 Token 消耗成倍翻滾。正確的做法是：直接點擊原消息的「編輯」按鈕，修改提示詞，然后重新生成。

消息越多，消耗的 token 也越多。原文來源：https://x.com/0x\_kaize/status/2038286026284667239

2、每 15–20 條消息就開啟一個新對話

長對話是 Token 的無底洞，在一百多條消息的對話中，可能有 98.5% 的 Token 都浪費在讓 AI 重讀歷史記錄上。

當對話變長時，我們可以讓 AI 先總結一下當前進度，然后拿著這段總結去開一個新的對話。

3、將所有問題都集中到一個消息里面發送

不要把「總結這篇文章」、「列出這篇文章的要點」、「給這篇文章想個標題」分成三條消息發送。

把它們合并成一段完整的提示詞，不僅能減少系統加載上下文的次數，還能讓 AI 因為看到了全貌而給出更高質量的回答。

4、把反復使用的文件上傳到 Projects 中

如果我們在多個聊天窗口里反復上傳同一份長文檔，每次上傳都會重新消耗大量的 Token。

這個時候我們可以利用 Projects 的緩存功能，文件只需上傳一次，后續在這個項目里怎么問關于這份文件的內容，都不會再重復燒 Token 了。

5、提前設置好「記憶」與用戶偏好

大多數時候，我們會按照以前的提示詞技巧，在發每次開新對話時，都會「浪費額度」去寫「現在你是一個文案策劃，用輕松的語氣寫……」。

現在 AI 都有用戶偏好和記憶功能，我們可以把職業、行文風格、項目信息等偏好保存在設置里，它就會自動生效，幫我們省下大量重復交代背景的 Token。

6、關掉不需要的附加功能

聯網搜索（Web search）和高級思考（Advanced Thinking）等功能只要開著，每一輪都會額外消耗 Token。

除非我們對初步的回答不滿意，或者明確需要這些功能，平時在簡單地聊天時，可以關閉這些附加功能。

7、用不同的模型解決不同的問題

一些簡單的任務，像檢查語法、簡單排版、快速翻譯這些基礎活，完全可以使用成本最低的 Haiku 模型。把節省下來 50%–70% 的額度，留給那些真正需要深度思考的復雜任務，交給 Sonnet 或 Opus。

8、把工作分散到全天的不同時段

Claude 的使用限制是基于「滾動 5 小時」窗口來計算的，而不是半夜統一清零。

如果我們早上把額度耗光了，下午就會很難受。建議把工作分成早、中、晚幾個時段，這樣額度會不斷自動恢復。

9、盡量避開高峰時段

從 2026 年 3 月 26 日開始，如果在工作日的高峰期（太平洋時間早上 5 點到 11 點）使用，同樣的請求會更快地消耗限額。如果把重度耗費算力的任務挪到非高峰期（比如晚上或周末），額度會經用得多。

這是基于 Claude 之前推出的錯峰雙倍福利，一方面是 Anthropic 的尖峰服務器壓力大，給一些福利希望用戶在平谷時候使用 Claude，另一方面也確實給北京時間的用戶實實在在的優惠。

目前在 Cursor 等應用內使用大模型，有時候還是會碰到請求過多的提示，尤其是在晚上的時間。

10、開啟超額使用 (Extra Usage)作為安全網

如果是 Claude 付費用戶，可以在設置里開啟超額功能并設定預算上限。

這個方法雖然不省 Token，但可以保證當我們的額度耗盡時，系統會自動切換到按量計費，防止在十萬火急的工作關頭突然被強制阻斷。

無論是靠 Skills 還是我們自己調整提示詞，這些方案的底層邏輯都是要減少毫無意義的上下文重讀。從千禧年按字算錢的短信，到如今按 Token 計費的大模型，人類追求溝通效率的本質其實從未改變。

在使用 AI 的過程中，逐漸養成這些習慣，用「山頂洞人」的語言，只說重點，把 Token 用在刀刃上，或許是這個 Token 堪比真金白銀的時代，最頂級的提示詞技巧。

Less is More.

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.