警惕！大模型成本倒掛：你正在為模型的多余「思考」買單

2026-04-14 15:27:56　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在選擇使用大模型 (LLM) 時(shí)，除了模型性能強(qiáng)弱，價(jià)格也是一個(gè)重要指標(biāo)。人們通常會用大模型的 API 定價(jià)更貴或更便宜，來比較模型的價(jià)格高低。但事實(shí)上，定價(jià)低的模型真的比定價(jià)高的模型使用起來更便宜嗎？

如今，一項(xiàng)來自斯坦福、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)和微軟研究院的研究，揭示了 AI 模型中的價(jià)格倒掛現(xiàn)象：低定價(jià)的 AI 模型，反而有可能產(chǎn)生更高的實(shí)際開銷！

論文標(biāo)題：The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
論文地址：https://arxiv.org/abs/2603.23971

圖 1 給出了主流模型的定價(jià)和它們在實(shí)際任務(wù)上的開銷。

圖 1: 左圖展示了模型定價(jià)和實(shí)際花銷的關(guān)系，右圖給主流模型定價(jià)和實(shí)際價(jià)格各自排序。揭示了價(jià)格倒掛現(xiàn)象：低定價(jià)的模型反而產(chǎn)生了更高的實(shí)際開銷。

GPT-5.2 的 API 定價(jià)是 Gemini 3 Flash 的 4.5 倍，但其實(shí)際成本僅為 Gemini 3 Flash 的 81%。類似地，Claude Opus 4.6 的 API 定價(jià)是 Google Gemini 3.1 Pro 的兩倍，但其實(shí)際成本卻低了 35%。

這到底是怎么回事？今天，我們就一起探討這項(xiàng)研究。

AI 模型開銷的審計(jì)框架

為了精準(zhǔn)刻畫 AI 模型的實(shí)際開銷，研究聚焦于 8 個(gè)廣泛使用的前沿推理模型，包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務(wù)則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個(gè)主流數(shù)據(jù)集。

前沿模型通常采用按量付費(fèi)的定價(jià)機(jī)制，即用戶為發(fā)送的每個(gè)查詢分別付費(fèi)。

這種定價(jià)機(jī)制對于給定模型通常涉及兩個(gè)組成部分：每單位輸入 token 的價(jià)格，以及每單位輸出 token 的價(jià)格。對于給定查詢，成本是兩個(gè)價(jià)格按提示 token 數(shù)和輸出 token 數(shù)加權(quán)的總和。（為了便于理解，下文中的討論都使用平均加權(quán)。對更多不同加權(quán)情況感興趣的話，可以在互動網(wǎng)站上嘗試：https://price-reversal.streamlit.app/）

AI 模型的成本倒掛現(xiàn)象

圖 2: 實(shí)際成本排名在不同任務(wù)之間存在顯著差異。

測試發(fā)現(xiàn)：定價(jià)排名與實(shí)際成本排名的巨大反差，且這樣的價(jià)格逆轉(zhuǎn)是普遍存在的。根據(jù)固定標(biāo)價(jià) API 定價(jià)進(jìn)行的標(biāo)準(zhǔn)評估是具有誤導(dǎo)性的。

例如，Gemini 3 Flash 的標(biāo)價(jià)（$3.5）僅為 GPT-5.2 價(jià)格（$15.75）的 22%，但其在 MMLUPro 上的實(shí)際成本實(shí)際上是后者的六倍（見圖2）！

根據(jù) API 標(biāo)價(jià)，Gemini 3 Flash 是第三便宜的模型，但它在 MMLUPro 上是最昂貴的。其實(shí)際成本幾乎是 Gemini 3.1 Pro 的兩倍。

為量化價(jià)格逆轉(zhuǎn)的普遍程度，研究人員檢查了所有 8 個(gè)模型組成的 28 個(gè)模型對，在 9 項(xiàng)任務(wù)上的表現(xiàn)，共產(chǎn)生 252 次成對成本比較，其中21.8%（55 次）比較表現(xiàn)出價(jià)格逆轉(zhuǎn)。

這意味著，僅基于標(biāo)價(jià)的成本判斷中，大約每五次就有一次是錯誤的。同時(shí)模型的相對成本排序高度依賴于任務(wù)。一個(gè)在某個(gè)數(shù)據(jù)集上便宜的的模型可能在另一個(gè)數(shù)據(jù)集上成為最昂貴的之一。

為什么會出現(xiàn)倒掛現(xiàn)象？

我們先來介紹一個(gè)有趣的現(xiàn)象：一個(gè)富人和窮人同時(shí)購買靴子。富人花費(fèi)了 100 元購買了一雙好靴子，而窮人為了省錢，只能支付 15 元購買了壞靴子。好靴子可以使用 10 年，而壞靴子只能使用 1 年。結(jié)果，窮人不得不每年購買一雙壞靴子。一個(gè)悖論就此出現(xiàn)了：窮人為了省錢購買了便宜的靴子，但卻花費(fèi)了更多的錢。這就是社會經(jīng)濟(jì)學(xué)中著名的靴子理論（Boots Theory）：看上去價(jià)格便宜的商品，有可能帶來更高的總成本。

研究發(fā)現(xiàn)有些 AI 模型也出現(xiàn)了類似的 “靴子現(xiàn)象”, 問題的關(guān)鍵是推理 token。

圖 3:圖中展示了模型真實(shí)價(jià)格的具體拆分：輸入、推理、輸出。不同模型在相同任務(wù)上消耗的推理token 數(shù)量差異巨大。

首先，推理 token 是模型開銷的主要來源。如圖 3 所示，在模型的開銷里，輸入的 prompt 和輸出的最終結(jié)果通常只消耗總成本的 10% 不到，而大部分的開銷都來自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導(dǎo)的成本組成部分。其次，不同模型的推理 token 的數(shù)量差距極大！例如，Gemini 3 Flash 所生成的推理 token，是 GPT-5.2 的將近 10 倍。

圖 4: 在同一道 AIME 題目上，GPT-5.2 使用 562 個(gè)思考 token，而 Gemini 3 Flash 使用超過 11,000 個(gè)，導(dǎo)致實(shí)際成本高出 2.5 倍。

圖 4 給出了一個(gè)具體的例子。給定同一道 AIME 2025 題目，GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣，最終的思路也大致相同。然而，得到這一思路和答案的過程卻大相徑庭：GPT-5.2 僅僅使用約五百個(gè) token 就完成了思考，而 Gemini Flash 卻需要超過一萬個(gè) token。這揭示了開銷逆轉(zhuǎn)的本質(zhì)來源于思考 token 數(shù)量的巨大差距。

圖 5: 從實(shí)際成本計(jì)算中去除思考 token 成本。(a) 標(biāo)價(jià)排名與實(shí)際成本排名之間的相關(guān)性在所有任務(wù)中均顯著提高。(b) 成對排名逆轉(zhuǎn)數(shù)平均減少 70%。

事實(shí)上，去掉思考 token 可以使得實(shí)際開銷和模型定價(jià)保持高度一致。如圖 5 所示，去除思考 token 成本顯著恢復(fù)了所有 9 項(xiàng)任務(wù)的排名一致性，并且使得排名逆轉(zhuǎn)的數(shù)量減少了 70%。這進(jìn)一步驗(yàn)證了思考 token 才是成本倒掛的隱藏殺手。

我們可以直接預(yù)測任務(wù)成本嗎？

圖 6: 實(shí)際開銷的不可預(yù)測性。對每一個(gè) AIME 數(shù)據(jù)集上的任務(wù)跑 5 次所產(chǎn)生的推理 token 數(shù)量。對于固定的任務(wù)和固定的模型，多次實(shí)驗(yàn)所產(chǎn)生的 token 數(shù)，也有著巨大的差異。這意味著推理 token 數(shù)量本身就是不可預(yù)測的。

既然定價(jià)不能準(zhǔn)確反映實(shí)際開銷，我們是否可以直接預(yù)測實(shí)際開銷呢？

實(shí)踐表明：實(shí)際開銷其實(shí)是一個(gè)高度不可預(yù)測的量！

如圖 5 所示，研究人員在數(shù)學(xué)競賽數(shù)據(jù)集上多次運(yùn)行同一個(gè)模型，發(fā)現(xiàn)它們的推理 token 的數(shù)量差距巨大。例如，對第 6 個(gè)任務(wù)，GPT-5.2 的推理 token 數(shù)最大可達(dá)五萬，最低只需 2 萬，達(dá)到了 2.5 倍的差距。這就意味著，推理 token 數(shù)本身帶有巨大的隨機(jī)性，因此，推理 token 數(shù)具有高度的不確定性和不可預(yù)測性，從而讓實(shí)際開銷的預(yù)測變得極為困難。

結(jié)論

這一研究發(fā)現(xiàn)了AI 模型領(lǐng)域的靴子現(xiàn)象：定價(jià)更低的模型反而可能帶來更高的實(shí)際開銷。同時(shí)，它又指出了實(shí)際開銷的不確定性和不可預(yù)測性。這表明，要選取物美價(jià)廉的 AI 模型，并不是看看價(jià)目表就夠了。

作者們還開源了使用的數(shù)據(jù)，提供了一個(gè)可互動的網(wǎng)站，為后續(xù)研究提供了基礎(chǔ)。

數(shù)據(jù)：https://github.com/lchen001/pricing-reversal
網(wǎng)站：https://price-reversal.streamlit.app/

作者介紹

本文由來自斯坦福大學(xué)、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica，Matei Zaharia，James Zou 等 6 位作者完成。

Lingjiao Chen，斯坦福大學(xué)博士，微軟研究院資深研究員。
Chi Zhang，卡耐基梅隆大學(xué)博士。
Yeye He，微軟研究院首席研究員。
Ion Stoica，加州伯克利大學(xué)教授，美國工程院院士，Databricks 創(chuàng)始人兼主席。
Matei Zaharia，加州伯克利大學(xué)教授，Databricks 創(chuàng)始人兼首席技術(shù)官。
James Zou，斯坦福大學(xué)教授。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.