網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Token買(mǎi)賣(mài)的水，比韭菜地還深

2026-05-30 06:42:38　來(lái)源: 碼上閑敘

北京舉報(bào)

分享至

開(kāi)場(chǎng)：同款模型，智商差距從哪來(lái)？

今年以來(lái)，用AI的人明顯分成了兩個(gè)陣營(yíng)。一邊是網(wǎng)上大神，把DeepSeek V4用得像請(qǐng)了個(gè)專(zhuān)家顧問(wèn)，另一邊是普通用戶(hù)，感覺(jué)自己招了個(gè)事事要反復(fù)交代的實(shí)習(xí)生。部署Agent也是，有人分分鐘搞定，有人卡在模型參數(shù)不適配、協(xié)議格式不兼容的bug里出不來(lái)。咬咬牙買(mǎi)了服務(wù)商套餐圖個(gè)省心，結(jié)果對(duì)方承諾99.9%可用，到自己這兒?jiǎn)杺€(gè)問(wèn)題要等好幾分鐘才回復(fù)。很多人開(kāi)始自我懷疑：是不是提示詞寫(xiě)得不夠好？功能開(kāi)發(fā)不到位？上下文管理沒(méi)學(xué)透？

這些確實(shí)重要，但背后可能藏著一層更深的行業(yè)潛規(guī)則。

減配模型：你買(mǎi)的不是原版

清程極智聯(lián)合創(chuàng)始人師天麾博士，近日在中科創(chuàng)星硬科技媒體行活動(dòng)中，拆解了一些服務(wù)商的慣用操作。他提到一個(gè)案例：一個(gè)新模型發(fā)布時(shí)，團(tuán)隊(duì)給幾十家部署服務(wù)商做了評(píng)測(cè)，發(fā)現(xiàn)有些服務(wù)商的模型明顯更“笨”。調(diào)查之后才明白，有廠家為了省成本，把原來(lái)FP8精度的模型，降級(jí)用INT4精度部署，效果自然打了折扣。更坑的是，這些減配模型在報(bào)價(jià)單里，關(guān)鍵指標(biāo)往往跟原廠模型長(zhǎng)得一模一樣，而至關(guān)重要的精度信息根本不寫(xiě)進(jìn)去。缺少評(píng)測(cè)能力的購(gòu)買(mǎi)者，壓根不知道自己買(mǎi)到的不是原版。

這也就解釋了為什么同款大模型，在不同渠道、不同場(chǎng)景下能出現(xiàn)懸殊的使用體驗(yàn)，甚至明顯“降智”。問(wèn)題指向的是隨著“Token經(jīng)濟(jì)”爆發(fā)而愈發(fā)壯大的Token服務(wù)商群體。他們的運(yùn)營(yíng)模式是采購(gòu)算力、部署大模型，然后把模型能力按Token計(jì)費(fèi)對(duì)外售賣(mài)。目前國(guó)內(nèi)Token服務(wù)商林立，除了自研模型的原廠，轉(zhuǎn)售三方模型的云廠商、靠API代理賺差價(jià)的代理商都在做這門(mén)生意，傳統(tǒng)電信運(yùn)營(yíng)商和專(zhuān)注模型部署調(diào)優(yōu)的創(chuàng)業(yè)公司也積極入局。攤子越鋪越大，競(jìng)爭(zhēng)越打越狠，“坑”也越挖越多，嚴(yán)重者無(wú)異于對(duì)購(gòu)買(mǎi)者的“詐騙”。

價(jià)格戰(zhàn)里的隱形消耗

師天麾透露，在Token還沒(méi)像現(xiàn)在這么緊缺的時(shí)候，服務(wù)商主要在價(jià)格上拼刺刀。同樣的模型，報(bào)價(jià)有高有低，有的企業(yè)為節(jié)約成本選了單價(jià)更低的服務(wù)商。但不少低價(jià)服務(wù)商在KV Cache命中率等方面存在明顯短板，耗費(fèi)大量Token卻根本拿不到理想的結(jié)果，最終總成本反而比高單價(jià)版本高出好幾倍。

除了模型質(zhì)量和價(jià)格，響應(yīng)速度上也有門(mén)道。在一些Token服務(wù)商提供的服務(wù)中，高達(dá)20%的請(qǐng)求會(huì)出現(xiàn)延遲異常，原本三五秒該返回的內(nèi)容，硬是拖到幾十甚至幾百秒。師天麾用“慢響應(yīng)”來(lái)總結(jié)這個(gè)現(xiàn)象，而承諾“99.9%可用”的廠商，依然會(huì)把明顯異常的延遲界定為“可用”，直接影響用戶(hù)體驗(yàn)。

清華大學(xué)計(jì)算機(jī)系教授翟季冬給出的一組數(shù)據(jù)更直觀：部分服務(wù)商的慢響應(yīng)比例接近20%，意味著每五次服務(wù)就有一次出問(wèn)題。大多數(shù)服務(wù)商的慢響應(yīng)比例也高于1%，對(duì)于需要快速、穩(wěn)定響應(yīng)的場(chǎng)景來(lái)說(shuō)，仍然難令人滿(mǎn)意。師天麾觀察到一個(gè)更嚴(yán)峻的趨勢(shì)：慢響應(yīng)問(wèn)題并沒(méi)有隨著行業(yè)發(fā)展而緩解，當(dāng)前情況反而比去年末今年初還嚴(yán)重。這成了Token產(chǎn)業(yè)迅猛增長(zhǎng)，但供給側(cè)魚(yú)龍混雜、指標(biāo)混亂、服務(wù)質(zhì)量參差不齊的一個(gè)縮影。

Token大爆發(fā)，供需開(kāi)始打架

Token迎來(lái)了自己的大時(shí)代，沖擊也遠(yuǎn)勝以往。師天麾對(duì)作者分析，慢響應(yīng)等問(wèn)題之所以愈發(fā)嚴(yán)重，本質(zhì)上還是供需不平衡。一個(gè)標(biāo)志性事件，就是以“龍蝦OpenClaw”為代表的Agent大火。它帶來(lái)的最大區(qū)別，是個(gè)人的Token使用量大幅增長(zhǎng)。“去年普通人用AI，主要還是跟豆包、元寶聊個(gè)天，這不怎么燒Token。但‘龍蝦’出現(xiàn)后，又是多輪對(duì)話，又是長(zhǎng)上下文，Token就燒得非常快。”他解釋。

用AI的人變多了，而AI Agent需要的Token也越來(lái)越多，需求側(cè)迅速膨脹。二季度以來(lái)，此前連準(zhǔn)確翻譯都難有共識(shí)的專(zhuān)業(yè)詞匯Token加速破圈，“Token短缺焦慮”“Token太貴”頻頻引發(fā)熱議。中信證券此前研報(bào)指出，今年4月OpenRouter平臺(tái)周度累計(jì)Token消耗量同比提升了7倍有余。根據(jù)國(guó)家數(shù)據(jù)局統(tǒng)計(jì)，截至今年3月，中國(guó)日均Token調(diào)用量已突破140萬(wàn)億，兩年增長(zhǎng)1400倍，相較2025年底也高出至少40%。而今年3月，正是“龍蝦熱”在國(guó)內(nèi)最紅火的時(shí)候。

與此同時(shí)，供給側(cè)算力增長(zhǎng)有限，遠(yuǎn)遠(yuǎn)跟不上需求增速。這不僅導(dǎo)致模型和相關(guān)服務(wù)開(kāi)始漲價(jià)，也讓前文所述的亂象扎堆冒頭，部分服務(wù)商的Token服務(wù)質(zhì)量不升反降，使用者越來(lái)越容易“踩坑”。4月中旬，OpenRouter統(tǒng)計(jì)的中國(guó)AI大模型周調(diào)用量曾連續(xù)下滑，并被美國(guó)反超，其中調(diào)用成本高、服務(wù)質(zhì)量不穩(wěn)定被視為重要影響因素。雖然4月末DeepSeek V4發(fā)布并持續(xù)優(yōu)惠、降價(jià)后，國(guó)產(chǎn)大模型調(diào)用量再次上升，但供需問(wèn)題仍未得到實(shí)質(zhì)性解決，Token服務(wù)質(zhì)量亦未見(jiàn)明顯提升。AI產(chǎn)業(yè)仍在向前狂奔，隱憂并未消散。

避坑：讓價(jià)格和效果透明起來(lái)

行業(yè)正在想辦法。在提升Token服務(wù)質(zhì)量方面，目前的努力方向主要集中在“可視化”和“透明化”上。第三方可構(gòu)建智能路由實(shí)行統(tǒng)一調(diào)度，企業(yè)端可在現(xiàn)有API網(wǎng)關(guān)之上構(gòu)建一層企業(yè)級(jí)AI網(wǎng)關(guān)，開(kāi)發(fā)團(tuán)隊(duì)也可自建評(píng)測(cè)與開(kāi)源工具。行業(yè)中已有相關(guān)案例，核心都是讓Token的價(jià)格、效果更加透明可見(jiàn)。

師天麾所在的清程極智近期推出的AI Ping平臺(tái)就屬于第一類(lèi)。根據(jù)產(chǎn)品介紹，AI Ping是一站式大模型服務(wù)評(píng)測(cè)與API智能路由平臺(tái)，主要功能是信息匯總、客觀評(píng)測(cè)和智能路由。目前接入了30余家主流Token服務(wù)商和600余個(gè)大模型服務(wù)，監(jiān)測(cè)的核心指標(biāo)包括實(shí)時(shí)輸出延遲、吞吐、可靠性、價(jià)格等。在測(cè)評(píng)之外，智能路由負(fù)責(zé)Token調(diào)度，能夠以統(tǒng)一API接口為用戶(hù)自動(dòng)匹配最優(yōu)服務(wù)商，完成一鍵調(diào)用。公司稱(chēng)，相關(guān)功能目前能實(shí)現(xiàn)成本降低超37%，吞吐提升超90%，延遲降低超20%。實(shí)際上，這讓相關(guān)平臺(tái)也具備了Token服務(wù)商的角色。

師天麾對(duì)作者介紹，AI Ping既能服務(wù)開(kāi)發(fā)者，在To B端的營(yíng)收也很可觀。長(zhǎng)期來(lái)看，公司希望更靠近中小企業(yè)和普通開(kāi)發(fā)者，因?yàn)榇髲S往往有強(qiáng)大的評(píng)測(cè)和采購(gòu)團(tuán)隊(duì)，可以逐一測(cè)試幾十家服務(wù)商，但對(duì)其他群體來(lái)說(shuō)幾乎不可能做到，這也成了公司產(chǎn)品最能發(fā)揮作用的領(lǐng)域。據(jù)悉，清程極智成立于2023年12月，是AI Infra領(lǐng)域初創(chuàng)公司，核心團(tuán)隊(duì)來(lái)自清華大學(xué)計(jì)算機(jī)系高性能計(jì)算所，目前已完成天使輪、PreA、PreA+三輪融資，除中科創(chuàng)星、聯(lián)想創(chuàng)投等機(jī)構(gòu)外，同為“清華系”的AI明星上市公司智譜亦參與投資。

在Token產(chǎn)業(yè)維度，該公司還強(qiáng)調(diào)，長(zhǎng)期來(lái)看，解決供需問(wèn)題還需聚焦國(guó)產(chǎn)算力、國(guó)產(chǎn)模型的發(fā)展與協(xié)同，解決諸如國(guó)產(chǎn)推理環(huán)節(jié)長(zhǎng)期依賴(lài)海外引擎、難以充分釋放國(guó)產(chǎn)硬件性能等問(wèn)題。這與其另一項(xiàng)主要業(yè)務(wù)相關(guān)。該公司的赤兔推理引擎主打“完全自主研發(fā)的國(guó)產(chǎn)推理引擎”，聯(lián)合創(chuàng)始人唐適之稱(chēng)，海外推理引擎用在國(guó)產(chǎn)算力上，如同“把西式烤面包的技術(shù)直接用來(lái)蒸饅頭”，其中必然存在不適配問(wèn)題，影響最終效果。而國(guó)產(chǎn)推理引擎能在居中的AI Infra層解決問(wèn)題，提升國(guó)產(chǎn)算力在模型部署中的效率和精度，從根上解決“模型變笨”等問(wèn)題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.