開(kāi)場(chǎng):同款模型,智商差距從哪來(lái)?
今年以來(lái),用AI的人明顯分成了兩個(gè)陣營(yíng)。一邊是網(wǎng)上大神,把DeepSeek V4用得像請(qǐng)了個(gè)專(zhuān)家顧問(wèn),另一邊是普通用戶(hù),感覺(jué)自己招了個(gè)事事要反復(fù)交代的實(shí)習(xí)生。部署Agent也是,有人分分鐘搞定,有人卡在模型參數(shù)不適配、協(xié)議格式不兼容的bug里出不來(lái)。咬咬牙買(mǎi)了服務(wù)商套餐圖個(gè)省心,結(jié)果對(duì)方承諾99.9%可用,到自己這兒?jiǎn)杺€(gè)問(wèn)題要等好幾分鐘才回復(fù)。很多人開(kāi)始自我懷疑:是不是提示詞寫(xiě)得不夠好?功能開(kāi)發(fā)不到位?上下文管理沒(méi)學(xué)透?
![]()
這些確實(shí)重要,但背后可能藏著一層更深的行業(yè)潛規(guī)則。
減配模型:你買(mǎi)的不是原版
清程極智聯(lián)合創(chuàng)始人師天麾博士,近日在中科創(chuàng)星硬科技媒體行活動(dòng)中,拆解了一些服務(wù)商的慣用操作。他提到一個(gè)案例:一個(gè)新模型發(fā)布時(shí),團(tuán)隊(duì)給幾十家部署服務(wù)商做了評(píng)測(cè),發(fā)現(xiàn)有些服務(wù)商的模型明顯更“笨”。調(diào)查之后才明白,有廠家為了省成本,把原來(lái)FP8精度的模型,降級(jí)用INT4精度部署,效果自然打了折扣。更坑的是,這些減配模型在報(bào)價(jià)單里,關(guān)鍵指標(biāo)往往跟原廠模型長(zhǎng)得一模一樣,而至關(guān)重要的精度信息根本不寫(xiě)進(jìn)去。缺少評(píng)測(cè)能力的購(gòu)買(mǎi)者,壓根不知道自己買(mǎi)到的不是原版。
這也就解釋了為什么同款大模型,在不同渠道、不同場(chǎng)景下能出現(xiàn)懸殊的使用體驗(yàn),甚至明顯“降智”。問(wèn)題指向的是隨著“Token經(jīng)濟(jì)”爆發(fā)而愈發(fā)壯大的Token服務(wù)商群體。他們的運(yùn)營(yíng)模式是采購(gòu)算力、部署大模型,然后把模型能力按Token計(jì)費(fèi)對(duì)外售賣(mài)。目前國(guó)內(nèi)Token服務(wù)商林立,除了自研模型的原廠,轉(zhuǎn)售三方模型的云廠商、靠API代理賺差價(jià)的代理商都在做這門(mén)生意,傳統(tǒng)電信運(yùn)營(yíng)商和專(zhuān)注模型部署調(diào)優(yōu)的創(chuàng)業(yè)公司也積極入局。攤子越鋪越大,競(jìng)爭(zhēng)越打越狠,“坑”也越挖越多,嚴(yán)重者無(wú)異于對(duì)購(gòu)買(mǎi)者的“詐騙”。
價(jià)格戰(zhàn)里的隱形消耗
師天麾透露,在Token還沒(méi)像現(xiàn)在這么緊缺的時(shí)候,服務(wù)商主要在價(jià)格上拼刺刀。同樣的模型,報(bào)價(jià)有高有低,有的企業(yè)為節(jié)約成本選了單價(jià)更低的服務(wù)商。但不少低價(jià)服務(wù)商在KV Cache命中率等方面存在明顯短板,耗費(fèi)大量Token卻根本拿不到理想的結(jié)果,最終總成本反而比高單價(jià)版本高出好幾倍。
除了模型質(zhì)量和價(jià)格,響應(yīng)速度上也有門(mén)道。在一些Token服務(wù)商提供的服務(wù)中,高達(dá)20%的請(qǐng)求會(huì)出現(xiàn)延遲異常,原本三五秒該返回的內(nèi)容,硬是拖到幾十甚至幾百秒。師天麾用“慢響應(yīng)”來(lái)總結(jié)這個(gè)現(xiàn)象,而承諾“99.9%可用”的廠商,依然會(huì)把明顯異常的延遲界定為“可用”,直接影響用戶(hù)體驗(yàn)。
清華大學(xué)計(jì)算機(jī)系教授翟季冬給出的一組數(shù)據(jù)更直觀:部分服務(wù)商的慢響應(yīng)比例接近20%,意味著每五次服務(wù)就有一次出問(wèn)題。大多數(shù)服務(wù)商的慢響應(yīng)比例也高于1%,對(duì)于需要快速、穩(wěn)定響應(yīng)的場(chǎng)景來(lái)說(shuō),仍然難令人滿(mǎn)意。師天麾觀察到一個(gè)更嚴(yán)峻的趨勢(shì):慢響應(yīng)問(wèn)題并沒(méi)有隨著行業(yè)發(fā)展而緩解,當(dāng)前情況反而比去年末今年初還嚴(yán)重。這成了Token產(chǎn)業(yè)迅猛增長(zhǎng),但供給側(cè)魚(yú)龍混雜、指標(biāo)混亂、服務(wù)質(zhì)量參差不齊的一個(gè)縮影。
Token大爆發(fā),供需開(kāi)始打架
Token迎來(lái)了自己的大時(shí)代,沖擊也遠(yuǎn)勝以往。師天麾對(duì)作者分析,慢響應(yīng)等問(wèn)題之所以愈發(fā)嚴(yán)重,本質(zhì)上還是供需不平衡。一個(gè)標(biāo)志性事件,就是以“龍蝦OpenClaw”為代表的Agent大火。它帶來(lái)的最大區(qū)別,是個(gè)人的Token使用量大幅增長(zhǎng)。“去年普通人用AI,主要還是跟豆包、元寶聊個(gè)天,這不怎么燒Token。但‘龍蝦’出現(xiàn)后,又是多輪對(duì)話,又是長(zhǎng)上下文,Token就燒得非常快。”他解釋。
用AI的人變多了,而AI Agent需要的Token也越來(lái)越多,需求側(cè)迅速膨脹。二季度以來(lái),此前連準(zhǔn)確翻譯都難有共識(shí)的專(zhuān)業(yè)詞匯Token加速破圈,“Token短缺焦慮”“Token太貴”頻頻引發(fā)熱議。中信證券此前研報(bào)指出,今年4月OpenRouter平臺(tái)周度累計(jì)Token消耗量同比提升了7倍有余。根據(jù)國(guó)家數(shù)據(jù)局統(tǒng)計(jì),截至今年3月,中國(guó)日均Token調(diào)用量已突破140萬(wàn)億,兩年增長(zhǎng)1400倍,相較2025年底也高出至少40%。而今年3月,正是“龍蝦熱”在國(guó)內(nèi)最紅火的時(shí)候。
與此同時(shí),供給側(cè)算力增長(zhǎng)有限,遠(yuǎn)遠(yuǎn)跟不上需求增速。這不僅導(dǎo)致模型和相關(guān)服務(wù)開(kāi)始漲價(jià),也讓前文所述的亂象扎堆冒頭,部分服務(wù)商的Token服務(wù)質(zhì)量不升反降,使用者越來(lái)越容易“踩坑”。4月中旬,OpenRouter統(tǒng)計(jì)的中國(guó)AI大模型周調(diào)用量曾連續(xù)下滑,并被美國(guó)反超,其中調(diào)用成本高、服務(wù)質(zhì)量不穩(wěn)定被視為重要影響因素。雖然4月末DeepSeek V4發(fā)布并持續(xù)優(yōu)惠、降價(jià)后,國(guó)產(chǎn)大模型調(diào)用量再次上升,但供需問(wèn)題仍未得到實(shí)質(zhì)性解決,Token服務(wù)質(zhì)量亦未見(jiàn)明顯提升。AI產(chǎn)業(yè)仍在向前狂奔,隱憂并未消散。
避坑:讓價(jià)格和效果透明起來(lái)
行業(yè)正在想辦法。在提升Token服務(wù)質(zhì)量方面,目前的努力方向主要集中在“可視化”和“透明化”上。第三方可構(gòu)建智能路由實(shí)行統(tǒng)一調(diào)度,企業(yè)端可在現(xiàn)有API網(wǎng)關(guān)之上構(gòu)建一層企業(yè)級(jí)AI網(wǎng)關(guān),開(kāi)發(fā)團(tuán)隊(duì)也可自建評(píng)測(cè)與開(kāi)源工具。行業(yè)中已有相關(guān)案例,核心都是讓Token的價(jià)格、效果更加透明可見(jiàn)。
師天麾所在的清程極智近期推出的AI Ping平臺(tái)就屬于第一類(lèi)。根據(jù)產(chǎn)品介紹,AI Ping是一站式大模型服務(wù)評(píng)測(cè)與API智能路由平臺(tái),主要功能是信息匯總、客觀評(píng)測(cè)和智能路由。目前接入了30余家主流Token服務(wù)商和600余個(gè)大模型服務(wù),監(jiān)測(cè)的核心指標(biāo)包括實(shí)時(shí)輸出延遲、吞吐、可靠性、價(jià)格等。在測(cè)評(píng)之外,智能路由負(fù)責(zé)Token調(diào)度,能夠以統(tǒng)一API接口為用戶(hù)自動(dòng)匹配最優(yōu)服務(wù)商,完成一鍵調(diào)用。公司稱(chēng),相關(guān)功能目前能實(shí)現(xiàn)成本降低超37%,吞吐提升超90%,延遲降低超20%。實(shí)際上,這讓相關(guān)平臺(tái)也具備了Token服務(wù)商的角色。
師天麾對(duì)作者介紹,AI Ping既能服務(wù)開(kāi)發(fā)者,在To B端的營(yíng)收也很可觀。長(zhǎng)期來(lái)看,公司希望更靠近中小企業(yè)和普通開(kāi)發(fā)者,因?yàn)榇髲S往往有強(qiáng)大的評(píng)測(cè)和采購(gòu)團(tuán)隊(duì),可以逐一測(cè)試幾十家服務(wù)商,但對(duì)其他群體來(lái)說(shuō)幾乎不可能做到,這也成了公司產(chǎn)品最能發(fā)揮作用的領(lǐng)域。據(jù)悉,清程極智成立于2023年12月,是AI Infra領(lǐng)域初創(chuàng)公司,核心團(tuán)隊(duì)來(lái)自清華大學(xué)計(jì)算機(jī)系高性能計(jì)算所,目前已完成天使輪、PreA、PreA+三輪融資,除中科創(chuàng)星、聯(lián)想創(chuàng)投等機(jī)構(gòu)外,同為“清華系”的AI明星上市公司智譜亦參與投資。
在Token產(chǎn)業(yè)維度,該公司還強(qiáng)調(diào),長(zhǎng)期來(lái)看,解決供需問(wèn)題還需聚焦國(guó)產(chǎn)算力、國(guó)產(chǎn)模型的發(fā)展與協(xié)同,解決諸如國(guó)產(chǎn)推理環(huán)節(jié)長(zhǎng)期依賴(lài)海外引擎、難以充分釋放國(guó)產(chǎn)硬件性能等問(wèn)題。這與其另一項(xiàng)主要業(yè)務(wù)相關(guān)。該公司的赤兔推理引擎主打“完全自主研發(fā)的國(guó)產(chǎn)推理引擎”,聯(lián)合創(chuàng)始人唐適之稱(chēng),海外推理引擎用在國(guó)產(chǎn)算力上,如同“把西式烤面包的技術(shù)直接用來(lái)蒸饅頭”,其中必然存在不適配問(wèn)題,影響最終效果。而國(guó)產(chǎn)推理引擎能在居中的AI Infra層解決問(wèn)題,提升國(guó)產(chǎn)算力在模型部署中的效率和精度,從根上解決“模型變笨”等問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.