![]()
文章轉(zhuǎn)載于騰訊科技
作者:蘇揚(yáng)
最近關(guān)于Token的討論挺魔幻的。
朋友圈隨處能看到Token中文翻譯的討論——有"詞元"、"智元"等等,甚至有"慧根"之類的搞笑版本。
Token不是一個(gè)新概念,大模型落地第一天起,它便與神經(jīng)網(wǎng)絡(luò)共生,但直到OpenClaw(俗稱"龍蝦")在用戶群大規(guī)模擴(kuò)散,各類Agent應(yīng)用開始把Token帶入了公眾視野。
我認(rèn)為其中有兩個(gè)關(guān)鍵問題:它的消耗量太大了,價(jià)格也太貴了。
記得OpenAI發(fā)布GPT-5.4的時(shí)候,有用戶反饋測(cè)試一句"你好"就消耗掉了80美元的Token,當(dāng)時(shí)不少人都說這個(gè)使用量太夸張,但隨著小龍蝦大規(guī)模在用戶群擴(kuò)散,一個(gè)任務(wù)燒完千萬(wàn)級(jí)Token成為常態(tài)。
與之相對(duì)的是,英偉達(dá)CEO黃仁勛在GTC2026大會(huì)上以及之后的很多場(chǎng)合,都在強(qiáng)調(diào)工程師要大量的使用Token,甚至將Token納入到薪酬激勵(lì)機(jī)制。
一次對(duì)話環(huán)節(jié),黃仁勛說:"如果年薪50萬(wàn)美元的工程師,連25萬(wàn)美元的Token都沒用掉,我會(huì)極度恐慌。"
問題是,瘋狂的燒Token一定能解決問題嗎,有多少Token是有效的,什么樣的投入產(chǎn)出比是合理的?
結(jié)合剛剛外媒的消息,有OpenAI程序員一周燒掉了2100億Token,相當(dāng)于33個(gè)維基百科,但這樣的消耗量最終帶來(lái)了什么?我發(fā)了一個(gè)朋友圈,說這樣重度使用能升P10嗎,有好友隨即評(píng)論,"能幫賣Token的升P10。"
很顯然,這場(chǎng)瘋狂燒Token的運(yùn)動(dòng),能帶來(lái)多少效果是存疑的,誰(shuí)是獲利者則是確定的。
黃仁勛將英偉達(dá)描述為"Token之王",擁有世界最先進(jìn)的"Token制造機(jī)",但如果拼命鼓吹這件事,甚至暗示不用Token就會(huì)落后,那么可以說:一方面,黃仁勛想徹底改變AI時(shí)代企業(yè)"效率考核"的邏輯,另一方面,他也間接制造出了Token焦慮。
1
Token太貴了
不久前,我請(qǐng)教了周鴻祎"Token太貴"這個(gè)問題,他說:"大家覺得Token貴可能存在些誤解,因?yàn)榇竽P秃蠖耸强梢造`活配置的。"
在他的理解中,用戶可以自主選擇模型控制成本。"日常聊天對(duì)話的成本其實(shí)很低。真正消耗Token的是復(fù)雜任務(wù),比如幫你生成視頻、創(chuàng)作短劇或?qū)懶≌f這類調(diào)用場(chǎng)景。"
我記得獵豹移動(dòng)CEO傅盛在一條視頻中說,自己通過一些使用技巧把最初日均幾百美元的Token費(fèi)用,優(yōu)化到目前日均10多美元,30天就是2100元,年費(fèi)是25200元。
問題來(lái)了:有多少用戶承擔(dān)得起日均10美元的成本?
對(duì)比目前中國(guó)互聯(lián)網(wǎng)上的商用to C類軟件,比如剪映,高端會(huì)員年費(fèi)也只有600元左右,娛樂相關(guān)的會(huì)員費(fèi)用大致在300元左右,根本找不到一款年費(fèi)超過25000元的消費(fèi)級(jí)軟件。
"絕大部分人一天10美金,仍然不會(huì)接受,這里會(huì)過濾掉大片的非付費(fèi)用戶。"我對(duì)傅盛說,他沒有否認(rèn)我的判斷。
這些天,我也在嘗試各種類型的小龍蝦產(chǎn)品,要接觸到的費(fèi)用遠(yuǎn)不止Token。
舉個(gè)例子,如果用戶對(duì)生圖有需求,就需要專門的生圖模型API;如果要監(jiān)控動(dòng)態(tài),也需要接入付費(fèi)的搜索API,這些潛在的費(fèi)用會(huì)逐步的勸退絕大多數(shù)用戶。雖然可能有一些開源變通的方式降本,但開源項(xiàng)目就間接隱藏著安全風(fēng)險(xiǎn)。
3月13日,當(dāng)時(shí)騰訊科技"蝦聊"系列直播的第一期(),玄武實(shí)驗(yàn)室的嘉賓Lambda分享過一個(gè)數(shù)據(jù)——他自己平均每個(gè)月"養(yǎng)蝦"的費(fèi)用在千元以上。
不管是參照消費(fèi)級(jí)工具年費(fèi),還是行業(yè)"養(yǎng)蝦戶"的反饋,基于Agent的Token消耗說一句"Token太貴了",是站得住腳的。
1
存儲(chǔ)瓶頸與效率黑洞
Token簡(jiǎn)單理解就是大語(yǔ)言模型處理信息的基本單位——用戶輸入提示詞,模型輸出答案,每一個(gè)字、每一個(gè)標(biāo)點(diǎn),都會(huì)計(jì)入Token的消耗量,本質(zhì)上還是算力成本。
過去大家計(jì)算算力總擁有成本,指標(biāo)有很多,包括衡量能效的Flops/W,核算均值的成本/Flops等等,今年的"Token經(jīng)濟(jì)學(xué)"中,Token/W逐步成為共識(shí)。
"我們的每一個(gè)Token成本都是世界最低的。"黃仁勛在GTC上說。
但不管有多便宜,不管是哪一種計(jì)算單位,它都是投入成本量化,涉及到研發(fā)成本、硬件成本,部署成本,能耗成本,運(yùn)營(yíng)成本等。換句話說,降本也都是圍繞上述環(huán)節(jié)展開。
對(duì)于Token降本來(lái)說,一個(gè)不好的消息是內(nèi)存價(jià)格在瘋漲。
以HBM內(nèi)存為例,它是支撐大模型訓(xùn)練和推理的關(guān)鍵器件,同時(shí),推理數(shù)據(jù)量的暴漲也引發(fā)出了存儲(chǔ)需求的同步上漲。2026年第一季度,DRAM的價(jià)格環(huán)比上漲超過50%,NAND價(jià)格環(huán)比最高漲幅達(dá)到150%。
黃仁勛、蘇姿豐都已經(jīng)喊出了"HBM有多少要多少",三星、美光這些存儲(chǔ)原廠,已經(jīng)對(duì)外披露頭部客戶的戰(zhàn)略長(zhǎng)約已經(jīng)簽到了5年。
一文提到過,消費(fèi)級(jí)市場(chǎng),千元機(jī)庫(kù)存可能都要停產(chǎn)了,但實(shí)際上受這個(gè)問題的影響,云廠商目前也處于漲價(jià)的煎熬之中。目前行業(yè)最樂觀的預(yù)計(jì)是2028年存儲(chǔ)價(jià)格回落,悲觀一點(diǎn)要到2030年。
存儲(chǔ)價(jià)格一天不回落,Token降價(jià)就缺少一個(gè)關(guān)鍵的外部杠桿。
模型能力的提升也可以視為降價(jià)的另一個(gè)杠桿。"現(xiàn)在一些8B的小模型,能力越來(lái)越逼近全量大模型。"一位學(xué)術(shù)界研究員說。
在這方面,面壁智能聯(lián)合清華團(tuán)隊(duì)在《Nature》子刊上提出了Densing Law的概念,強(qiáng)調(diào)大模型的能力密度隨時(shí)間指數(shù)增長(zhǎng),約每3.5個(gè)月翻一倍,同等性能所需參數(shù)量每3.5個(gè)月減半。
一位國(guó)產(chǎn)AI芯片從業(yè)者也強(qiáng)調(diào)模型能力好、規(guī)模小,進(jìn)而能推動(dòng)成本降低。"你看國(guó)內(nèi)開源大模型token價(jià)格,基本都跟模型規(guī)模正相關(guān)。"
多位國(guó)產(chǎn)算力從業(yè)者表示,提升MFU也會(huì)帶來(lái)成本壓縮的空間,此外也還包括架構(gòu)、顯存等多方面的推理優(yōu)化。
"MFU跟模型本身關(guān)系不太大,主要是算子和調(diào)度策略有關(guān)。"另一位國(guó)產(chǎn)存算一體芯片從業(yè)者說,"目前主流大模型的推理MFU均值在30%左右,優(yōu)化后可超過50%,估計(jì)能省出50%的成本。"
也就是說,行業(yè)并沒有榨干GPU的性能——花了100%的GPU錢,現(xiàn)在只用了不到三分之一的算力。
不過,MFU提升雖然可以帶來(lái)單Token成本下降,但會(huì)不會(huì)傳導(dǎo)到C端,取決于大模型提供方的商業(yè)考量,如果用來(lái)打價(jià)格戰(zhàn),這毫無(wú)疑問是一個(gè)有效的杠桿。
1
再來(lái)一次價(jià)格戰(zhàn)
中國(guó)大模型的價(jià)格戰(zhàn),不是沒有先例。
2024年,國(guó)內(nèi)廠商就曾經(jīng)爆發(fā)過一輪激烈的價(jià)格戰(zhàn)。當(dāng)時(shí)恰逢DeepSeek-V2上線,每百萬(wàn)Token輸入1元、輸出2元,彼時(shí)價(jià)格相當(dāng)于GPT-4-Turbo的百分之一。
DeepSeek當(dāng)時(shí)的降價(jià)關(guān)鍵就在于推理優(yōu)化——MoE稀疏架構(gòu)大幅降低了計(jì)算量,MLA多頭潛在注意力把KV緩存壓縮90%以上。
DeepSeek開啟這輪降價(jià)之后,隨即阿里、字節(jié)、等等先后下場(chǎng)展開價(jià)格戰(zhàn)博弈,一度出現(xiàn)了"Token免費(fèi)"的現(xiàn)象。
王小川當(dāng)年在一次交流會(huì)上談價(jià)格戰(zhàn),他認(rèn)為與此前團(tuán)購(gòu)、網(wǎng)約車大戰(zhàn)有本質(zhì)不同,"這次價(jià)格戰(zhàn)是直接生產(chǎn)力的供給,是B端市場(chǎng)的價(jià)格戰(zhàn)。"
在當(dāng)時(shí),王小川也強(qiáng)調(diào)即使短期內(nèi)虧損,(大廠)也可能在一年后實(shí)現(xiàn)盈利。
"在推理效率提升的情況下,通過補(bǔ)貼,用戶有了非常明顯的增長(zhǎng),"一位參與過上一輪價(jià)格戰(zhàn)的大模型公司內(nèi)部人士說,"大概花了幾個(gè)億吧。"
不過,這一輪Token的消耗,B端和C端需求同時(shí)爆發(fā),反而和團(tuán)購(gòu)、網(wǎng)約車大戰(zhàn)一樣,具備改變生產(chǎn)關(guān)系的條件,但市場(chǎng)卻表現(xiàn)出了出奇的沉默。
前述參與價(jià)格戰(zhàn)的大模型內(nèi)部人士認(rèn)為,在模型的特定能力成熟,有了穩(wěn)定用戶來(lái)源的情況下,大家未必有動(dòng)力再下場(chǎng)去打價(jià)格戰(zhàn)。
"Token消耗不像2024年那種規(guī)模了,這個(gè)情況下,為了蝦打價(jià)格戰(zhàn),存量用戶的ARR收入也會(huì)被迫失血,"前述國(guó)產(chǎn)AI芯片從業(yè)者說,"沒必要,價(jià)格戰(zhàn)帶來(lái)的增量還不確定,先把存量自砍了,這賬不好算。"
![]()
Artificial Analysis跟蹤的大模型API價(jià)格
根據(jù)Artificial Analysis的跟蹤數(shù)據(jù),國(guó)產(chǎn)模型的API單價(jià)已經(jīng)足夠便宜了,只是這個(gè)便宜程度對(duì)于Agent的巨量消耗來(lái)說,還遠(yuǎn)遠(yuǎn)不夠。
如前面所說,受內(nèi)存和存儲(chǔ)的硬件成本沖擊,國(guó)內(nèi)云廠商現(xiàn)在面對(duì)的是漲價(jià)的難題,短期不太有降價(jià)的可能性。
"現(xiàn)在是前兩年價(jià)格戰(zhàn)的持續(xù),國(guó)內(nèi)廠商的價(jià)格比北美有明顯的優(yōu)勢(shì)。只是大家清楚搶用戶是個(gè)持久戰(zhàn),不是一兩次價(jià)格戰(zhàn)能搞定的。"前述國(guó)產(chǎn)存算一體芯片從業(yè)者補(bǔ)充道。
1
把模型"焊"在芯片上
為了解決Token瘋狂消耗帶來(lái)的成本問題,一部分用戶開始嘗試?yán)帽镜夭渴鹉P汀?/p>
到目前為止,已經(jīng)有不少用戶基于Mac Mini為"小龍蝦"配置本地模型,只不過這種解決方案,在短時(shí)間內(nèi)會(huì)不斷地推高Token使用成本,同時(shí)本地部署本身就存在門檻,且開源模型的能力未必能夠符合用戶的需求。
針對(duì)那些入門級(jí)用戶,也有廠商嘗試推出EdgeClaw硬件,并且在硬件生意之上,套上一層安全的故事,這其實(shí)是一個(gè)值得嘗試的方向,只是在內(nèi)存漲價(jià)大環(huán)境下,顯得有些生不逢時(shí)。
此前,一位Mini主機(jī)創(chuàng)業(yè)者說,漲價(jià)對(duì)行業(yè)都有沖擊。
"以前用戶是覺得'好貴',現(xiàn)在直接根本不看了,他們并不在乎你的內(nèi)存和硬盤有多大。"該創(chuàng)業(yè)者說。
與此同時(shí),一些品牌也在電商平臺(tái)推出準(zhǔn)系統(tǒng)產(chǎn)品(無(wú)內(nèi)存、存儲(chǔ)),最低價(jià)格在2000元以內(nèi),它們雖然沒有"安全故事",卻是Edgeclaw這種創(chuàng)業(yè)型項(xiàng)目第一個(gè)要逾越的難關(guān)。
對(duì)"小龍蝦"端側(cè)AI硬件來(lái)說,最大的挑戰(zhàn)還是Mac Mini,蘋果的供應(yīng)鏈話語(yǔ)權(quán)和毛利率可以支撐Mac Mini超高性價(jià)比的定價(jià),創(chuàng)業(yè)團(tuán)隊(duì)在這里很難講故事。
還記得2025年初期,DeepSeek爆火時(shí)的"一體機(jī)"嗎,你看今天行業(yè)里面還有它們的故事嗎?
除了一體機(jī)這種集成硬件方案,也有創(chuàng)業(yè)項(xiàng)目嘗試從更底層的芯片上去做創(chuàng)新。
2月份,Taalas團(tuán)隊(duì)推出了一款全新的芯片HC1,該芯片基于TSMC N6制程,die size 815mm2,晶體管密度僅53B,單芯片可運(yùn)行Llama 3.1 8B模型,最核心的是單用戶TPS(Token/s)輸出16960/s,數(shù)據(jù)堪稱爆表,關(guān)鍵就在于HC1的設(shè)計(jì)。
Taalas團(tuán)隊(duì)在這款芯片上,用Mask ROM將Llama 3.1 8B模型權(quán)重硬編碼固化在硅片上,芯片金屬層連線相當(dāng)于神經(jīng)元連接,相當(dāng)于把模型"焊在"芯片上,同時(shí)實(shí)現(xiàn)計(jì)算與存儲(chǔ)物理融合,徹底消除HBM/DRAM數(shù)據(jù)搬運(yùn),打破了內(nèi)存墻限制。
雖然TPS性能突出,它的短板也同樣來(lái)自于模型"焊在"芯片上這個(gè)特點(diǎn),這意味著只能跑固定版本的固定模型,權(quán)重不能改、結(jié)構(gòu)不能動(dòng),想換模型就要重新流片,你也可以理解為專芯專用。
1
一切的討論都基于Token使用成本——貴的不是單價(jià),而是重度任務(wù)對(duì)Token使用量的倍數(shù)放大。
![]()
我曾經(jīng)嘗試過用小龍蝦來(lái)生成指定時(shí)間戳的gif,在和一位同行交流的過程中,他說:"你這里面的gif圖,我們同事做,半分鐘做一張,手工。"
盡管這個(gè)案例不是很典型,但如果做幾張gif就要花掉幾元錢,顯然不具備經(jīng)濟(jì)性。
![]()
接入DeepSeek API制作gif的消耗情況
要改變這一點(diǎn),要么擁有更便宜的Token定價(jià),要么Token消耗最小化,這依賴模型層面的優(yōu)化,也取決于推理硬件層面的創(chuàng)新。
但無(wú)論如何,在Token使用的總費(fèi)用打不下來(lái),且投入的有效產(chǎn)出不明確的情況下,瘋狂安利Token消耗,甚至強(qiáng)調(diào)與績(jī)效掛鉤,說是制造Token焦慮,制造AI焦慮也不為過。
再往前看,老黃還呼吁科技行業(yè)領(lǐng)袖審慎發(fā)聲,避免引發(fā)公眾對(duì)人工智能技術(shù)的非理性恐慌。這就好比跟全行業(yè)說:別打壓人工智能制造恐慌了,你們都要把Token燒起來(lái)。
可問題是,誰(shuí)來(lái)解決價(jià)格問題呢,會(huì)是遲遲沒有到來(lái)的DeepSeek V4嗎?
我記得2017年的時(shí)候,有一篇刷屏文章叫《人民想念周鴻祎》,現(xiàn)在人民應(yīng)該很想念Token價(jià)格戰(zhàn),想念DeepSeek。
至少對(duì)于"蝦民"來(lái)說,大概率如此。
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.