網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人民想念DeepSeek

2026-03-26 09:36:50　來(lái)源: 硅星人

北京舉報(bào)

分享至

文章轉(zhuǎn)載于騰訊科技
作者：蘇揚(yáng)

最近關(guān)于Token的討論挺魔幻的。

朋友圈隨處能看到Token中文翻譯的討論——有"詞元"、"智元"等等，甚至有"慧根"之類的搞笑版本。

Token不是一個(gè)新概念，大模型落地第一天起，它便與神經(jīng)網(wǎng)絡(luò)共生，但直到OpenClaw（俗稱"龍蝦"）在用戶群大規(guī)模擴(kuò)散，各類Agent應(yīng)用開始把Token帶入了公眾視野。

我認(rèn)為其中有兩個(gè)關(guān)鍵問題：它的消耗量太大了，價(jià)格也太貴了。

記得OpenAI發(fā)布GPT-5.4的時(shí)候，有用戶反饋測(cè)試一句"你好"就消耗掉了80美元的Token，當(dāng)時(shí)不少人都說這個(gè)使用量太夸張，但隨著小龍蝦大規(guī)模在用戶群擴(kuò)散，一個(gè)任務(wù)燒完千萬(wàn)級(jí)Token成為常態(tài)。

與之相對(duì)的是，英偉達(dá)CEO黃仁勛在GTC2026大會(huì)上以及之后的很多場(chǎng)合，都在強(qiáng)調(diào)工程師要大量的使用Token，甚至將Token納入到薪酬激勵(lì)機(jī)制。

一次對(duì)話環(huán)節(jié)，黃仁勛說："如果年薪50萬(wàn)美元的工程師，連25萬(wàn)美元的Token都沒用掉，我會(huì)極度恐慌。"

問題是，瘋狂的燒Token一定能解決問題嗎，有多少Token是有效的，什么樣的投入產(chǎn)出比是合理的？

結(jié)合剛剛外媒的消息，有OpenAI程序員一周燒掉了2100億Token，相當(dāng)于33個(gè)維基百科，但這樣的消耗量最終帶來(lái)了什么？我發(fā)了一個(gè)朋友圈，說這樣重度使用能升P10嗎，有好友隨即評(píng)論，"能幫賣Token的升P10。"

很顯然，這場(chǎng)瘋狂燒Token的運(yùn)動(dòng)，能帶來(lái)多少效果是存疑的，誰(shuí)是獲利者則是確定的。

黃仁勛將英偉達(dá)描述為"Token之王"，擁有世界最先進(jìn)的"Token制造機(jī)"，但如果拼命鼓吹這件事，甚至暗示不用Token就會(huì)落后，那么可以說：一方面，黃仁勛想徹底改變AI時(shí)代企業(yè)"效率考核"的邏輯，另一方面，他也間接制造出了Token焦慮。

Token太貴了

不久前，我請(qǐng)教了周鴻祎"Token太貴"這個(gè)問題，他說："大家覺得Token貴可能存在些誤解，因?yàn)榇竽Ｐ秃蠖耸强梢造`活配置的。"

在他的理解中，用戶可以自主選擇模型控制成本。"日常聊天對(duì)話的成本其實(shí)很低。真正消耗Token的是復(fù)雜任務(wù)，比如幫你生成視頻、創(chuàng)作短劇或?qū)懶≌f這類調(diào)用場(chǎng)景。"

我記得獵豹移動(dòng)CEO傅盛在一條視頻中說，自己通過一些使用技巧把最初日均幾百美元的Token費(fèi)用，優(yōu)化到目前日均10多美元，30天就是2100元，年費(fèi)是25200元。

問題來(lái)了：有多少用戶承擔(dān)得起日均10美元的成本？

對(duì)比目前中國(guó)互聯(lián)網(wǎng)上的商用to C類軟件，比如剪映，高端會(huì)員年費(fèi)也只有600元左右，娛樂相關(guān)的會(huì)員費(fèi)用大致在300元左右，根本找不到一款年費(fèi)超過25000元的消費(fèi)級(jí)軟件。

"絕大部分人一天10美金，仍然不會(huì)接受，這里會(huì)過濾掉大片的非付費(fèi)用戶。"我對(duì)傅盛說，他沒有否認(rèn)我的判斷。

這些天，我也在嘗試各種類型的小龍蝦產(chǎn)品，要接觸到的費(fèi)用遠(yuǎn)不止Token。

舉個(gè)例子，如果用戶對(duì)生圖有需求，就需要專門的生圖模型API；如果要監(jiān)控動(dòng)態(tài)，也需要接入付費(fèi)的搜索API，這些潛在的費(fèi)用會(huì)逐步的勸退絕大多數(shù)用戶。雖然可能有一些開源變通的方式降本，但開源項(xiàng)目就間接隱藏著安全風(fēng)險(xiǎn)。

3月13日，當(dāng)時(shí)騰訊科技"蝦聊"系列直播的第一期（），玄武實(shí)驗(yàn)室的嘉賓Lambda分享過一個(gè)數(shù)據(jù)——他自己平均每個(gè)月"養(yǎng)蝦"的費(fèi)用在千元以上。

不管是參照消費(fèi)級(jí)工具年費(fèi)，還是行業(yè)"養(yǎng)蝦戶"的反饋，基于Agent的Token消耗說一句"Token太貴了"，是站得住腳的。

存儲(chǔ)瓶頸與效率黑洞

Token簡(jiǎn)單理解就是大語(yǔ)言模型處理信息的基本單位——用戶輸入提示詞，模型輸出答案，每一個(gè)字、每一個(gè)標(biāo)點(diǎn)，都會(huì)計(jì)入Token的消耗量，本質(zhì)上還是算力成本。

過去大家計(jì)算算力總擁有成本，指標(biāo)有很多，包括衡量能效的Flops/W，核算均值的成本/Flops等等，今年的"Token經(jīng)濟(jì)學(xué)"中，Token/W逐步成為共識(shí)。

"我們的每一個(gè)Token成本都是世界最低的。"黃仁勛在GTC上說。

但不管有多便宜，不管是哪一種計(jì)算單位，它都是投入成本量化，涉及到研發(fā)成本、硬件成本，部署成本，能耗成本，運(yùn)營(yíng)成本等。換句話說，降本也都是圍繞上述環(huán)節(jié)展開。

對(duì)于Token降本來(lái)說，一個(gè)不好的消息是內(nèi)存價(jià)格在瘋漲。

以HBM內(nèi)存為例，它是支撐大模型訓(xùn)練和推理的關(guān)鍵器件，同時(shí)，推理數(shù)據(jù)量的暴漲也引發(fā)出了存儲(chǔ)需求的同步上漲。2026年第一季度，DRAM的價(jià)格環(huán)比上漲超過50%，NAND價(jià)格環(huán)比最高漲幅達(dá)到150%。

黃仁勛、蘇姿豐都已經(jīng)喊出了"HBM有多少要多少"，三星、美光這些存儲(chǔ)原廠，已經(jīng)對(duì)外披露頭部客戶的戰(zhàn)略長(zhǎng)約已經(jīng)簽到了5年。

一文提到過，消費(fèi)級(jí)市場(chǎng)，千元機(jī)庫(kù)存可能都要停產(chǎn)了，但實(shí)際上受這個(gè)問題的影響，云廠商目前也處于漲價(jià)的煎熬之中。目前行業(yè)最樂觀的預(yù)計(jì)是2028年存儲(chǔ)價(jià)格回落，悲觀一點(diǎn)要到2030年。

存儲(chǔ)價(jià)格一天不回落，Token降價(jià)就缺少一個(gè)關(guān)鍵的外部杠桿。

模型能力的提升也可以視為降價(jià)的另一個(gè)杠桿。"現(xiàn)在一些8B的小模型，能力越來(lái)越逼近全量大模型。"一位學(xué)術(shù)界研究員說。

在這方面，面壁智能聯(lián)合清華團(tuán)隊(duì)在《Nature》子刊上提出了Densing Law的概念，強(qiáng)調(diào)大模型的能力密度隨時(shí)間指數(shù)增長(zhǎng)，約每3.5個(gè)月翻一倍，同等性能所需參數(shù)量每3.5個(gè)月減半。

一位國(guó)產(chǎn)AI芯片從業(yè)者也強(qiáng)調(diào)模型能力好、規(guī)模小，進(jìn)而能推動(dòng)成本降低。"你看國(guó)內(nèi)開源大模型token價(jià)格，基本都跟模型規(guī)模正相關(guān)。"

多位國(guó)產(chǎn)算力從業(yè)者表示，提升MFU也會(huì)帶來(lái)成本壓縮的空間，此外也還包括架構(gòu)、顯存等多方面的推理優(yōu)化。

"MFU跟模型本身關(guān)系不太大，主要是算子和調(diào)度策略有關(guān)。"另一位國(guó)產(chǎn)存算一體芯片從業(yè)者說，"目前主流大模型的推理MFU均值在30%左右，優(yōu)化后可超過50%，估計(jì)能省出50%的成本。"

也就是說，行業(yè)并沒有榨干GPU的性能——花了100%的GPU錢，現(xiàn)在只用了不到三分之一的算力。

不過，MFU提升雖然可以帶來(lái)單Token成本下降，但會(huì)不會(huì)傳導(dǎo)到C端，取決于大模型提供方的商業(yè)考量，如果用來(lái)打價(jià)格戰(zhàn)，這毫無(wú)疑問是一個(gè)有效的杠桿。

再來(lái)一次價(jià)格戰(zhàn)

中國(guó)大模型的價(jià)格戰(zhàn)，不是沒有先例。

2024年，國(guó)內(nèi)廠商就曾經(jīng)爆發(fā)過一輪激烈的價(jià)格戰(zhàn)。當(dāng)時(shí)恰逢DeepSeek-V2上線，每百萬(wàn)Token輸入1元、輸出2元，彼時(shí)價(jià)格相當(dāng)于GPT-4-Turbo的百分之一。

DeepSeek當(dāng)時(shí)的降價(jià)關(guān)鍵就在于推理優(yōu)化——MoE稀疏架構(gòu)大幅降低了計(jì)算量，MLA多頭潛在注意力把KV緩存壓縮90%以上。

DeepSeek開啟這輪降價(jià)之后，隨即阿里、字節(jié)、等等先后下場(chǎng)展開價(jià)格戰(zhàn)博弈，一度出現(xiàn)了"Token免費(fèi)"的現(xiàn)象。

王小川當(dāng)年在一次交流會(huì)上談價(jià)格戰(zhàn)，他認(rèn)為與此前團(tuán)購(gòu)、網(wǎng)約車大戰(zhàn)有本質(zhì)不同，"這次價(jià)格戰(zhàn)是直接生產(chǎn)力的供給，是B端市場(chǎng)的價(jià)格戰(zhàn)。"

在當(dāng)時(shí)，王小川也強(qiáng)調(diào)即使短期內(nèi)虧損，（大廠）也可能在一年后實(shí)現(xiàn)盈利。

"在推理效率提升的情況下，通過補(bǔ)貼，用戶有了非常明顯的增長(zhǎng)，"一位參與過上一輪價(jià)格戰(zhàn)的大模型公司內(nèi)部人士說，"大概花了幾個(gè)億吧。"

不過，這一輪Token的消耗，B端和C端需求同時(shí)爆發(fā)，反而和團(tuán)購(gòu)、網(wǎng)約車大戰(zhàn)一樣，具備改變生產(chǎn)關(guān)系的條件，但市場(chǎng)卻表現(xiàn)出了出奇的沉默。

前述參與價(jià)格戰(zhàn)的大模型內(nèi)部人士認(rèn)為，在模型的特定能力成熟，有了穩(wěn)定用戶來(lái)源的情況下，大家未必有動(dòng)力再下場(chǎng)去打價(jià)格戰(zhàn)。

"Token消耗不像2024年那種規(guī)模了，這個(gè)情況下，為了蝦打價(jià)格戰(zhàn)，存量用戶的ARR收入也會(huì)被迫失血，"前述國(guó)產(chǎn)AI芯片從業(yè)者說，"沒必要，價(jià)格戰(zhàn)帶來(lái)的增量還不確定，先把存量自砍了，這賬不好算。"

Artificial Analysis跟蹤的大模型API價(jià)格

根據(jù)Artificial Analysis的跟蹤數(shù)據(jù)，國(guó)產(chǎn)模型的API單價(jià)已經(jīng)足夠便宜了，只是這個(gè)便宜程度對(duì)于Agent的巨量消耗來(lái)說，還遠(yuǎn)遠(yuǎn)不夠。

如前面所說，受內(nèi)存和存儲(chǔ)的硬件成本沖擊，國(guó)內(nèi)云廠商現(xiàn)在面對(duì)的是漲價(jià)的難題，短期不太有降價(jià)的可能性。

"現(xiàn)在是前兩年價(jià)格戰(zhàn)的持續(xù)，國(guó)內(nèi)廠商的價(jià)格比北美有明顯的優(yōu)勢(shì)。只是大家清楚搶用戶是個(gè)持久戰(zhàn)，不是一兩次價(jià)格戰(zhàn)能搞定的。"前述國(guó)產(chǎn)存算一體芯片從業(yè)者補(bǔ)充道。

把模型"焊"在芯片上

為了解決Token瘋狂消耗帶來(lái)的成本問題，一部分用戶開始嘗試?yán)帽镜夭渴鹉Ｐ汀?/p>

到目前為止，已經(jīng)有不少用戶基于Mac Mini為"小龍蝦"配置本地模型，只不過這種解決方案，在短時(shí)間內(nèi)會(huì)不斷地推高Token使用成本，同時(shí)本地部署本身就存在門檻，且開源模型的能力未必能夠符合用戶的需求。

針對(duì)那些入門級(jí)用戶，也有廠商嘗試推出EdgeClaw硬件，并且在硬件生意之上，套上一層安全的故事，這其實(shí)是一個(gè)值得嘗試的方向，只是在內(nèi)存漲價(jià)大環(huán)境下，顯得有些生不逢時(shí)。

此前，一位Mini主機(jī)創(chuàng)業(yè)者說，漲價(jià)對(duì)行業(yè)都有沖擊。

"以前用戶是覺得'好貴'，現(xiàn)在直接根本不看了，他們并不在乎你的內(nèi)存和硬盤有多大。"該創(chuàng)業(yè)者說。

與此同時(shí)，一些品牌也在電商平臺(tái)推出準(zhǔn)系統(tǒng)產(chǎn)品（無(wú)內(nèi)存、存儲(chǔ)），最低價(jià)格在2000元以內(nèi)，它們雖然沒有"安全故事"，卻是Edgeclaw這種創(chuàng)業(yè)型項(xiàng)目第一個(gè)要逾越的難關(guān)。

對(duì)"小龍蝦"端側(cè)AI硬件來(lái)說，最大的挑戰(zhàn)還是Mac Mini，蘋果的供應(yīng)鏈話語(yǔ)權(quán)和毛利率可以支撐Mac Mini超高性價(jià)比的定價(jià)，創(chuàng)業(yè)團(tuán)隊(duì)在這里很難講故事。

還記得2025年初期，DeepSeek爆火時(shí)的"一體機(jī)"嗎，你看今天行業(yè)里面還有它們的故事嗎？

除了一體機(jī)這種集成硬件方案，也有創(chuàng)業(yè)項(xiàng)目嘗試從更底層的芯片上去做創(chuàng)新。

2月份，Taalas團(tuán)隊(duì)推出了一款全新的芯片HC1，該芯片基于TSMC N6制程，die size 815mm2，晶體管密度僅53B，單芯片可運(yùn)行Llama 3.1 8B模型，最核心的是單用戶TPS（Token/s）輸出16960/s，數(shù)據(jù)堪稱爆表，關(guān)鍵就在于HC1的設(shè)計(jì)。

Taalas團(tuán)隊(duì)在這款芯片上，用Mask ROM將Llama 3.1 8B模型權(quán)重硬編碼固化在硅片上，芯片金屬層連線相當(dāng)于神經(jīng)元連接，相當(dāng)于把模型"焊在"芯片上，同時(shí)實(shí)現(xiàn)計(jì)算與存儲(chǔ)物理融合，徹底消除HBM/DRAM數(shù)據(jù)搬運(yùn)，打破了內(nèi)存墻限制。

雖然TPS性能突出，它的短板也同樣來(lái)自于模型"焊在"芯片上這個(gè)特點(diǎn)，這意味著只能跑固定版本的固定模型，權(quán)重不能改、結(jié)構(gòu)不能動(dòng)，想換模型就要重新流片，你也可以理解為專芯專用。

一切的討論都基于Token使用成本——貴的不是單價(jià)，而是重度任務(wù)對(duì)Token使用量的倍數(shù)放大。

我曾經(jīng)嘗試過用小龍蝦來(lái)生成指定時(shí)間戳的gif，在和一位同行交流的過程中，他說："你這里面的gif圖，我們同事做，半分鐘做一張，手工。"

盡管這個(gè)案例不是很典型，但如果做幾張gif就要花掉幾元錢，顯然不具備經(jīng)濟(jì)性。

接入DeepSeek API制作gif的消耗情況

要改變這一點(diǎn)，要么擁有更便宜的Token定價(jià)，要么Token消耗最小化，這依賴模型層面的優(yōu)化，也取決于推理硬件層面的創(chuàng)新。

但無(wú)論如何，在Token使用的總費(fèi)用打不下來(lái)，且投入的有效產(chǎn)出不明確的情況下，瘋狂安利Token消耗，甚至強(qiáng)調(diào)與績(jī)效掛鉤，說是制造Token焦慮，制造AI焦慮也不為過。

再往前看，老黃還呼吁科技行業(yè)領(lǐng)袖審慎發(fā)聲，避免引發(fā)公眾對(duì)人工智能技術(shù)的非理性恐慌。這就好比跟全行業(yè)說：別打壓人工智能制造恐慌了，你們都要把Token燒起來(lái)。

可問題是，誰(shuí)來(lái)解決價(jià)格問題呢，會(huì)是遲遲沒有到來(lái)的DeepSeek V4嗎？

我記得2017年的時(shí)候，有一篇刷屏文章叫《人民想念周鴻祎》，現(xiàn)在人民應(yīng)該很想念Token價(jià)格戰(zhàn)，想念DeepSeek。

至少對(duì)于"蝦民"來(lái)說，大概率如此。

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.