![]()
大模型的“免費午餐”,終究還是到了要算賬的時刻。
4月8日凌晨,DeepSeek在客戶端與網(wǎng)頁版悄然上線了“快速模式(Fast)”與“專家模式(Expert)”兩個入口,同時小范圍灰度測試“視覺模式”。在許多圍觀者看來,這或許是為即將發(fā)布的新一代V4模型做預熱。
如果將視線拉寬,看看幾天前剛剛在年化收入上反超OpenAI的Anthropic,也出人意料地宣布封殺第三方自動化工具,你就會發(fā)現(xiàn)事情遠沒有“發(fā)新模型”那么簡單。
當“Token消耗量”曾被各大廠視為KPI瘋狂內(nèi)卷時,巨頭們卻在此時默契地踩下剎車。這絕不僅是產(chǎn)品層面的微調(diào),而是整個AI行業(yè)正在經(jīng)歷一場極其殘酷的底層邏輯大洗牌。
被“算力饑渴”逼出的物理極限
拋開外界對新模型的狂熱猜測,DeepSeek此次分層設計的核心邏輯非常現(xiàn)實:用算力分流來“保命”。
![]()
明確的功能分工背后,是一套“按需調(diào)用”的調(diào)度機制——將日常對話交給低成本路徑處理,僅在處理復雜推理時啟用高算力的專家模式。這種對算力的精打細算,是被逼出來的。
免費模式曾經(jīng)是大模型跑馬圈地的最強引擎,如今卻成了引爆系統(tǒng)危機的加速器。在需求端指數(shù)級膨脹的今天,供給端卻受限于芯片出口管制與高昂的硬件成本,根本無法同步擴容。
據(jù)統(tǒng)計,2026年開年以來,DeepSeek已遭遇至少7次大規(guī)模服務中斷,其中3月29日至30日的全局崩潰更是長達12個小時。在這種常態(tài)化的容量窘境下,分層設計不僅是為了減少無效Token消耗、緩解峰值壓力,更是為后續(xù)不可避免的限流與付費體系鋪設臺階。
不久前OpenAI下線Sora以聚焦核心服務,同樣印證了這個殘酷的現(xiàn)實:需求增速,已經(jīng)遠遠擊穿了基礎設施的物理極限。
從粗放燒錢到工程自律
這種由Token膨脹帶來的算力焦慮,早已在全球頭部AI企業(yè)中蔓延,并促使他們對低效的資源消耗痛下殺手。
4月5日,Anthropic正式宣布其Claude訂閱服務將不再覆蓋包括“龍蝦”在內(nèi)的第三方集成工具。這項決定的背后,是一筆不堪重負的經(jīng)濟賬:原本基于個人正常使用強度設計的200美元訂閱制,在各類自動化代理工具的狂轟濫炸下徹底失效,重度用戶甚至能單月消耗掉價值5000美元的算力資源。
![]()
前DeepSeek核心成員、小米AI負責人羅福莉敏銳地指出了這一現(xiàn)象的本質(zhì),當前全球算力的供給速度,已經(jīng)被Agent創(chuàng)造的Token需求增速遠遠甩在身后。截至今年3月,中國AI大模型日均Token調(diào)用量突破140萬億大關,較2024年初暴漲超千倍。這已經(jīng)不是簡單的供需缺口,而是一個足以拖垮整個生態(tài)的成本“天坑”。
令人側(cè)目的是,盡管Anthropic在4月7日宣布其年化收入(ARR)僅用三個多月就實現(xiàn)了233%的爆發(fā)式增長,達到300億美元并正式反超OpenAI,但這家風頭正勁的公司依然在錙銖必較地算賬。
封殺第三方工具,正是為了讓效率低下的成本真實可見,從而倒逼整個開發(fā)者生態(tài)走向“工程自律”:去認真改進上下文管理、最大化緩存命中率,而不是一味依賴底層算力的無序堆砌。
AI回歸“重資產(chǎn)”商業(yè)本質(zhì)
當算力供需矛盾疊加宏觀層面的制約,整個AI賽道正在經(jīng)歷一場深刻的范式切換。房間里的大象已經(jīng)無法被忽視:除了昂貴的算力芯片,電力危機也在持續(xù)施壓。
當前AI算力耗電占全社會用電量增速的高達46%,遠超整體6.1%的社會用電增長水平,電力彈性的不足已經(jīng)成為大模型發(fā)展不可逾越的硬約束。在這種背景下,漲價與成本轉(zhuǎn)嫁成為心照不宣的行業(yè)共識。
此前阿里云與騰訊云已啟動最高達34%的算力漲價,實質(zhì)上抹平了價格戰(zhàn)時期的優(yōu)惠;而在4月8日,智譜在發(fā)布旗艦開源模型GLM-5.1之際,也再度提價10%。如果說過去兩年行業(yè)的關鍵詞是“規(guī)模”與“速度”,那么如今的絕對核心已經(jīng)變成了“成本”。
行業(yè)開始出現(xiàn)明顯轉(zhuǎn)向:當AI開始賺錢,第一步不是賺得更多,而是少虧一點。無論是像OpenAI那樣激進迭代、用融資換空間,還是如Anthropic一般克制深耕、死磕工程優(yōu)化,所有玩家都必須回答商業(yè)化造血的現(xiàn)實問題。
對于終端用戶而言,這也意味著慷慨的免費時代正在落幕。為了控制成本,企業(yè)會逐步收緊免費額度,模型回復也會變得更克制、更精簡,因為每一個被省下的Token,都是被重新分配的真金白銀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.