網易首頁 > 網易號 > 正文 申請入駐

Elephant走紅:AI開始為“Token浪費”算細賬

0
分享至

2026年春季,大模型行業的高燒似乎正在退去,取而代之的是一種近乎冷酷的理性。近日,《財經》報道指出,全球企業級 AI 應用中,約50%的Token正在被浪費。

浪費的原因很具體,AI應用從“對話”轉向“執行”,這些計算資源流向了較貴的大型旗艦模型,Agent在復雜多輪任務中,歷史文件、對話會不斷累積,大量無用、冗余、過期的信息會不斷產生并且重復計算,Token消耗因此指數級增長。也就是說,企業和開發者在用最貴的車跑最短的路。

OpenRouter的流量數據反映了這個轉變:過去一個季度,旗艦級模型的調用占比在下降,100B–300B區間的模型調用量則明顯上升。以近日上線的100B 模型Elephant為例,單日流量暴漲500%,沖上熱榜榜首,成為OpenClaw等 Agent 最受歡迎的選型。開發者開始按任務類型分配模型,而不是一律用最頂配。這是工程理性回歸的信號,不是對旗艦模型的否定。



為什么現在才開始算這筆賬

幾年前,"選最強的模型"是最省心的工程決策。旗艦模型幾乎在所有任務上都更好,成本問題還沒到逼人重新設計架構的程度。

現在情況變了,Agent需要“執行”大量工作。一個客服Agent處理一張工單,可能需要調用模型十幾次:理解意圖、查詢知識庫、判斷優先級、生成回復、核查格式。如果同時有幾千張工單在處理,每天的調用量輕松進入百萬級別。在這種頻率下,每次調用多付的溢價開始在賬單上顯現。

今年3月,一位名為shelvenzhou的開發者在Github進行了一項基準測試,引發了廣泛討論。他記錄自己的OpenClaw日常工作(包括代碼、郵件、PDF、圖片、搜索等)Token消耗情況——第一輪對話Token成本0.0050美元;第五輪對話Token成本0.0665美元,是第一輪的13.3倍;第10輪的Token成本達到了0.13美元,是第一輪的26倍。

根據報道,《財經》統計了GitHub上有關“Token Waste”相關Issues的數量。這一討論至少有5200個,僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。


目前大多數Agent的工程實現還相當粗糙。面對Agent的多步任務,Token消耗以接近線性的速度增長,而其中大量內容對當前步驟毫無意義。這類問題催生了一個新的工程概念——Agent Harness,它不是模型本身,而是包裹在模型外部、負責管理上下文、編排工具調用、控制執行生命周期的“韁繩”和“馬具”。

Token 效率因此形成了兩條并行的壓力線,一條來自 Agent 框架側,Harness 的出現就是典型代表;另一條來自模型側,推動廠商用更精簡的參數完成同等質量的推理。


模型,向實用主義靠攏

在這場范式轉移中,一批深耕“token效率”的模型成為了舞臺中央的主角。它們不比拼參數規模,而是在單位Token成本下,比拼推理速度、指令遵循度以及長上下文的穩定性。

根據OpenRouter 的 LLM Leaderboard在4月16日的數據,模型格局呈現出明顯的“大模型控榜,小模型控場”的分化態勢。

在前20名的榜單中,傳統意義上的大尺寸旗艦模型(如Claude Opus 4.6、DeepSeek V3.2等),主要分布在榜單頭部和中上部,依然掌握著復雜任務的話語權;而主打輕量化、高性價比的小尺寸模型(如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等),且多集中在第 8 名至第 20 名的區間,形成了不可忽視的“腰部力量”。

可以明顯看到,小尺寸模型的漲幅驚人。根據4月16日數據,排名第17位的 GPT-5.4 Nano以48%的驚人漲幅領跑增長榜,100B模型Elephant單日漲幅 38%。


從App使用情況來看,OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成為這些小尺寸模型的“最大流量貢獻”,開發者正在將小尺寸模型作為高頻、低延遲任務的首選。

在業界看來,100B-300B已然成為一個實用主義區間。GPT-5.4-Mini是目前這條路線的典型代表之一,以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。

OpenAI 此前著重強調了新模型在多模型分層系統中的位置:以其自研編程助手Codex為例,GPT-5.4負責規劃、協調與最終判斷,而GPT-5.4 mini子智能體則并行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。

OpenAI表示,隨著小型模型速度更快、功能更強大,開發者無需使用單一模型處理所有任務,而是可以構建系統,由大型模型負責決策,小型模型則快速大規模地執行任務。這種分層調用的模式開始變得實用而非將就。

Elephant Alpha是另一個值得關注的案例,該模型于4月13日深夜上線 Openrouter。同為100B參數,Elephant定位為“智能效率”優先,在保持256K 上下文窗口的同時,重點優化Token使用效率,適合代碼補全、快速文檔處理和輕量Agent交互等場景。由于來源匿名,其具體技術細節尚不透明,但在開發者社區已有相當的實測關注。




效率不是降級,是分工

旗艦模型不會消失。在需要跨領域深度推理、多步驟規劃、復雜代碼生成的任務上,它們仍然是必要的。沒有人認真地認為100B模型可以在所有場景下替代旗艦版。

但在日常的業務執行層——那些占據大多數調用量的任務——用旗艦模型是在為不需要的能力付費。把這部分流量遷移到效率更高的模型上,毫無疑問是更具性價比的決策。

這種分工在軟件工程里有先例。CPU發展從追求單核主頻轉向多核協作,不是因為單核不重要,而是因為在實際工作負載下,多核架構的整體吞吐遠超單純堆主頻。數據庫領域也有類似的演變:OLTP和OLAP長期共存,不同的查詢特征對應不同的存儲和計算架構。

模型選型的邏輯正在經歷類似的成熟。Token效率正在成為工程師評估模型的核心維度之一——不是因為便宜,而是因為在高頻調用的場景下,它直接關系到產品的商業可行性。那些在單位成本下能提供足夠推理質量的模型,正在成為 Agentic應用的默認底座。

一條路線日漸清晰:規模繼續重要,但效率開始定價......

*以上內容不構成投資建議,不代表刊登平臺之觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

看盡落塵花q
2026-04-25 17:59:55
全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

隔壁說車老王
2026-04-26 07:53:19
往返400公里,京冀跨省通勤者的生活賬本

往返400公里,京冀跨省通勤者的生活賬本

新京報
2026-04-23 07:52:18
全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

思思夜話
2026-04-25 11:05:11
羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

都市快報橙柿互動
2026-04-26 08:10:36
發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

小嵩
2026-04-23 11:26:38
又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

童叔不飆車
2026-04-25 21:05:32
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創始人筆記
2026-04-23 21:44:50
剛剛!東莞全城沸騰!

剛剛!東莞全城沸騰!

東莞好生活
2026-04-25 22:48:44
約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

小影的娛樂
2026-04-11 16:46:06
恩愛14年夫妻憑《八千里路云和月》再度走紅

恩愛14年夫妻憑《八千里路云和月》再度走紅

荒野老五
2026-04-26 02:05:18
朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

青林知青
2026-04-09 14:39:41
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

上觀新聞
2026-04-24 18:21:14
巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

魔都姐姐雜談
2026-04-25 16:03:15
穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

國際阿嘗
2026-04-26 08:24:55
日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

鑒史錄
2026-04-26 05:54:21
泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

安海客
2026-04-26 09:14:15
2026-04-26 11:59:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
145173文章數 2653380關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

教育
時尚
健康
數碼
軍事航空

教育要聞

壓軸出場的題目,很多小朋友都失分了

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

干細胞如何讓燒燙傷皮膚"再生"?

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版