无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

“Token 大爆炸”前夜,數據基礎設施正在成為新的變量

0
分享至


作者 | 凌敏

Agent 正在制造一場“Token 大爆炸”。六年前,OpenAI Token 使用量最大的用戶每月能消耗約 10 萬個 Token。但在 2026 年,這個數字變成了 10000 億。

當 Agent 開始吞噬企業軟件,一場“Token 大爆炸”已無法避免。

Token 經濟時代已經到來了。”華為數據存儲產品線副總裁吳俊杰在做客 InfoQ《C 位面對面》欄目時表示,Agent 的爆發式增長將推動 Token 需求持續攀升,對于部署 Agent 和大模型應用的企業而言,需要考慮的問題已經不僅是能否把 AI 用起來,更重要的是如何在保證體驗的同時,將每 Token 的成本控制在合理范圍內。而這,與企業的數據基礎設施能力息息相關。

過去幾年,AI 發展經歷了算力、模型、應用三個階段。如今,AI 正在進入以數據為核心的第四階段。在這一階段,數據不再只是訓練和推理的“原材料”,而是直接決定模型精度、幻覺水平與泛化能力的關鍵變量。誰能更高效地組織、檢索和流轉數據,誰就能在 Agent 時代繼續留在牌桌上。

行業據此已經形成了共識。Gartner 預測,在 2026 年,人類智能、機器智能和組織智能之間的界限將繼續模糊,企業將以前所未有的方式依賴數據。

但 Agent 吞掉的,真的只是 Token 嗎?企業如何擺脫 Token 成本“刺客”?企業 AI 落地真正的卡點又在哪里?在本期《C 位面對面》中,InfoQ 極客傳媒總編輯 & 總經理王一鵬對話華為數據存儲產品線副總裁吳俊杰,一起聊聊“Token 大爆炸”前夜,數據基礎設施何以成為新的變量。

1 Agent 吞掉的,不只是 Token

表面上,Agent 快速發展帶來的是 Token 消耗量的狂飆,但本質上,它更像是對企業的數據能力進行一次前所未有的壓力測試。

最明顯的,是數據類型上的變化——Agent 產生了許多過去從未存在過的數據類型。比如在 Agent 推理的過程中,會產生 KV Cache 過程數據;隨著推理不斷深入,還會產生讓 AI 能夠記住并回溯過往行為的長期記憶數據。

更深層的變化,發生在取數邏輯上。在云計算時代,無論是數據庫查詢、文件訪問還是虛擬化應用,本質上都是無狀態、沒有上下文關聯、一次性完成的訪問行為。但到了 AI 時代,Agent 的工作方式更像是一個 7×24 小時持續在線的數字員工,數據訪問頻次不像過去一樣,有波峰、波谷,而是不停地訪問。

這種持續不間斷的上下文交互,把底層數據基礎設施的響應速度逼到了墻角。黃仁勛在不久前舉行的 GTC 臺北大會上,甚至將記憶管理定位為 Harness 體系里最困難的環節之一。原因在于,整個 AI 的記憶系統,從決定該記住什么樣的工作記憶(即 KV Cache),到如何進行高效檢索,都在向傳統的存儲架構發出挑戰。

傳統的存儲,在 AI 時代已經不能滿足 AI 推理的需求了。”吳俊杰坦言,隨著百萬級上下文、多輪推理成為主流大模型的“標配”,Agent 在推理的過程中需要持續、高頻地加載歷史對話、知識庫內容和實時信息。過去,業務的 I/O 模型和時延要求可能是毫秒級的;但在 AI 時代,這個標準被被提升到了微秒級。數據返回的任何一絲延遲,都會造成算力等待和空轉。

這些變化指向的是,數據基礎設施,很可能成為企業整個 Token 生產鏈條中新的瓶頸。而它最直接的后果,就是成本開始失控。

2 警惕 Token 成本“刺客”

Token 消耗的持續攀升,讓成本變成了一個敏感的話題。

很多企業習慣性地將 AI 成本高歸因于 GPU 價格和算力投入,但這只是故事的一半。在 AI 建設中,算力部署與電費是看得見的顯性開銷,真正容易被忽視的,是隱藏在系統運行過程中的隱性成本——算力的浪費。

這種浪費主要體現在三個方面。

第一,算力等數據。模型在訓練過程中,需要持續、大規模的數據供給。如果數據供給的效率滿足不了算力需求,算力就只能處于等待狀態。當模型規模增長到一定的數量級時,這種等待帶來的損失也會被持續放大。

第二,算力獨占。并不是所有的 AI 任務都需要獨占一張高性能計算卡,一些相對小型的 AI 項目,如果獨占一張算力卡,剩余的計算資源將無法被其他任務共享,造成算力資源浪費。

第三,重復計算。在多輪次、長序列的推理過程中,由于顯存空間不足,部分緩存數據無法保留,很多推理任務被迫截斷,最終導致算力卡做大量的重復工作。

三種浪費指向的,其實都是底層的數據基礎設施。當數據基礎設施的供給能力追不上算力的消耗速度,算力浪費就是必然結果。

那么,如何讓每 Token 的成本真正得到控制?

“答案跟整個數據的基礎設施息息相關”,吳俊杰認為,無論是訓練階段的數據供給,還是推理階段的上下文管理、KV Cache 復用,本質上都在影響算力利用率,而算力利用率又直接決定了每 Token 的最終成本。

以訓練場景為例,如果存儲系統無法持續、穩定地向算力集群提供數據,算力卡就會因為等待數據而空轉。華為在其 AI 存儲方案中,曾嘗試通過橫向擴展提升系統帶寬能力,最終帶寬達到 100 TB/s 級別,并將檢查點數據讀寫時間從十分鐘級縮短至秒級。端到端計算能力利用率提升超過 30%,減少 GPU 的無效等待。

到了推理階段,新的挑戰來自于不斷膨脹的上下文數據和 KV Cache。當百萬級上下文、多輪推理成為常態,系統需要保存和調用大量的記憶數據。如何降低推理過程中對顯存資源的依賴,進而降低成本?在日前舉行的 2026 華為創新數據基礎設施論壇上,華為以 CMS(Context Memory Storage)向業界提供了一個參考樣本。

CMS 是業界首個支持異構算力的上下文記憶存儲方案,它支持 KV 語義直通或采用專用 DPU 進行語義卸載,并能擴展為 PB 級的共享 KV 緩存池,能讓推理過程中產生的大量上下文數據,得到有效的存儲,最終使每 Token 的成本下降 30% 左右,同時將推理首 Token 時延降低 90%。

技術層面的優化可以降低 Token 成本,但企業 AI 落地的復雜性,遠不止于此。

3 企業 AI 落地的隱秘真相:卡點背后的系統性困局

企業真正進入 AI 落地階段后,會發現很多項目卡住的地方,往往并不在模型本身。

吳俊杰把企業在 AI 落地時最常見的卡點歸納成兩個:數據語料不夠、質量不高,以及算力、AI 專業人才有限

比如,很多企業以為自己有大量的數據,但到了真正使用時才發現,數據分散、格式不統一、質量參差不齊,能直接變成 AI 語料的部分并不多。

崖州灣國家實驗室就是一個典型案例。這個農業領域的國家級實驗室,最近幾年來正在嘗試通過 AI 打造育種 Agent,縮短育種周期。但問題是,海量的育種數據分散在全國數百個科研基地、高校和企業之間,缺少全面、標準化、可共享的表型組數據庫、育種知識庫,導致基因數據難以和作物性狀(如抗旱表現、產量潛力)高效關聯,育種周期、預見精度都受到影響。

為此,華為與崖州灣國家實驗室聯合構建了 AI 數據湖解決方案,幫助實驗室匯聚了全國多源頭農業數據,實現數據可視、可管、可流動,形成規模化種業數據資源池,并結合數據加工、應用編排、模型工程等工具進一步加工成高質量 AI 語料庫。育種 Agent 落地后,能減少 50% 育種周期,育種效率提升 30%。

算力資源方面,并不是每家企業都有條件部署大規模算力集群,和具備一支專業的 AI 人才隊伍。如何在有限的資源約束下,把 AI 高質量地部署起來,是大多數企業的真實痛點。

瑞金醫院也是如此。作為中國頭部醫療機構,瑞金醫院雖然在過去積累了上百萬份病理切片數據,但手里僅握有 16 張算力卡,這些算力資源根本不足以支撐一個復雜病理大模型的訓練,醫院也難以負擔巨額的硬件擴容成本。同時,數據本身的準備也是一場硬仗,數據清洗、標注、歸集需要專業臨床醫生與數據工程師大量協同,耗時費力。

華為通過 DCS AI 解決方案,提供了兩層解題思路,從數據工程、模型工程到應用編排打造了一套覆蓋全流程的工程化工具:

  • 在數據準備階段,通過 ModelEngine 工具鏈實現全流程自動化處理,醫生的工作從逐條標注轉為批量審核,數據標注效率提升數十倍

  • 在模型適配階段,通過模型蒸餾技術,將 671B 通用模型的能力蒸餾到 32B 參數規模的專家模型,同時結合資源調度技術,提升算力卡的資源利用率和應用會話的并發,最終在 16 張卡的資源條件下,成功幫助瑞金醫院孵化出具備臨床驗證能力的 RuiPath 病理大模型。


把兩個案例放在一起會發現,企業 AI 落地的卡點,從來不是單點的,而是系統性的。數據語料、算力資源、模型工程、開發工具、數據安全……任何一個環節的短板,都會拖住全局的后腿。割裂地解決單個問題,顯然治標不治本。

這也是華為提出AI DC 數據基礎設施全棧方案的底層邏輯。“企業要加速 AI 的落地,需要考慮建設私有的 AI 技術棧。華為把它叫做 AI DC 數據基礎設施全棧方案,全盤地去考慮數據湖、知識與記憶平臺、算力、模型框架,包括 Agent 的開發,以及端到端的數據韌性等,完整的去規劃和建設各方面的能力。”


據吳俊杰介紹,這套全棧方案由五層架構組成:數據湖、AI 數據平臺、算力管理與調度、模型工程、Agent 開發框架。

第一層是 AI 數據湖,重點解決語料供給問題。華為通過 OceanStor Pacific 全閃分布式存儲,實現最優 TCO 存儲海量數據;依托 DME Omni-Dataverse 統一數據空間,使能多模態、跨站點數據實時入湖、全局可視可管,同時具備千億千維向量數據的秒級檢索能力,實現高質量數據匯聚與供給。

第二層是 AI 數據平臺,這也是整套架構中,非常關鍵的一層。它直面 Agent 落地過程中最棘手的三個難題:知識怎么快速找得到、長上下文推理的效率、以及 Agent 的經驗怎么沉淀下來。

在知識處理方面,華為 AI 數據平臺能將知識檢索精度從 70% 提升至 95%,知識庫容量從億級擴展至千億級,知識更新實現秒級響應,檢索結果全程可追溯;在推理效率方面,依托 UCM(Unified Cache Manager)技術實現 KV Cache 的智能分級管理,打破顯存瓶頸,實現首 Token 時延最高降低 90%、推理吞吐提升 2 倍以上,優化推理效率與用戶體驗;在記憶管理方面,能沉淀 Agent 交互過程中的工作記憶與經驗記憶,讓 Agent 可以支持多輪任務的連貫跟進、并貼合用戶使用習慣提供個性化響應,提升 Agent 推理準確率 30%。


第三層是算力管理與調度。通過 DCS AI 解決方案中的 ModelEngine 工具鏈,實現 XPU 算力的虛擬化和細粒度切分,最大可實現 XPU 卡 1:10 切分,做到“一卡多用”,提升資源利用率。

第四層是模型工程。通過開箱即用的模型工程能力,幫助企業更高效的實現模型部署。同時,提供模型的適配、增訓等能力,讓通用模型能夠高效轉化成行業專用模型。

第五層是 Agent 開發框架。通過 ModelEngine Nexent 智能體平臺,用戶可以用自然語言直接生成 Agent,大幅降低開發門檻,使 Agent 上線周期縮短 80%;此外,ModelEngine Nexent 還能對 Skill、提示詞、記憶實現自動優化,讓 Agent 越用越聰明。

從數據源頭到 Agent 生產,這五層架構形成了一條完整的鏈路,更像是一條為 AI 原生應用量身打造的數據“生產線”。

在這條“生產線”上,數據不再只是被存儲的靜態資產,而是從入湖、加工、檢索到注入記憶、驅動 Agent 決策,一路流動、一路增值。如果說模型決定智能的上限,那么這套體系,決定的就是智能能否真正落地。

4 結語:AI 的下半程在于數據

回到最開始的那個“Token 大爆炸”問題,顯然,當下真正值得大家關注的,早就不是 Token 數量本身,而是數字背后,是什么在真正決定 Token 的生產成本、生成質量與價值轉化率。

答案,正指向數據。

在 2026 華為創新數據基礎設施論壇上,華為提到一個很有意思的判斷:AI 的下半程在于數據。如果說 AI 的第一章是算力,第二章是模型,第三章是 Agent,那么第四章,毫無疑問就是數據。

當 Agent 開始批量上崗,成為 7×24 小時工作的數字員工時,企業比拼的不再是誰調用了更多 Token,而是誰能讓數據流得更順、記得更久、算得更值。而數據湖、知識與記憶平臺、KV Cache、算力調度、模型工程這些看起來不那么性感的數據基礎設施,正在成為這個問題最關鍵的答案之一。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

事實證明馬杜羅政權垮臺之后,委內瑞拉人確實更有盼頭了

玲兒愛唱歌
2026-06-04 07:05:24
故宮珍藏的清代皇室珍珠,為什么很多歪歪斜斜不夠圓潤?

故宮珍藏的清代皇室珍珠,為什么很多歪歪斜斜不夠圓潤?

收藏大視界
2026-06-12 23:26:52
“最佳心率”是多少?建議:過58歲以后,心率最好保持這個標準

“最佳心率”是多少?建議:過58歲以后,心率最好保持這個標準

普陀動物世界
2026-06-13 07:59:59
隨著韓國2-1捷克,賽后球迷不得不承認的4個事實,國足永遠比不上

隨著韓國2-1捷克,賽后球迷不得不承認的4個事實,國足永遠比不上

生活新鮮市
2026-06-12 15:29:49
“鵝腿阿姨”微信賬號解封

“鵝腿阿姨”微信賬號解封

三言科技
2026-06-12 21:42:11
我75歲,存款300多萬,血的教訓告誡我:再親的親人也要留個心眼

我75歲,存款300多萬,血的教訓告誡我:再親的親人也要留個心眼

千秋文化
2026-06-12 20:21:36
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
“招風耳,懸膽鼻,真是八面玲瓏”,附中女孩采訪火了,滴水不漏

“招風耳,懸膽鼻,真是八面玲瓏”,附中女孩采訪火了,滴水不漏

熙熙說教
2026-06-12 19:33:30
穆帥敲定重磅補強!皇馬免簽B席,徹底放棄恩佐與羅德里!

穆帥敲定重磅補強!皇馬免簽B席,徹底放棄恩佐與羅德里!

田先生籃球
2026-06-12 06:49:10
2026世界杯巴拉圭開場送烏龍

2026世界杯巴拉圭開場送烏龍

體壇周報
2026-06-13 09:40:44
我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

我國最大遺憾!1994年將領土劃給俄羅斯,如今還能再收回來嗎?

談古論今歷史有道
2026-06-10 09:30:09
坐地起價!世界杯新星被豪門瘋搶,曼聯被硬逼:不砸天價直接出局

坐地起價!世界杯新星被豪門瘋搶,曼聯被硬逼:不砸天價直接出局

一隅非生
2026-06-13 08:24:47
清邁偶遇瞿穎一家四口,倆女兒身高近170,老公看著也就30出頭

清邁偶遇瞿穎一家四口,倆女兒身高近170,老公看著也就30出頭

柒佰娛
2026-06-13 08:17:09
捷克球迷怒斥韓國!沒有裁判你們贏不了,如果輸給了中國我們認了

捷克球迷怒斥韓國!沒有裁判你們贏不了,如果輸給了中國我們認了

酷侃體壇
2026-06-12 18:57:01
2026 “兩病” 報銷新規:無起付線、藥品零自付,辦理超簡單!

2026 “兩病” 報銷新規:無起付線、藥品零自付,辦理超簡單!

度看全球
2026-06-13 00:05:01
北控男籃痛定思痛!聘劉曉宇任主帥,劉家成總經理,李春江為顧問

北控男籃痛定思痛!聘劉曉宇任主帥,劉家成總經理,李春江為顧問

小驛拍客在北漂
2026-06-13 07:20:00
山東醫藥大學再通報“展某某學位證無法認證”

山東醫藥大學再通報“展某某學位證無法認證”

界面新聞
2026-06-12 20:30:09
“去上海住哥哥家被警告”引群嘲,撕開了當下社會最殘酷的真相

“去上海住哥哥家被警告”引群嘲,撕開了當下社會最殘酷的真相

椰青美食分享
2026-06-13 08:04:59
坑慘安帥?曝34歲內馬爾無緣世界杯小組賽!巴西隊換人期限將截止

坑慘安帥?曝34歲內馬爾無緣世界杯小組賽!巴西隊換人期限將截止

我愛英超
2026-06-13 06:27:26
“鵝腿風波”后“鴨腿染色”實驗火了:有網友用蔥汁冷藏浸泡6個小時后烤制,表皮變色,肉和骨頭均未變綠

“鵝腿風波”后“鴨腿染色”實驗火了:有網友用蔥汁冷藏浸泡6個小時后烤制,表皮變色,肉和骨頭均未變綠

游戲收藏指南
2026-06-11 14:33:33
2026-06-13 11:11:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12525文章數 51943關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

沈逸:日菲"地圖開疆"耍花招 中方高度敏感明確回應

頭條要聞

沈逸:日菲"地圖開疆"耍花招 中方高度敏感明確回應

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
旅游
手機
健康
公開課

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

旅游要聞

貴旅集團躍升全國文旅品牌傳播力第7名

手機要聞

蘋果iPhone 17 Pro等升級iOS 27后可啟用AI高級聽寫功能

老人、小孩、孕婦,吃粽子有啥風險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版