網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

芯片換了戰(zhàn)場，中國公司開打Token仗

2026-06-26 17:22:18　來源: 虎嗅APP

北京舉報

分享至

出品｜虎嗅科技組

作者｜陳伊凡

編輯｜苗正卿

頭圖｜AI生成

這是虎嗅WAIC“追蹤Token商業(yè)新范式”系列文章第05期。

2026年，紅果短劇平臺上出了個新物種：三五個人的小團(tuán)隊，靠 AI 工具批量造短劇。產(chǎn)量翻倍、成本驟降。

這件事當(dāng)然有著某種顛覆的意味，一個叫做OPC（一人公司）的組織形式率先在短劇行業(yè)誕生。但在上海浦東的曦望Sunrise辦公室，聯(lián)席CEO王湛看到的，是一個叫做“Token 消耗量”的數(shù)字。

Token，簡單說，就是 AI 干活的計量單位。你讓 AI 寫一段話、畫一張圖、生成一集短劇，它都在消耗 Token。Token 越多，燒的算力越多，花的錢也越多。曦望Sunrise（以下簡稱：曦望）賣的東西，恰好就是讓這筆賬變便宜的芯片。

“我們預(yù)判了推理算力會大幅度增長，但沒料到增速如此之快?！蓖跽空f。

曦望聯(lián)席CEO王湛圖片由曦望Sunrise提供

如果要找一家公司來講 Token 的故事，曦望大概是最合適的那個。Token 是推理需求爆發(fā)之后才火的概念，而曦望做的，恰好就是Token工廠里最核心的推理 GPU。

一同參與此次話題討論的，還有曦望的CTO高洋。和王湛相比，高洋是一個純粹的技術(shù)人，甚至有些“社恐”，他是一個文字表達(dá)邏輯大于話語表達(dá)的人。王湛則不一樣，他更像是一個企業(yè)家，具備商業(yè)嗅覺，對市場變化反應(yīng)極快。

曦望CTO高洋圖片由曦望Sunrise提供

王湛說，這也是曦望團(tuán)隊的特點，集群作戰(zhàn)，各有所長。

從會議室的落地窗望出去，黃浦江緩緩流過。對岸是徐匯西岸的東西雙塔，中國 AI 公司密度最高的地方。幾站地鐵外是張江，芯片企業(yè)密密匝匝。曦望卡在這兩個產(chǎn)業(yè)的交匯點。

它從一家 AI 公司——商湯科技孵化而來，基因里天然帶著“軟件優(yōu)先”的直覺：先看大模型和AI軟件往哪走，再據(jù)此定義硬件，讓硬件設(shè)計服從軟件的走向。這種視角，讓曦望從誕生的第一天起就盯上了推理市場。

解釋一下“推理”。AI 的工作分兩步：訓(xùn)練是造出一個聰明的大腦，推理是讓這個大腦干活。過去幾年，錢幾乎都砸在訓(xùn)練上，因為大腦還不夠聰明，現(xiàn)在大腦夠用了，干活的需求就爆發(fā)了。

一組數(shù)據(jù)描繪出了這場變革的輪廓。德勤預(yù)測，2026年推理將吃掉全球 AI 算力的三分之二，而三年前推理市場還幾乎不存在。OpenAI 每天光給 ChatGPT 跑推理就燒掉70多萬美元，一年賬單超過2.5億。而 GPT-4訓(xùn)練一次的成本？四個月的推理費就能覆蓋。

另一個更有值得關(guān)注的，是中國的國產(chǎn)芯片和生態(tài)在這一輪國產(chǎn)大模型的推理爆發(fā)中的機遇正在被放大。

王湛說了一句話，讓人印象深刻，中國的推理芯片是跟著中國大模型整體發(fā)展一起成長的，是整個中國AI生態(tài)里重要的一環(huán)。國內(nèi)的AI芯片和中國整套AI生態(tài)的契合度更高，這是差異化的特點。

這扭轉(zhuǎn)了整個“國產(chǎn)替代”的敘事邏輯，從原本的倒逼和追趕，轉(zhuǎn)向了一種換道并跑。

事實上，到 2026 年初，中國大模型已經(jīng)在全球拿到了某種定價權(quán)。同樣一份 Token，中國模型的價格只有國外同行的六分之一到十分之一。

在我們交流后的一周，大模型公司智譜，港股上市不到半年，市值從528億港元，上漲至萬億港元，漲幅將近20倍。其背后正是“國產(chǎn)模型配國芯”的敘事，據(jù)了解，智譜的GLM-5.2上線首日，就完成了與國產(chǎn)算力平臺的全面適配。

王湛看來，國產(chǎn)算力和芯片的解決方案已經(jīng)不單是“國產(chǎn)替代”那么簡單，而是一個更劃算的選擇。

我曾和不少歐洲、中東和硅谷的AI公司交流，越來越多的AI應(yīng)用公司和海外開發(fā)者選擇用中國的開源模型，圖的就是便宜和安全，“你很難想象，DeepSeek正在成為這些硅谷這些AI公司的選擇”。一位歐洲科技公司的CEO告訴我。另外，在中東、歐洲，中國的服務(wù)器和芯片正在這些地區(qū)進(jìn)行售賣，這也意味著中國的模型和芯片廠商，正在突破“國產(chǎn)追趕”，進(jìn)入全球市場的競爭。

我們這次聊天，主要想搞清楚幾件事：一家 AI 基因的公司，為什么選擇做推理專用 GPU？推理芯片的生意，究竟怎么跑通？誰在買單，錢又從哪省出來？曦望到底怎么做Token這門生意？以及更重要的，在推理這個賽道上，國產(chǎn)芯片和中國方案，在全球到底有多大競爭力？

當(dāng)“反共識”變成“共識”

三年前如果有人說要做一家推理專用的GPU公司，大概率會被當(dāng)成瘋子。

那時候AI的重心全在訓(xùn)練。2022年前后，深度學(xué)習(xí)還在“造模型”階段，行業(yè)的興奮點是怎么把模型訓(xùn)得更大、更聰明。如果你翻看三年前AI芯片公司的宣傳，云端訓(xùn)練芯片是他們的主戰(zhàn)場和拉高估值的錨點。彼時的模型參數(shù)量才百萬到千萬級別，跑一次推理的計算量微乎其微。

為它專門做一款芯片？簡直是“高射炮打蚊子”。

轉(zhuǎn)折發(fā)生在大模型出現(xiàn)之后。

這里要解釋一個關(guān)鍵機制。大模型生成文字，是一個字一個字往外蹦的。每蹦一個字，它都要回頭看一遍前面所有說過的話，確認(rèn)上下文沒丟。這些“前文記憶”全都壓在顯存里。對話越長，記憶越大。一段百萬 Token 的上下文，光存這些記憶就要吃掉上百 GB 顯存。

而真正把推理需求推過臨界點的，是 AI 智能體（Agent）。和單輪問答不同，一個 Agent 任務(wù)往往要自己規(guī)劃、檢索、調(diào)用工具、再反復(fù)自我修正。業(yè)內(nèi)的測算是，完成一個智能體任務(wù)消耗的 Token，是一次普通對話的幾十倍；一些后臺常駐的監(jiān)控類 Agent，更是 7×24 不停地?zé)?Token。模型越能干，推理思考越完備，單位任務(wù)燒掉的 Token 就會越多。

所以訓(xùn)練和推理，瓶頸完全不同。訓(xùn)練的要義是Scaling Law的暴力美學(xué)，推理的關(guān)鍵，則卡在顯存容量和讀取速度上。模型的上下文窗口從幾千 Token 漲到幾十萬、上百萬 Token，再疊加 Agent 的多步調(diào)用，這個矛盾只會越來越尖銳。

再加上 DeepSeek 這類開源模型讓更多企業(yè)可以自己部署大模型，推理側(cè)的需求真正炸開了。

一面是推理需求的爆炸，一面卻出現(xiàn)了一個市場空白。王湛和曦望團(tuán)隊調(diào)研下來發(fā)現(xiàn)，市面上想買推理芯片的公司，能選的要么是以訓(xùn)練為主的“訓(xùn)推一體”GPU（推理只是附帶功能），要么是專用芯片 ASIC（效率高但適配性差，換個模型就很麻煩）。沒有人做一款真正為推理而生、又能兼容主流開發(fā)生態(tài)的通用 GPU。

2024年年底之前，行業(yè)主流還是“訓(xùn)推一體、訓(xùn)練為王”，曦望做了一個反共識的決定：砍掉所有訓(xùn)練模塊，把全部資源押注推理，只做推理GPU。

市面上還有另一種選擇：ASIC，專用芯片。它為某個特定模型量身定做，效率極高。也是大模型之下的受益者。曦望為什么不走這條路，偏要用通用架構(gòu)做推理？我試圖用幾種行業(yè)里流行的解決方案向他們提出疑問。

曦望CTO 高洋的回答，很干凈形象：專用芯片雖然能在單一模型上做到極致效率，但這相當(dāng)于把模型“寫死”在芯片上，盡管效率很高，但只能適配固定模型，無法升級調(diào)整，另一面，AI模型架構(gòu)的演進(jìn)速度遠(yuǎn)超硬件周期，尤其在 Agent 時代，模型和工作流幾乎月月在變，通用芯片架構(gòu)，能夠保證各類客戶的需求，適配不同的Agent，本質(zhì)上是在“今天最佳”和“明天可能”之間做權(quán)衡。

這很像是單項選手和全能型選手的差異，曦望選擇做后者。

王湛的視角更偏市場。他算了一筆時間賬：一顆芯片從研發(fā)到流片落地，最少18個月，過去甚至要兩年以上。如果芯片兼容性不夠好，等你做完的時候，內(nèi)置適配的模型已經(jīng)落后了。

一款面向推理的GPU的設(shè)計取舍

為了讓文章更佳通俗易懂，過去我們很少花大篇幅介紹一家公司的產(chǎn)品，因為容易流于技術(shù)，但想把曦望的GPU如何省Token這件事理清，此次不妨說一說，曦望的啟望S3芯片的設(shè)計邏輯，你能夠從這種設(shè)計邏輯中，看到一家公司，如何絞盡腦汁，把推理的成本壓縮，讓單位Token發(fā)揮更大的價值。

在整個Token生產(chǎn)環(huán)節(jié)中，究竟哪個環(huán)節(jié)造成的Token損耗最高？

高洋把這件事拆解得很詳細(xì)，Token怎么生產(chǎn)出來的？整個過程可以類比為一條流水線：輸入、生產(chǎn)、交付。

首先是輸入，叫做Prefill預(yù)填充，這一步具體而言就是，用戶的所有歷史對話和上下文一次性灌進(jìn)去。對話越長，灌進(jìn)去的東西越多，需要的存儲空間越大。這一步吃的是算力和顯存容量。

接著就是生產(chǎn)環(huán)節(jié)，也叫做Decode解碼階段： AI 開始一個字一個字地生成回答，瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數(shù)據(jù)太慢，或者多塊芯片之間傳話太慢，任務(wù)就開始排隊。更麻煩的是，AI 在生成過程中需要不斷翻閱“前文記憶”（技術(shù)上叫 KV Cache），多個用戶同時提問時，這些記憶會爭搶顯存空間，導(dǎo)致無效讀寫、算力空轉(zhuǎn)。多層級的數(shù)據(jù)傳輸再一拖，整體效率就塌了。

然后是交付：長文本輸出需要分片傳輸，稍有不慎就會卡頓、端到端延遲升高。

從頭到尾看下來，算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。

這個判斷，成了曦望的GPU所有設(shè)計選擇的出發(fā)點。以啟望S3為例，它做了兩個在國產(chǎn) GPU 中少見的選擇：其一是內(nèi)存方案，它沒用訓(xùn)練芯片慣用的 HBM，而是選了消費電子使用的低功耗內(nèi)存（LPDDR）——因為推理需要的是大容量的內(nèi)存，S3的顯存容量最高可達(dá)600GB。這也是國內(nèi)顯存容量最大的GPU。

又因為 LPDDR 有不同規(guī)格（LPDDR6和 LPDDR5X 兼容），啟望S3可以靈活推出不同顯存版本，覆蓋從邊緣設(shè)備到云端服務(wù)器的各種場景，不用重新設(shè)計芯片。一套架構(gòu)，多種配置。

其二是通信方案，芯片和外界交換數(shù)據(jù)需要通道。啟望S3用了最新一代的通道標(biāo)準(zhǔn)（PCIe Gen6），相當(dāng)于把雙車道擴(kuò)成四車道，數(shù)據(jù)進(jìn)出速度翻倍。同時，AI翻閱“前文記憶”的方式也做了分層，最常用的放手邊，偶爾用的放隔壁，很少用的放倉庫。多個用戶同時提問，不再互相擠占、互相拖慢。

去掉訓(xùn)練模塊之后，省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例，在實際場景下，綜合算力利用率穩(wěn)定在95%左右。這解決了傳統(tǒng) GPU 一個老毛?。簶?biāo)稱算力很高，實際跑起來用不滿，大量算力在空轉(zhuǎn)。高洋做了一個比喻，這就像一個100人的工廠，只有30個人在干活，其余70個在等料。啟望S3做到了95%的利用率：100個人里95個都在干活，幾乎沒有浪費。

不過，一顆芯片再強，也扛不住一座 Token 工廠的體量。尤其到了 Agent 時代，長上下文、高并發(fā)，一個任務(wù)動輒要成百上千顆芯片協(xié)同來算。所以在單顆 S3 之外，曦望還把芯片組裝成了更大的“算力單元”——超節(jié)點：用高速互連，在一個互連域里把最多 256 顆芯片連成一體，對外像一顆“超級芯片”；這樣的集群能扛住萬億參數(shù)大模型的高并發(fā)推理。

單芯片解決“每顆卡多省 Token”，集群解決一座工廠穩(wěn)定產(chǎn) Token，兩件事，缺一不可。

兼容性，則是另一半。S3對 CUDA 生態(tài)兼容性做到了99%以上，已有的 AI Agent 和模型可以直接跑通，不用改代碼。就像換了一臺新電腦，但你原來裝的所有軟件、存的所有文件，插上就能用，不用重新安裝、重新配置。曦望走的是“軟硬同源”，硬件和軟件出自同一個團(tuán)隊、面向同一個目標(biāo)設(shè)計。軟件把同一顆芯片榨出更多有效 Token。

推理GPU的Token生意

王湛對商業(yè)模式想得很清楚。八個字：創(chuàng)造價值，獲得收入。

對曦望來說，幫客戶把 Token 成本降下來，讓 AI Agent 跑得更好，這本身就是價值?？蛻魹楫a(chǎn)品付費，付的錢覆蓋成本、產(chǎn)生利潤，利潤再投入研發(fā)和招人，完成閉環(huán)。

但“幫客戶省錢”這件事，具體怎么做？

曦望把當(dāng)前的推理算力客戶歸為四類，每類客戶盯的Token指標(biāo)完全不同。

第一類是智算中心。他們不怕“慢”，怕“閑”。傳統(tǒng)架構(gòu)下GPU閑置率常超過40%，這些客戶盯的是每一元錢出多少Token、每瓦特出多少Token，目標(biāo)是讓每張卡同時跑更多任務(wù)，7×24不停機。

第二類是互聯(lián)網(wǎng)和AI公司，他們不怕貴，怕“卡”。高并發(fā)、波峰波谷明顯，這類客戶愿意為低延遲、高吞吐支付溢價。

第三類是大型央國企和民企，用AI改造核心業(yè)務(wù)流程的企業(yè)。他們對數(shù)據(jù)安全有嚴(yán)格要求，數(shù)據(jù)一個字節(jié)都不能出機房，這類客戶的工作負(fù)載穩(wěn)定可預(yù)測，上下文通常很長。

第四類是垂直行業(yè)，制造、金融、醫(yī)療、自動駕駛。他們?nèi)盇I專家，要的是開箱即用，買的是解決方案不是算力卡。

四類客戶面貌迥異，但有一個共同處境：都在從“一次性燒錢訓(xùn)練”走向“天天算賬跑推理”。推理成本，成了所有人的命門。

更有趣的是，Token服務(wù)的市場，正在出現(xiàn)明顯分化，一部分是行業(yè)頭部玩家，他們靠技術(shù)提供高價值的服務(wù)，享受技術(shù)紅利，他們的毛利率可以做到60%以上；另一部分則是大量同質(zhì)化的服務(wù)，毛利率大概20%以下。

針對這樣的分化，王湛發(fā)現(xiàn)，Token的服務(wù)需要差異化，這背后其實是算力需求精細(xì)化的結(jié)果，作為算力提供方，需要讓不同質(zhì)量的算力服務(wù)找到真正需要它的場景。

例如高價值任務(wù)，編程、醫(yī)療、法律分析，用戶追求高準(zhǔn)確率和低延遲，對價格不敏感，這類服務(wù)的毛利率很好。低價值任務(wù)例如聊天、摘要、創(chuàng)意草稿，錯誤容忍度高，用戶極度價格敏感，毛利不高。

同一個“推理市場”，其實是兩門截然不同的生意。

王湛說，過去客戶問的是：你多少 TFLOPS？多大顯存？現(xiàn)在問的是：我這個業(yè)務(wù)，你能不能跑得起、跑得便宜、跑得穩(wěn)？“以前賣算力，現(xiàn)在變成賣算力的結(jié)果?！蓖跽空f。

他對終局的判斷是：國內(nèi)大模型很可能成為公共基礎(chǔ)設(shè)施，就像手機流量一樣，Token 價格整體還是會持續(xù)變便宜。成本下降本身，就是需求爆炸的燃料。 Token 越便宜，原來跑不起的應(yīng)用就都跑起來了，總需求反被放大。

“對我們做芯片的來說，這其實是最好的局面：我們把成本打下去，市場自己會變大。我們讓客戶賺錢，客戶就會更多的買，也讓我們賺錢?！蓖跽空f。

這是曦望想扮演的角色：離臺前的聚光燈很遠(yuǎn)，卻離每一個用Token創(chuàng)業(yè)的人很近。

以下為虎嗅訪談精選：

虎嗅：推理市場很大，但競爭也非常激烈，在曦望所在的推理算力賽道的競爭格局如何？

王湛：競爭確實激烈，但我想先把“激烈”這個詞拆開——推理算力這條賽道，其實不是一鍋亂燉，它分幾個陣營。

大致是三類玩家：第一類是海外巨頭。問題是貴，在國內(nèi)還疊加了供應(yīng)與自主可控的不確定性。

第二類，是訓(xùn)推一體GPU，已經(jīng)有很多家上市的公司。

第三類是專用芯片 ASIC。對單一模型效率極高，但太“死”，模型一換就麻煩，更適合固定場景。

曦望選的是另一個位置：做一款真正為推理而生、又能兼容主流生態(tài)的通用 GPU：從架構(gòu)定義起就為推理取舍，走容量優(yōu)先的大顯存路線，再加上軟硬一體。

虎嗅：訓(xùn)練環(huán)節(jié)生態(tài)很重要，比如英偉達(dá)的CUDA，那推理這一塊生態(tài)的重要性有多大？

王湛：生態(tài)在推理一樣重要，但"重要"的含義，和訓(xùn)練不是一回事。訓(xùn)練那套生態(tài)CUDA 是典型。它的厲害之處是“進(jìn)得來、出不去”：你在上面寫代碼、調(diào)模型、攢了一堆庫和工具，社區(qū)也都在那兒，時間一長，遷移成本高到你根本不想走。

但推理的邏輯反過來了。推理階段，客戶手里已經(jīng)有訓(xùn)好的模型了——他不是要重新開發(fā)，他就想把這個模型跑得更便宜、更穩(wěn)。這時候他最在意的，不是“你的生態(tài)有多深”，而是“我搬過來要改多少東西”。所以推理這一層，生態(tài)的關(guān)鍵詞從"鎖定"變成了"兼容"：你能不能讓客戶的既有模型、既有應(yīng)用，幾乎零改動就遷過來。誰遷移成本最低，誰就贏。

這是個很關(guān)鍵的差別——訓(xùn)練的護(hù)城河，不會自動延伸到推理。 CUDA 在訓(xùn)練上再強，到了推理，客戶要的是"跑得起、跑得便宜"，而不是"再被鎖一次"。這恰恰是給我們這樣的挑戰(zhàn)者留的門：我們不去重造一個 CUDA，而是做到高度兼容主流生態(tài)，讓客戶搬家不疼。

但還有更深、也最容易被低估的一層：推理的“生態(tài)”，重點不在開發(fā)框架，而在優(yōu)化和運行時那一層。因為推理拼的是單位 Token 成本，而成本是靠軟硬協(xié)同一點點榨出來的——怎么調(diào)度、怎么管 KV-Cache、怎么量化、怎么把多卡之間的通信壓下去。這套系統(tǒng)軟件，才是推理時代真正的生態(tài)壁壘。它不是“把開發(fā)者鎖住”，而是“讓同一顆芯片產(chǎn)出更多有效 Token”。

所以我們的打法是兩條腿：對外，高兼容，讓客戶零改動遷入；對內(nèi)，軟硬同源，把硬件的每一分性能用軟件榨干凈。

虎嗅：半導(dǎo)體是一個“二八定律”非常明顯的行業(yè)，“老大吃肉、老二喝湯”，以美國為例，英偉達(dá)一家獨大，其他GPU公司幾乎沒有機會，中國市場是否還需要這么多家GPU公司？

王湛：這個問題問得好，但我覺得它把兩件事混在了一起：一是“市場會不會向頭部集中”，二是“中國需不需要這么多家”。第一件我同意，第二件我有不同看法。

集中，一定會發(fā)生，但它淘汰的是“同質(zhì)化”，不是“數(shù)量”。半導(dǎo)體確實是贏家通吃，可“通吃”是有邊界的，是在同一個細(xì)分、同一代技術(shù)里通吃。今天真正的問題，不是GPU公司太多，而是很多家在做同一件事，這種同質(zhì)化，確實只能活下來一兩家，該淘汰的會淘汰，這是健康的。但“需不需要這么多家”，得看它們是不是在做不一樣的事。

第二，英偉達(dá)的護(hù)城河，是在“訓(xùn)練”這個戰(zhàn)場上最深的，生態(tài)、先發(fā)、最強的通用算力。但推理是另一個游戲：它更看重單位成本、顯存容量、能效，更碎片化、更貼場景。你看國外，推理這一層其實也是百花齊放，各種專用芯片、云廠商的自研芯片都在長出來。所以"老大吃肉、其他沒機會"，是訓(xùn)練時代的一張快照，不是推理時代的結(jié)局。

第三，中國市場的邏輯，還有國產(chǎn)芯片和國產(chǎn)模型推理之間天然的高契合度?；氐侥愕膯栴}：中國不需要“這么多”做一樣事情的 GPU 公司，但需要幾家在不同方向上做到不可替代的。我們的選擇，是在推理這條正在被重畫的新賽道上，找一個別人替代不了的位置。

虎嗅：談?wù)勈袌龊蜕虡I(yè)模式，你觀察到的需求爆發(fā)的節(jié)點是什么時候？

王湛：已經(jīng)開始爆發(fā)了。之前訓(xùn)練是一錘子買賣，燒一筆大的；現(xiàn)在推理是天天發(fā)生的運營開支，跟著用戶量、調(diào)用量一直累積。以前賣算力，現(xiàn)在賣的是算力的結(jié)果?？蛻艉茉敢鉃椤懊恳粋€ Token 跑得多便宜、多穩(wěn)”付錢。所以在我看來，需求爆發(fā)真正的標(biāo)志，是大家開始為 Token 算賬了。

虎嗅：當(dāng)Token需求爆發(fā)后，大家發(fā)現(xiàn)Token成本不斷下降但價格卻不斷上升，漲價會持續(xù)到什么時候？

王湛：這恰恰說明一件事：現(xiàn)在不是成本在定價，是供需在定價。

成本確實在快速下行，靠芯片效率和架構(gòu)改進(jìn)，行業(yè)每年能把單位 Token 成本壓掉六七成。但價格還往上走，是因為需求漲得比成本降得更快：尤其 Agent 起來之后，一個任務(wù)燒的 Token 是過去的幾十倍，需求是指數(shù)級的；而算力、電力、數(shù)據(jù)中心這些供給端是線性的、還得排隊建。供給追不上需求的時候，定價權(quán)就從成本轉(zhuǎn)到了供應(yīng)手里。

而且得把兩個市場分開看。便宜的通用 Token，聊天、摘要這種——價格其實一直在掉，在打價格戰(zhàn)；真正在漲的，是高價值、高門檻的 Token——Agent、編程、醫(yī)療、低延遲這類，需求旺、供給緊、還有差異化，價格自然撐得住、甚至往上走。所以“成本降、價格漲”，更準(zhǔn)確的說法是“通用的在降、高價值的在漲”。

至于漲到什么時候，我的看法是，會一直持續(xù)到供給追上需求那一天，而這一天不會很快來。兩個原因：一是 Agent 才剛開始，Token 需求曲線還在最陡的那一段；二是產(chǎn)能建設(shè)沒那么快，晶圓、內(nèi)存和電這種硬供給，短期補不上。

還有一層更反直覺的：成本下降本身，就是需求爆炸的燃料。 Token 越便宜，原來跑不起的應(yīng)用就都跑起來了，總需求反被放大，所以“單位價格在降"和"總盤子、高價值那塊價格在漲"，會長期同時存在。對我們做芯片的來說，這其實是最好的局面：你把成本打下去，市場自己會變大；我們讓客戶賺錢，客戶就會更多的買，也讓我們賺錢。

虎嗅：剛剛聊了關(guān)于Token商業(yè)模式的問題，如果未來Token真的變成類似流量、資費的存在，整個Token產(chǎn)業(yè)鏈上誰的話語權(quán)可能是最大的，是芯片廠商、模型廠商還是系統(tǒng)廠商？

王湛：我先潑盆冷水，別指望話語權(quán)會穩(wěn)穩(wěn)落在某一層。就像流量——你看運營商，手里握著網(wǎng)絡(luò)和牌照，最后卻成了“管道”，價值被上面的應(yīng)用（微信、抖音這些）拿走了；而設(shè)備商靠技術(shù)壁壘，話語權(quán)一直都在。所以誰說了算，不取決于你在哪一層，而取決于你在那一層是不是稀缺、能不能被替代。放到 Token 這條鏈上，我的判斷是：中間的通用模型層，話語權(quán)只在最頭部玩家手上。開源模型一出來、價格戰(zhàn)一打，大部分模型就成了價格的接受者，只有最前沿那幾家能靠能力定價。

還有話語權(quán)的，會集中在兩端：一端是定義單位成本的那一層——算力生產(chǎn)端，誰能把每一個 Token、每一瓦電的成本做到最低，誰就握住了整條鏈的成本底盤，因為 Token 一旦變成水電煤，比的就是成本和效率；另一端是離需求最近、掌握運營規(guī)模的那一層——云、MaaS、運營商，誰掌握客戶和流量，誰就有定價權(quán)。

但有個前提：純賣某一層，最容易被做成管道。你只賣單顆芯片，就是個元器件供應(yīng)商；只賣通用模型，就被價格戰(zhàn)碾。所以要把芯片、系統(tǒng)、軟件整合成“能穩(wěn)定、低成本產(chǎn)高價值 Token 的能力”。說白了，話語權(quán)屬于“能把單位成本做到最低、又離需求最近”的那個角色，不屬于任何一個孤立的層。

虎嗅：說到“國產(chǎn)模型配國芯”，你們?nèi)绾尾季诌@方面的生態(tài)？哪些選擇合作？哪些選擇曦望自己做？

王湛：我們這事想得比較清楚，就定了一條線：決定推理性價比、且別人替代不了的，自己做；專業(yè)分工更高效、能讓生態(tài)更繁榮的，交給伙伴。

先說自己做的，核心就兩塊——推理 GPU 芯片，和它上面那一整套軟件。這兩件我們堅持軟硬同源、出自同一個團(tuán)隊。因為推理的性價比不來自某個單點最強，而來自軟硬件的協(xié)同：架構(gòu)怎么取舍、算子怎么調(diào)度、顯存怎么管理，必須芯片和軟件一起設(shè)計才榨得出來。這層一旦外包，差異化就沒了。所以從芯片架構(gòu)，到基礎(chǔ)軟件棧、推理平臺、再到兼容主流開發(fā)生態(tài)的編程模型，我們自己做。

合作的部分，主要是三塊：

一是模型。我們不做大模型——這點很重要。我們要做的，是讓國產(chǎn)大模型在國產(chǎn)芯片上跑得又快又省。所以我們跟主流國產(chǎn)模型、開源模型做深度適配?！芭洹边@個字的真義，就是把國產(chǎn)模型和國產(chǎn)芯片之間的適配損耗降到最低，而不是各做各的、硬湊在一起。

二是系統(tǒng)和工程。一座 Token 工廠不只有芯片，還有液冷、供電、服務(wù)器、集群。這些我們跟產(chǎn)業(yè)鏈伙伴一起做超節(jié)點和整柜方案，各出所長。

三是行業(yè)落地。每個行業(yè)的 know-how 我們不可能都懂，所以在金融、能源、制造這些場景，我們跟行業(yè)伙伴共建軟硬一體的解決方案——我們出算力底座和工具，他們出場景理解。

最上面還有一層是開放：我們把芯片的 IP 開放出來，允許伙伴在我們的技術(shù)之上定制他們自己的專屬芯片。這等于把生態(tài)的口子打開，讓它長出更多形態(tài)，而不是我們一家通吃。

說到底，國產(chǎn)生態(tài)能不能成，關(guān)鍵不在于誰能一家全包，而在于這條鏈上每一環(huán)——模型、芯片、系統(tǒng)、應(yīng)用——之間的"咬合"夠不夠緊。

虎嗅：現(xiàn)在AI領(lǐng)域還有哪些被低估、未來會被放大的機會，類似之前的光模塊？

王湛：第一是存儲。大家習(xí)慣把芯片的價值等同于算力，但其實存儲已經(jīng)是推理系統(tǒng)里成本占比最高的一塊。那種大容量、低成本、低功耗的內(nèi)存路線——被嚴(yán)重低估了。內(nèi)存之于推理，差不多就是光模塊之于訓(xùn)練集群的位置。

第二是電和能效。黃仁勛說未來的數(shù)據(jù)中心是“Token 工廠”，這句話還有半句沒說完：它是一座“電變 Token 的工廠”，真正的天花板是電。所以散熱、液冷、供電，以及"每一瓦能產(chǎn)出多少 Token"的能效，可以有新的變化。

第三是數(shù)據(jù)。AI發(fā)展的三要素是算法、算力、數(shù)據(jù)，現(xiàn)在算法層面各家大模型都在投入研發(fā)，算力層面有各類芯片公司在布局，但是數(shù)據(jù)領(lǐng)域還沒有出現(xiàn)頭部企業(yè)。

現(xiàn)在世界模型的概念越來越受重視，AI需要從只和網(wǎng)絡(luò)世界互動轉(zhuǎn)向和實體世界互動，這就需要大量之前網(wǎng)絡(luò)上沒有的高質(zhì)量數(shù)據(jù)，就像自動駕駛需要大量車輛采集的實景訓(xùn)練數(shù)據(jù)一樣，這類高質(zhì)量訓(xùn)練數(shù)據(jù)的需求會越來越大，相關(guān)市場有很大的成長空間，未來很可能會出現(xiàn)相關(guān)的頭部企業(yè)。

AI 行業(yè)開始認(rèn)真算賬了。不是只看模型能力，而是看 AI 是否真正進(jìn)入業(yè)務(wù)、產(chǎn)生結(jié)果、跑出回報。

這也是虎嗅想追問的：錢燒哪了？干成啥了？賺還是虧了？能復(fù)用嗎？

圍繞這四問，我們將深度對話AI產(chǎn)業(yè)鏈條上的重要公司，沉淀AI賬本樣本庫；還將在7月WAIC期間推出系列直播、閉門會，與企業(yè)關(guān)鍵決策者共探AI生意。

詳情請戳，一起見證AI時代商業(yè)落地的真實變化。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4870255.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.