无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

芯片換了戰(zhàn)場,中國公司開打Token仗

0
分享至


出品|虎嗅科技組

作者|陳伊凡

編輯|苗正卿

頭圖|AI生成

這是虎嗅WAIC“追蹤Token商業(yè)新范式”系列文章第05期。

2026年,紅果短劇平臺上出了個新物種:三五個人的小團(tuán)隊,靠 AI 工具批量造短劇。產(chǎn)量翻倍、成本驟降。

這件事當(dāng)然有著某種顛覆的意味,一個叫做OPC(一人公司)的組織形式率先在短劇行業(yè)誕生。但在上海浦東的曦望Sunrise辦公室,聯(lián)席CEO王湛看到的,是一個叫做“Token 消耗量”的數(shù)字。

Token,簡單說,就是 AI 干活的計量單位。你讓 AI 寫一段話、畫一張圖、生成一集短劇,它都在消耗 Token。Token 越多,燒的算力越多,花的錢也越多。曦望Sunrise(以下簡稱:曦望)賣的東西,恰好就是讓這筆賬變便宜的芯片。

“我們預(yù)判了推理算力會大幅度增長,但沒料到增速如此之快?!蓖跽空f。


曦望聯(lián)席CEO王湛 圖片由曦望Sunrise提供

如果要找一家公司來講 Token 的故事,曦望大概是最合適的那個。Token 是推理需求爆發(fā)之后才火的概念,而曦望做的,恰好就是Token工廠里最核心的推理 GPU。

一同參與此次話題討論的,還有曦望的CTO高洋。和王湛相比,高洋是一個純粹的技術(shù)人,甚至有些“社恐”,他是一個文字表達(dá)邏輯大于話語表達(dá)的人。王湛則不一樣,他更像是一個企業(yè)家,具備商業(yè)嗅覺,對市場變化反應(yīng)極快。


曦望CTO高洋 圖片由曦望Sunrise提供

王湛說,這也是曦望團(tuán)隊的特點,集群作戰(zhàn),各有所長。

從會議室的落地窗望出去,黃浦江緩緩流過。對岸是徐匯西岸的東西雙塔,中國 AI 公司密度最高的地方。幾站地鐵外是張江,芯片企業(yè)密密匝匝。曦望卡在這兩個產(chǎn)業(yè)的交匯點。

它從一家 AI 公司——商湯科技孵化而來,基因里天然帶著“軟件優(yōu)先”的直覺:先看大模型和AI軟件往哪走,再據(jù)此定義硬件,讓硬件設(shè)計服從軟件的走向。這種視角,讓曦望從誕生的第一天起就盯上了推理市場。

解釋一下“推理”。AI 的工作分兩步:訓(xùn)練是造出一個聰明的大腦,推理是讓這個大腦干活。過去幾年,錢幾乎都砸在訓(xùn)練上,因為大腦還不夠聰明,現(xiàn)在大腦夠用了,干活的需求就爆發(fā)了。

一組數(shù)據(jù)描繪出了這場變革的輪廓。德勤預(yù)測,2026年推理將吃掉全球 AI 算力的三分之二,而三年前推理市場還幾乎不存在。OpenAI 每天光給 ChatGPT 跑推理就燒掉70多萬美元,一年賬單超過2.5億。而 GPT-4訓(xùn)練一次的成本?四個月的推理費就能覆蓋。

另一個更有值得關(guān)注的,是中國的國產(chǎn)芯片和生態(tài)在這一輪國產(chǎn)大模型的推理爆發(fā)中的機遇正在被放大。

王湛說了一句話,讓人印象深刻,中國的推理芯片是跟著中國大模型整體發(fā)展一起成長的,是整個中國AI生態(tài)里重要的一環(huán)。國內(nèi)的AI芯片和中國整套AI生態(tài)的契合度更高,這是差異化的特點。

這扭轉(zhuǎn)了整個“國產(chǎn)替代”的敘事邏輯,從原本的倒逼和追趕,轉(zhuǎn)向了一種換道并跑。

事實上,到 2026 年初,中國大模型已經(jīng)在全球拿到了某種定價權(quán)。同樣一份 Token,中國模型的價格只有國外同行的六分之一到十分之一。

在我們交流后的一周,大模型公司智譜,港股上市不到半年,市值從528億港元,上漲至萬億港元,漲幅將近20倍。其背后正是“國產(chǎn)模型配國芯”的敘事,據(jù)了解,智譜的GLM-5.2上線首日,就完成了與國產(chǎn)算力平臺的全面適配。

王湛看來,國產(chǎn)算力和芯片的解決方案已經(jīng)不單是“國產(chǎn)替代”那么簡單,而是一個更劃算的選擇。

我曾和不少歐洲、中東和硅谷的AI公司交流,越來越多的AI應(yīng)用公司和海外開發(fā)者選擇用中國的開源模型,圖的就是便宜和安全,“你很難想象,DeepSeek正在成為這些硅谷這些AI公司的選擇”。一位歐洲科技公司的CEO告訴我。另外,在中東、歐洲,中國的服務(wù)器和芯片正在這些地區(qū)進(jìn)行售賣,這也意味著中國的模型和芯片廠商,正在突破“國產(chǎn)追趕”,進(jìn)入全球市場的競爭。

我們這次聊天,主要想搞清楚幾件事:一家 AI 基因的公司,為什么選擇做推理專用 GPU?推理芯片的生意,究竟怎么跑通?誰在買單,錢又從哪省出來?曦望到底怎么做Token這門生意?以及更重要的,在推理這個賽道上,國產(chǎn)芯片和中國方案,在全球到底有多大競爭力?

當(dāng)“反共識”變成“共識”

三年前如果有人說要做一家推理專用的GPU公司,大概率會被當(dāng)成瘋子。

那時候AI的重心全在訓(xùn)練。2022年前后,深度學(xué)習(xí)還在“造模型”階段,行業(yè)的興奮點是怎么把模型訓(xùn)得更大、更聰明。如果你翻看三年前AI芯片公司的宣傳,云端訓(xùn)練芯片是他們的主戰(zhàn)場和拉高估值的錨點。彼時的模型參數(shù)量才百萬到千萬級別,跑一次推理的計算量微乎其微。

為它專門做一款芯片?簡直是“高射炮打蚊子”。

轉(zhuǎn)折發(fā)生在大模型出現(xiàn)之后。

這里要解釋一個關(guān)鍵機制。大模型生成文字,是一個字一個字往外蹦的。每蹦一個字,它都要回頭看一遍前面所有說過的話,確認(rèn)上下文沒丟。這些“前文記憶”全都壓在顯存里。對話越長,記憶越大。一段百萬 Token 的上下文,光存這些記憶就要吃掉上百 GB 顯存。

而真正把推理需求推過臨界點的,是 AI 智能體(Agent)。和單輪問答不同,一個 Agent 任務(wù)往往要自己規(guī)劃、檢索、調(diào)用工具、再反復(fù)自我修正。業(yè)內(nèi)的測算是,完成一個智能體任務(wù)消耗的 Token,是一次普通對話的幾十倍;一些后臺常駐的監(jiān)控類 Agent,更是 7×24 不停地?zé)?Token。模型越能干,推理思考越完備,單位任務(wù)燒掉的 Token 就會越多。

所以訓(xùn)練和推理,瓶頸完全不同。訓(xùn)練的要義是Scaling Law的暴力美學(xué),推理的關(guān)鍵,則卡在顯存容量和讀取速度上。模型的上下文窗口從幾千 Token 漲到幾十萬、上百萬 Token,再疊加 Agent 的多步調(diào)用,這個矛盾只會越來越尖銳。

再加上 DeepSeek 這類開源模型讓更多企業(yè)可以自己部署大模型,推理側(cè)的需求真正炸開了。

一面是推理需求的爆炸,一面卻出現(xiàn)了一個市場空白。王湛和曦望團(tuán)隊調(diào)研下來發(fā)現(xiàn),市面上想買推理芯片的公司,能選的要么是以訓(xùn)練為主的“訓(xùn)推一體”GPU(推理只是附帶功能),要么是專用芯片 ASIC(效率高但適配性差,換個模型就很麻煩)。沒有人做一款真正為推理而生、又能兼容主流開發(fā)生態(tài)的通用 GPU。

2024年年底之前,行業(yè)主流還是“訓(xùn)推一體、訓(xùn)練為王”,曦望做了一個反共識的決定:砍掉所有訓(xùn)練模塊,把全部資源押注推理,只做推理GPU。

市面上還有另一種選擇:ASIC,專用芯片。它為某個特定模型量身定做,效率極高。也是大模型之下的受益者。曦望為什么不走這條路,偏要用通用架構(gòu)做推理?我試圖用幾種行業(yè)里流行的解決方案向他們提出疑問。

曦望CTO 高洋的回答,很干凈形象:專用芯片雖然能在單一模型上做到極致效率,但這相當(dāng)于把模型“寫死”在芯片上,盡管效率很高,但只能適配固定模型,無法升級調(diào)整,另一面,AI模型架構(gòu)的演進(jìn)速度遠(yuǎn)超硬件周期,尤其在 Agent 時代,模型和工作流幾乎月月在變,通用芯片架構(gòu),能夠保證各類客戶的需求,適配不同的Agent,本質(zhì)上是在“今天最佳”和“明天可能”之間做權(quán)衡。

這很像是單項選手和全能型選手的差異,曦望選擇做后者。

王湛的視角更偏市場。他算了一筆時間賬:一顆芯片從研發(fā)到流片落地,最少18個月,過去甚至要兩年以上。如果芯片兼容性不夠好,等你做完的時候,內(nèi)置適配的模型已經(jīng)落后了。


一款面向推理的GPU的設(shè)計取舍

為了讓文章更佳通俗易懂,過去我們很少花大篇幅介紹一家公司的產(chǎn)品,因為容易流于技術(shù),但想把曦望的GPU如何省Token這件事理清,此次不妨說一說,曦望的啟望S3芯片的設(shè)計邏輯,你能夠從這種設(shè)計邏輯中,看到一家公司,如何絞盡腦汁,把推理的成本壓縮,讓單位Token發(fā)揮更大的價值。

在整個Token生產(chǎn)環(huán)節(jié)中,究竟哪個環(huán)節(jié)造成的Token損耗最高?

高洋把這件事拆解得很詳細(xì),Token怎么生產(chǎn)出來的?整個過程可以類比為一條流水線:輸入、生產(chǎn)、交付。

首先是輸入,叫做Prefill預(yù)填充,這一步具體而言就是,用戶的所有歷史對話和上下文一次性灌進(jìn)去。對話越長,灌進(jìn)去的東西越多,需要的存儲空間越大。這一步吃的是算力和顯存容量。

接著就是生產(chǎn)環(huán)節(jié),也叫做Decode解碼階段: AI 開始一個字一個字地生成回答,瓶頸在帶寬、通信時延和顯存容量。如果芯片讀數(shù)據(jù)太慢,或者多塊芯片之間傳話太慢,任務(wù)就開始排隊。更麻煩的是,AI 在生成過程中需要不斷翻閱“前文記憶”(技術(shù)上叫 KV Cache),多個用戶同時提問時,這些記憶會爭搶顯存空間,導(dǎo)致無效讀寫、算力空轉(zhuǎn)。多層級的數(shù)據(jù)傳輸再一拖,整體效率就塌了。

然后是交付:長文本輸出需要分片傳輸,稍有不慎就會卡頓、端到端延遲升高。

從頭到尾看下來,算力不是核心瓶頸。真正卡脖子的是顯存容量、讀取帶寬和通信延遲。

這個判斷,成了曦望的GPU所有設(shè)計選擇的出發(fā)點。以啟望S3為例,它做了兩個在國產(chǎn) GPU 中少見的選擇:其一是內(nèi)存方案,它沒用訓(xùn)練芯片慣用的 HBM,而是選了消費電子使用的低功耗內(nèi)存(LPDDR)——因為推理需要的是大容量的內(nèi)存,S3的顯存容量最高可達(dá)600GB。這也是國內(nèi)顯存容量最大的GPU。

又因為 LPDDR 有不同規(guī)格(LPDDR6和 LPDDR5X 兼容),啟望S3可以靈活推出不同顯存版本,覆蓋從邊緣設(shè)備到云端服務(wù)器的各種場景,不用重新設(shè)計芯片。一套架構(gòu),多種配置。

其二是通信方案,芯片和外界交換數(shù)據(jù)需要通道。啟望S3用了最新一代的通道標(biāo)準(zhǔn)(PCIe Gen6),相當(dāng)于把雙車道擴(kuò)成四車道,數(shù)據(jù)進(jìn)出速度翻倍。同時,AI翻閱“前文記憶”的方式也做了分層,最常用的放手邊,偶爾用的放隔壁,很少用的放倉庫。多個用戶同時提問,不再互相擠占、互相拖慢。

去掉訓(xùn)練模塊之后,省出來的晶體管和功耗全部集中投向推理加速。還是以啟望S3為例,在實際場景下,綜合算力利用率穩(wěn)定在95%左右。這解決了傳統(tǒng) GPU 一個老毛?。簶?biāo)稱算力很高,實際跑起來用不滿,大量算力在空轉(zhuǎn)。高洋做了一個比喻,這就像一個100人的工廠,只有30個人在干活,其余70個在等料。啟望S3做到了95%的利用率:100個人里95個都在干活,幾乎沒有浪費。

不過,一顆芯片再強,也扛不住一座 Token 工廠的體量。尤其到了 Agent 時代,長上下文、高并發(fā),一個任務(wù)動輒要成百上千顆芯片協(xié)同來算。所以在單顆 S3 之外,曦望還把芯片組裝成了更大的“算力單元”——超節(jié)點:用高速互連,在一個互連域里把最多 256 顆芯片連成一體,對外像一顆“超級芯片”;這樣的集群能扛住萬億參數(shù)大模型的高并發(fā)推理。

單芯片解決“每顆卡多省 Token”,集群解決一座工廠穩(wěn)定產(chǎn) Token,兩件事,缺一不可。

兼容性,則是另一半。S3對 CUDA 生態(tài)兼容性做到了99%以上,已有的 AI Agent 和模型可以直接跑通,不用改代碼。就像換了一臺新電腦,但你原來裝的所有軟件、存的所有文件,插上就能用,不用重新安裝、重新配置。曦望走的是“軟硬同源”,硬件和軟件出自同一個團(tuán)隊、面向同一個目標(biāo)設(shè)計。軟件把同一顆芯片榨出更多有效 Token。


推理GPU的Token生意

王湛對商業(yè)模式想得很清楚。八個字:創(chuàng)造價值,獲得收入。

對曦望來說,幫客戶把 Token 成本降下來,讓 AI Agent 跑得更好,這本身就是價值??蛻魹楫a(chǎn)品付費,付的錢覆蓋成本、產(chǎn)生利潤,利潤再投入研發(fā)和招人,完成閉環(huán)。

但“幫客戶省錢”這件事,具體怎么做?

曦望把當(dāng)前的推理算力客戶歸為四類,每類客戶盯的Token指標(biāo)完全不同。

第一類是智算中心。他們不怕“慢”,怕“閑”。傳統(tǒng)架構(gòu)下GPU閑置率常超過40%,這些客戶盯的是每一元錢出多少Token、每瓦特出多少Token,目標(biāo)是讓每張卡同時跑更多任務(wù),7×24不停機。

第二類是互聯(lián)網(wǎng)和AI公司,他們不怕貴,怕“卡”。高并發(fā)、波峰波谷明顯,這類客戶愿意為低延遲、高吞吐支付溢價。

第三類是大型央國企和民企,用AI改造核心業(yè)務(wù)流程的企業(yè)。他們對數(shù)據(jù)安全有嚴(yán)格要求,數(shù)據(jù)一個字節(jié)都不能出機房,這類客戶的工作負(fù)載穩(wěn)定可預(yù)測,上下文通常很長。

第四類是垂直行業(yè),制造、金融、醫(yī)療、自動駕駛。他們?nèi)盇I專家,要的是開箱即用,買的是解決方案不是算力卡。

四類客戶面貌迥異,但有一個共同處境:都在從“一次性燒錢訓(xùn)練”走向“天天算賬跑推理”。推理成本,成了所有人的命門。

更有趣的是,Token服務(wù)的市場,正在出現(xiàn)明顯分化,一部分是行業(yè)頭部玩家,他們靠技術(shù)提供高價值的服務(wù),享受技術(shù)紅利,他們的毛利率可以做到60%以上;另一部分則是大量同質(zhì)化的服務(wù),毛利率大概20%以下。

針對這樣的分化,王湛發(fā)現(xiàn),Token的服務(wù)需要差異化,這背后其實是算力需求精細(xì)化的結(jié)果,作為算力提供方,需要讓不同質(zhì)量的算力服務(wù)找到真正需要它的場景。

例如高價值任務(wù),編程、醫(yī)療、法律分析,用戶追求高準(zhǔn)確率和低延遲,對價格不敏感,這類服務(wù)的毛利率很好。低價值任務(wù)例如聊天、摘要、創(chuàng)意草稿,錯誤容忍度高,用戶極度價格敏感,毛利不高。

同一個“推理市場”,其實是兩門截然不同的生意。

王湛說,過去客戶問的是:你多少 TFLOPS?多大顯存?現(xiàn)在問的是:我這個業(yè)務(wù),你能不能跑得起、跑得便宜、跑得穩(wěn)?“以前賣算力,現(xiàn)在變成賣算力的結(jié)果?!蓖跽空f。

他對終局的判斷是:國內(nèi)大模型很可能成為公共基礎(chǔ)設(shè)施,就像手機流量一樣,Token 價格整體還是會持續(xù)變便宜。成本下降本身,就是需求爆炸的燃料。 Token 越便宜,原來跑不起的應(yīng)用就都跑起來了,總需求反被放大。

“對我們做芯片的來說,這其實是最好的局面:我們把成本打下去,市場自己會變大。我們讓客戶賺錢,客戶就會更多的買,也讓我們賺錢?!蓖跽空f。

這是曦望想扮演的角色:離臺前的聚光燈很遠(yuǎn),卻離每一個用Token創(chuàng)業(yè)的人很近。


以下為虎嗅訪談精選:

虎嗅:推理市場很大,但競爭也非常激烈,在曦望所在的推理算力賽道的競爭格局如何?

王湛:競爭確實激烈,但我想先把“激烈”這個詞拆開——推理算力這條賽道,其實不是一鍋亂燉,它分幾個陣營。

大致是三類玩家:第一類是海外巨頭。問題是貴,在國內(nèi)還疊加了供應(yīng)與自主可控的不確定性。

第二類,是訓(xùn)推一體GPU,已經(jīng)有很多家上市的公司。

第三類是專用芯片 ASIC。 對單一模型效率極高,但太“死”,模型一換就麻煩,更適合固定場景。

曦望選的是另一個位置:做一款真正為推理而生、又能兼容主流生態(tài)的通用 GPU:從架構(gòu)定義起就為推理取舍,走容量優(yōu)先的大顯存路線,再加上軟硬一體。

虎嗅:訓(xùn)練環(huán)節(jié)生態(tài)很重要,比如英偉達(dá)的CUDA,那推理這一塊生態(tài)的重要性有多大?

王湛:生態(tài)在推理一樣重要,但"重要"的含義,和訓(xùn)練不是一回事。訓(xùn)練那套生態(tài)CUDA 是典型。它的厲害之處是“進(jìn)得來、出不去”:你在上面寫代碼、調(diào)模型、攢了一堆庫和工具,社區(qū)也都在那兒,時間一長,遷移成本高到你根本不想走。

但推理的邏輯反過來了。推理階段,客戶手里已經(jīng)有訓(xùn)好的模型了——他不是要重新開發(fā),他就想把這個模型跑得更便宜、更穩(wěn)。這時候他最在意的,不是“你的生態(tài)有多深”,而是“我搬過來要改多少東西”。所以推理這一層,生態(tài)的關(guān)鍵詞從"鎖定"變成了"兼容":你能不能讓客戶的既有模型、既有應(yīng)用,幾乎零改動就遷過來。誰遷移成本最低,誰就贏。

這是個很關(guān)鍵的差別——訓(xùn)練的護(hù)城河,不會自動延伸到推理。 CUDA 在訓(xùn)練上再強,到了推理,客戶要的是"跑得起、跑得便宜",而不是"再被鎖一次"。這恰恰是給我們這樣的挑戰(zhàn)者留的門:我們不去重造一個 CUDA,而是做到高度兼容主流生態(tài),讓客戶搬家不疼。

但還有更深、也最容易被低估的一層:推理的“生態(tài)”,重點不在開發(fā)框架,而在優(yōu)化和運行時那一層。因為推理拼的是單位 Token 成本,而成本是靠軟硬協(xié)同一點點榨出來的——怎么調(diào)度、怎么管 KV-Cache、怎么量化、怎么把多卡之間的通信壓下去。這套系統(tǒng)軟件,才是推理時代真正的生態(tài)壁壘。它不是“把開發(fā)者鎖住”,而是“讓同一顆芯片產(chǎn)出更多有效 Token”。

所以我們的打法是兩條腿:對外,高兼容,讓客戶零改動遷入;對內(nèi),軟硬同源,把硬件的每一分性能用軟件榨干凈。

虎嗅:半導(dǎo)體是一個“二八定律”非常明顯的行業(yè),“老大吃肉、老二喝湯”,以美國為例,英偉達(dá)一家獨大,其他GPU公司幾乎沒有機會,中國市場是否還需要這么多家GPU公司?

王湛:這個問題問得好,但我覺得它把兩件事混在了一起:一是“市場會不會向頭部集中”,二是“中國需不需要這么多家”。第一件我同意,第二件我有不同看法。

集中,一定會發(fā)生,但它淘汰的是“同質(zhì)化”,不是“數(shù)量”。 半導(dǎo)體確實是贏家通吃,可“通吃”是有邊界的,是在同一個細(xì)分、同一代技術(shù)里通吃。今天真正的問題,不是GPU公司太多,而是很多家在做同一件事,這種同質(zhì)化,確實只能活下來一兩家,該淘汰的會淘汰,這是健康的。但“需不需要這么多家”,得看它們是不是在做不一樣的事。

第二,英偉達(dá)的護(hù)城河,是在“訓(xùn)練”這個戰(zhàn)場上最深的,生態(tài)、先發(fā)、最強的通用算力。但推理是另一個游戲:它更看重單位成本、顯存容量、能效,更碎片化、更貼場景。你看國外,推理這一層其實也是百花齊放,各種專用芯片、云廠商的自研芯片都在長出來。所以"老大吃肉、其他沒機會",是訓(xùn)練時代的一張快照,不是推理時代的結(jié)局。

第三,中國市場的邏輯,還有國產(chǎn)芯片和國產(chǎn)模型推理之間天然的高契合度?;氐侥愕膯栴}:中國不需要“這么多”做一樣事情的 GPU 公司,但需要幾家在不同方向上做到不可替代的。我們的選擇,是在推理這條正在被重畫的新賽道上,找一個別人替代不了的位置。

虎嗅:談?wù)勈袌龊蜕虡I(yè)模式,你觀察到的需求爆發(fā)的節(jié)點是什么時候?

王湛:已經(jīng)開始爆發(fā)了。之前訓(xùn)練是一錘子買賣,燒一筆大的;現(xiàn)在推理是天天發(fā)生的運營開支,跟著用戶量、調(diào)用量一直累積。以前賣算力,現(xiàn)在賣的是算力的結(jié)果??蛻艉茉敢鉃椤懊恳粋€ Token 跑得多便宜、多穩(wěn)”付錢。所以在我看來,需求爆發(fā)真正的標(biāo)志,是大家開始為 Token 算賬了。

虎嗅:當(dāng)Token需求爆發(fā)后,大家發(fā)現(xiàn)Token成本不斷下降但價格卻不斷上升,漲價會持續(xù)到什么時候?

王湛:這恰恰說明一件事:現(xiàn)在不是成本在定價,是供需在定價。

成本確實在快速下行,靠芯片效率和架構(gòu)改進(jìn),行業(yè)每年能把單位 Token 成本壓掉六七成。但價格還往上走,是因為需求漲得比成本降得更快:尤其 Agent 起來之后,一個任務(wù)燒的 Token 是過去的幾十倍,需求是指數(shù)級的;而算力、電力、數(shù)據(jù)中心這些供給端是線性的、還得排隊建。供給追不上需求的時候,定價權(quán)就從成本轉(zhuǎn)到了供應(yīng)手里。

而且得把兩個市場分開看。便宜的通用 Token,聊天、摘要這種——價格其實一直在掉,在打價格戰(zhàn);真正在漲的,是高價值、高門檻的 Token——Agent、編程、醫(yī)療、低延遲這類,需求旺、供給緊、還有差異化,價格自然撐得住、甚至往上走。所以“成本降、價格漲”,更準(zhǔn)確的說法是“通用的在降、高價值的在漲”。

至于漲到什么時候,我的看法是,會一直持續(xù)到供給追上需求那一天,而這一天不會很快來。 兩個原因:一是 Agent 才剛開始,Token 需求曲線還在最陡的那一段;二是產(chǎn)能建設(shè)沒那么快,晶圓、內(nèi)存和電這種硬供給,短期補不上。

還有一層更反直覺的:成本下降本身,就是需求爆炸的燃料。 Token 越便宜,原來跑不起的應(yīng)用就都跑起來了,總需求反被放大,所以“單位價格在降"和"總盤子、高價值那塊價格在漲",會長期同時存在。對我們做芯片的來說,這其實是最好的局面:你把成本打下去,市場自己會變大;我們讓客戶賺錢,客戶就會更多的買,也讓我們賺錢。

虎嗅:剛剛聊了關(guān)于Token商業(yè)模式的問題,如果未來Token真的變成類似流量、資費的存在,整個Token產(chǎn)業(yè)鏈上誰的話語權(quán)可能是最大的,是芯片廠商、模型廠商還是系統(tǒng)廠商?

王湛:我先潑盆冷水,別指望話語權(quán)會穩(wěn)穩(wěn)落在某一層。就像流量——你看運營商,手里握著網(wǎng)絡(luò)和牌照,最后卻成了“管道”,價值被上面的應(yīng)用(微信、抖音這些)拿走了;而設(shè)備商靠技術(shù)壁壘,話語權(quán)一直都在。所以誰說了算,不取決于你在哪一層,而取決于你在那一層是不是稀缺、能不能被替代。放到 Token 這條鏈上,我的判斷是:中間的通用模型層,話語權(quán)只在最頭部玩家手上。開源模型一出來、價格戰(zhàn)一打,大部分模型就成了價格的接受者,只有最前沿那幾家能靠能力定價。

還有話語權(quán)的,會集中在兩端:一端是定義單位成本的那一層——算力生產(chǎn)端,誰能把每一個 Token、每一瓦電的成本做到最低,誰就握住了整條鏈的成本底盤,因為 Token 一旦變成水電煤,比的就是成本和效率;另一端是離需求最近、掌握運營規(guī)模的那一層——云、MaaS、運營商,誰掌握客戶和流量,誰就有定價權(quán)。

但有個前提:純賣某一層,最容易被做成管道。 你只賣單顆芯片,就是個元器件供應(yīng)商;只賣通用模型,就被價格戰(zhàn)碾。所以要把芯片、系統(tǒng)、軟件整合成“能穩(wěn)定、低成本產(chǎn)高價值 Token 的能力”。說白了,話語權(quán)屬于“能把單位成本做到最低、又離需求最近”的那個角色,不屬于任何一個孤立的層。

虎嗅:說到“國產(chǎn)模型配國芯”,你們?nèi)绾尾季诌@方面的生態(tài)?哪些選擇合作?哪些選擇曦望自己做?

王湛:我們這事想得比較清楚,就定了一條線:決定推理性價比、且別人替代不了的,自己做;專業(yè)分工更高效、能讓生態(tài)更繁榮的,交給伙伴。

先說自己做的,核心就兩塊——推理 GPU 芯片,和它上面那一整套軟件。這兩件我們堅持軟硬同源、出自同一個團(tuán)隊。因為推理的性價比不來自某個單點最強,而來自軟硬件的協(xié)同:架構(gòu)怎么取舍、算子怎么調(diào)度、顯存怎么管理,必須芯片和軟件一起設(shè)計才榨得出來。這層一旦外包,差異化就沒了。所以從芯片架構(gòu),到基礎(chǔ)軟件棧、推理平臺、再到兼容主流開發(fā)生態(tài)的編程模型,我們自己做。

合作的部分,主要是三塊:

一是模型。 我們不做大模型——這點很重要。我們要做的,是讓國產(chǎn)大模型在國產(chǎn)芯片上跑得又快又省。所以我們跟主流國產(chǎn)模型、開源模型做深度適配?!芭洹边@個字的真義,就是把國產(chǎn)模型和國產(chǎn)芯片之間的適配損耗降到最低,而不是各做各的、硬湊在一起。

二是系統(tǒng)和工程。 一座 Token 工廠不只有芯片,還有液冷、供電、服務(wù)器、集群。這些我們跟產(chǎn)業(yè)鏈伙伴一起做超節(jié)點和整柜方案,各出所長。

三是行業(yè)落地。 每個行業(yè)的 know-how 我們不可能都懂,所以在金融、能源、制造這些場景,我們跟行業(yè)伙伴共建軟硬一體的解決方案——我們出算力底座和工具,他們出場景理解。

最上面還有一層是開放:我們把芯片的 IP 開放出來,允許伙伴在我們的技術(shù)之上定制他們自己的專屬芯片。這等于把生態(tài)的口子打開,讓它長出更多形態(tài),而不是我們一家通吃。

說到底,國產(chǎn)生態(tài)能不能成,關(guān)鍵不在于誰能一家全包,而在于這條鏈上每一環(huán)——模型、芯片、系統(tǒng)、應(yīng)用——之間的"咬合"夠不夠緊。

虎嗅:現(xiàn)在AI領(lǐng)域還有哪些被低估、未來會被放大的機會,類似之前的光模塊?

王湛:第一是存儲。 大家習(xí)慣把芯片的價值等同于算力,但其實存儲已經(jīng)是推理系統(tǒng)里成本占比最高的一塊。那種大容量、低成本、低功耗的內(nèi)存路線——被嚴(yán)重低估了。內(nèi)存之于推理,差不多就是光模塊之于訓(xùn)練集群的位置。

第二是電和能效。 黃仁勛說未來的數(shù)據(jù)中心是“Token 工廠”,這句話還有半句沒說完:它是一座“電變 Token 的工廠”,真正的天花板是電。所以散熱、液冷、供電,以及"每一瓦能產(chǎn)出多少 Token"的能效,可以有新的變化。

第三是數(shù)據(jù)。AI發(fā)展的三要素是算法、算力、數(shù)據(jù),現(xiàn)在算法層面各家大模型都在投入研發(fā),算力層面有各類芯片公司在布局,但是數(shù)據(jù)領(lǐng)域還沒有出現(xiàn)頭部企業(yè)。

現(xiàn)在世界模型的概念越來越受重視,AI需要從只和網(wǎng)絡(luò)世界互動轉(zhuǎn)向和實體世界互動,這就需要大量之前網(wǎng)絡(luò)上沒有的高質(zhì)量數(shù)據(jù),就像自動駕駛需要大量車輛采集的實景訓(xùn)練數(shù)據(jù)一樣,這類高質(zhì)量訓(xùn)練數(shù)據(jù)的需求會越來越大,相關(guān)市場有很大的成長空間,未來很可能會出現(xiàn)相關(guān)的頭部企業(yè)。

AI 行業(yè)開始認(rèn)真算賬了。不是只看模型能力,而是看 AI 是否真正進(jìn)入業(yè)務(wù)、產(chǎn)生結(jié)果、跑出回報。

這也是虎嗅想追問的:錢燒哪了?干成啥了?賺還是虧了?能復(fù)用嗎?

圍繞這四問,我們將深度對話AI產(chǎn)業(yè)鏈條上的重要公司,沉淀AI賬本樣本庫;還將在7月WAIC期間推出系列直播、閉門會,與企業(yè)關(guān)鍵決策者共探AI生意。

詳情請戳,一起見證AI時代商業(yè)落地的真實變化。


本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4870255.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
徐帆回應(yīng)離婚才9個月,68歲馮小剛和養(yǎng)女貼臉拍照親密 ,關(guān)系很好

徐帆回應(yīng)離婚才9個月,68歲馮小剛和養(yǎng)女貼臉拍照親密 ,關(guān)系很好

滄海一書客
2026-05-31 18:08:08
有哪一瞬間你對女朋友徹底失望?

有哪一瞬間你對女朋友徹底失望?

阿康四歲啦
2026-06-26 11:45:24
高市宣布出席APEC但不與中方會面,美國缺席會議

高市宣布出席APEC但不與中方會面,美國缺席會議

樂享人生風(fēng)雨
2026-06-26 15:22:00
烏克蘭首都基輔傳出爆炸聲

烏克蘭首都基輔傳出爆炸聲

新華社
2026-06-26 02:20:04
醫(yī)生:希望你的血脂報告里,永遠(yuǎn)不要出現(xiàn)這3項異常

醫(yī)生:希望你的血脂報告里,永遠(yuǎn)不要出現(xiàn)這3項異常

華庭講美食
2026-06-23 16:28:06
“建議取消私生子繼承權(quán)!”專家話炸翻全網(wǎng):憑什么要為背叛買單

“建議取消私生子繼承權(quán)!”專家話炸翻全網(wǎng):憑什么要為背叛買單

一絲不茍的法律人
2026-06-25 11:22:53
轟25+11!中國女籃20歲1米86混血前鋒崛起:偶像是李夢

轟25+11!中國女籃20歲1米86混血前鋒崛起:偶像是李夢

李喜林籃球絕殺
2026-06-26 16:54:04
今年夏天很反常,六月不熱早晚涼快,預(yù)兆著什么呢?

今年夏天很反常,六月不熱早晚涼快,預(yù)兆著什么呢?

小談食刻美食
2026-06-26 16:27:10
克里米亞大橋排起15公里車龍,俄游客連夜往外走

克里米亞大橋排起15公里車龍,俄游客連夜往外走

桂系007
2026-06-26 17:32:12
印度正在毒殺全世界?7億人的排泄物,毀了人類積攢百年的抗生素?

印度正在毒殺全世界?7億人的排泄物,毀了人類積攢百年的抗生素?

阿器談史
2026-06-25 14:17:40
上海發(fā)布市管干部任職前公示:李俊杰擬任市級機關(guān)正職

上海發(fā)布市管干部任職前公示:李俊杰擬任市級機關(guān)正職

澎湃新聞
2026-06-26 18:26:26
4s店瘋了!有人購車拆多筆1000元小額訂單,刷匯豐雙幣鉆石卡支付

4s店瘋了!有人購車拆多筆1000元小額訂單,刷匯豐雙幣鉆石卡支付

火山詩話
2026-06-24 04:23:45
歐洲人徹底被中國逼瘋了!

歐洲人徹底被中國逼瘋了!

安安說
2026-06-26 10:24:14
世界杯經(jīng)典恩怨局!德國合規(guī)控分復(fù)仇,8年輪回送走韓國隊

世界杯經(jīng)典恩怨局!德國合規(guī)控分復(fù)仇,8年輪回送走韓國隊

老特有話說
2026-06-26 17:17:49
波特:中場時日本主帥要是說雙方打平,我肯定立馬同意

波特:中場時日本主帥要是說雙方打平,我肯定立馬同意

懂球帝
2026-06-26 16:47:11
發(fā)現(xiàn)沒:高考550分,早已不是中等生,而是多數(shù)人夠不到的門檻

發(fā)現(xiàn)沒:高考550分,早已不是中等生,而是多數(shù)人夠不到的門檻

糖逗在娛樂
2026-06-26 13:40:14
中日情況不妙,琉球?qū)⒊苫鹚幫??高市呼?0國外援,中方以1對多

中日情況不妙,琉球?qū)⒊苫鹚幫??高市呼?0國外援,中方以1對多

阿芒娛樂說
2026-06-26 14:32:01
一小時狂賣2272臺!張雪機車820系列剛開賣 銷售額輕松破億

一小時狂賣2272臺!張雪機車820系列剛開賣 銷售額輕松破億

快科技
2026-06-26 16:37:16
就是天意??!特朗普當(dāng)場傻眼!

就是天意??!特朗普當(dāng)場傻眼!

葉葉夜
2026-06-26 08:14:51
1+1+1霸王合同!NBA教練圈集體炸鍋!開拓者新主帥把話挑明

1+1+1霸王合同!NBA教練圈集體炸鍋!開拓者新主帥把話挑明

世界體育圈
2026-06-26 18:25:44
2026-06-26 19:15:00
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
26541文章數(shù) 687837關(guān)注度
往期回顧 全部

科技要聞

拿了500億的梁文鋒,只挖地基,不信銷售

頭條要聞

已有19支隊伍晉級32強 盤點世界杯小組出線形勢

頭條要聞

已有19支隊伍晉級32強 盤點世界杯小組出線形勢

體育要聞

我在世界杯的每次奔跑,都為了證明你沒看錯

娛樂要聞

玥兒不回北京,馬筱梅解釋后媽身份

財經(jīng)要聞

懸在科技頭上的達(dá)摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

健康
教育
親子
旅游
軍事航空

“無糖湯圓”是否隱藏著健康陷阱?

教育要聞

全程免費!面向河南等省高一高二學(xué)生,海軍工程大學(xué)夏令營開始報名

親子要聞

科普|備孕第一步:讀懂身體“悄悄話”

旅游要聞

霸榜澳洲人亞洲度假地的日本,正被擠下榜首

軍事要聞

伊朗:駛離指定航線船舶不享有安全保障

無障礙瀏覽 進(jìn)入關(guān)懷版