![]()
【摘要】在生成式AI浪潮席卷全球的背景下,算力已經(jīng)成為互聯(lián)網(wǎng)公司最重要的戰(zhàn)略資源之一。
圍繞字節(jié)跳動的芯片布局,一條“自研+外采”的雙軌路徑正在逐漸清晰:一方面是內(nèi)部多類AI芯片持續(xù)推進研發(fā),另一方面則是對全球高端GPU算力的大規(guī)模采購。
相比單純依賴第三方芯片廠商,字節(jié)跳動顯然希望在算力層面獲得更多主動權(quán)。
但在NVIDIA等芯片巨頭形成強大生態(tài)壁壘的情況下,這場自研與外采并行的嘗試,究竟意味著什么?
以下是正文:
01
從內(nèi)容審核到AI算力:字節(jié)跳動自研芯片的真實起點
與許多互聯(lián)網(wǎng)公司不同,字節(jié)跳動的芯片布局并非直接圍繞大模型展開,而是從內(nèi)容平臺的推理算力需求切入。
隨著短視頻平臺規(guī)模不斷擴大,抖音和TikTok每天需要處理海量視頻、圖片和文本內(nèi)容,其中相當一部分涉及違規(guī)識別、內(nèi)容審核和風險控制。
這類任務(wù)雖然計算密集,但算法相對固定,非常適合通過專用AI推理芯片進行加速。相比通用GPU,自研專用芯片可以在功耗和成本上獲得更高效率。
據(jù)業(yè)內(nèi)人士透露,字節(jié)目前已經(jīng)在內(nèi)部數(shù)據(jù)中心部署自研AI芯片,用于內(nèi)容識別和審核等推理任務(wù)。
過去平臺主要采用“系統(tǒng)初篩+人工復核”的模式,大量審核工作依賴人工完成,而隨著AI推理能力提升,部分流程已經(jīng)可以由算法自動處理。
在這一基礎(chǔ)上,字節(jié)逐漸擴展芯片研發(fā)范圍,目前公司內(nèi)部推進的芯片項目至少包括AI芯片、服務(wù)器CPU、VPU以及DPU等多個方向。
VPU主要用于視頻編解碼和視頻處理加速,這與字節(jié)以短視頻為核心的業(yè)務(wù)結(jié)構(gòu)高度契合;DPU則主要面向數(shù)據(jù)中心網(wǎng)絡(luò)與存儲加速,是云計算基礎(chǔ)設(shè)施的重要組件。
與此同時,字節(jié)也在探索更通用的計算芯片。相關(guān)人士透露,其AI芯片已經(jīng)迭代至第三代產(chǎn)品,早期版本主要針對特定服務(wù)器場景設(shè)計,并未采用CUDA架構(gòu),而新一代產(chǎn)品則預計做CUDA架構(gòu)。
在組織層面,字節(jié)在芯片領(lǐng)域的投入規(guī)模也不小。
據(jù)《金融時報》披露,字節(jié)跳動2026年計劃投入AI領(lǐng)域的資金高達1600億元,其中850億元將專項用于AI處理器的采購與研發(fā)。
不過,從整體技術(shù)路線來看,字節(jié)目前的自研芯片仍然主要集中在推理側(cè)和特定業(yè)務(wù)場景。在訓練芯片領(lǐng)域,公司依然高度依賴外部供應商。
02
GPU生態(tài)的現(xiàn)實壁壘:字節(jié)跳動為何仍然大量外采
在大模型時代,訓練算力的需求遠遠超過傳統(tǒng)互聯(lián)網(wǎng)應用,這也是字節(jié)仍然大量依賴第三方芯片的主要原因。
當前全球AI訓練算力市場幾乎被英偉達所主導。
其H100 GPU等已經(jīng)成為大型語言模型訓練的核心硬件平臺,而CUDA軟件生態(tài)則進一步強化了這一優(yōu)勢。
H100 Tensor Core GPU提供3958 teraFLOPS的AI性能,更重要的是,它無需修改即可運行整個PyTorch和TensorFlow協(xié)議棧。
包括OpenAI、微軟和Meta在內(nèi)的AI機構(gòu),都在大規(guī)模使用NVIDIA GPU進行模型訓練。
字節(jié)跳動同樣是全球GPU算力的重要采購方,隨著推薦算法、搜索系統(tǒng)以及生成式AI模型規(guī)模不斷擴大,公司對高性能計算資源的需求持續(xù)增長。其云計算業(yè)務(wù)火山引擎近年來持續(xù)擴建AI算力基礎(chǔ)設(shè)施,以支持模型訓練和推理服務(wù)。
除了NVIDIA之外,多家芯片廠商也在試圖挑戰(zhàn)GPU市場格局,并在AI訓練與推理市場展開競爭。
其中,AMD近年來在數(shù)據(jù)中心AI芯片領(lǐng)域加速追趕。
其MI300X架構(gòu)將CPU和GPU集成在同一封裝上,擁有1530億個晶體管和5.3TB/s的內(nèi)存帶寬,提供192GB的HBM3內(nèi)存(比H100多2.4倍)。
MI300系列被視為AMD在AI時代最重要的產(chǎn)品,目標直指NVIDIA的H100市場。
與此同時,英特爾則通過Gaudi系列AI加速器切入這一市場。
Gaudi2與Gaudi3芯片強調(diào)成本效率,并采用開放軟件棧SynapseAI,試圖在大型AI集群部署中提供更具性價比的替代方案。與傳統(tǒng)GPU相比,Gaudi架構(gòu)更加針對深度學習訓練場景進行優(yōu)化。
![]()
圖源:騰訊新聞
在中國市場,AI算力芯片競爭同樣日趨激烈。
華為推出昇騰系列AI處理器,其中昇騰910被廣泛應用于國產(chǎn)AI訓練平臺。根據(jù)新浪財經(jīng),業(yè)界估測910C在FP16精度下的單卡算力能達到800 TFLOPS左右,大概是英偉達H100 芯片(2022年推出)的80%。
寒武紀則推出思元系列AI芯片,主要面向云端推理與訓練服務(wù)器市場,2022-2024年,其MLU370-X8及思元590芯片已與智象未來、百川智能等大模型客戶適配,進入生成式AI算力供應鏈。
與此同時,多家創(chuàng)業(yè)公司也在布局AI算力賽道。
壁仞科技推出BR100等GPU產(chǎn)品,試圖在通用AI計算領(lǐng)域挑戰(zhàn)傳統(tǒng)GPU架構(gòu);燧原科技則開發(fā)邃思系列AI芯片,重點面向數(shù)據(jù)中心訓練與推理市場。
在這一競爭格局下,全球AI芯片市場逐漸形成多條技術(shù)路線:既有NVIDIA主導的CUDA GPU生態(tài),也有AMD、Intel等廠商推動的替代方案,同時中國廠商則試圖構(gòu)建本土AI算力體系。
不過,與這些芯片廠商不同,字節(jié)自研芯片并不追求通用市場,而是更多服務(wù)于內(nèi)部業(yè)務(wù)。
這種模式意味著字節(jié)不必從一開始就挑戰(zhàn)NVIDIA的生態(tài)體系,而可以在推理和特定場景中逐步積累技術(shù)能力。
因此,在未來相當長一段時間內(nèi),“訓練依賴GPU、推理逐步自研”很可能仍然是字節(jié)跳動的主要算力策略。
03
全球互聯(lián)網(wǎng)公司造芯潮:字節(jié)跳動處在什么位置
字節(jié)跳動并不是唯一嘗試自研芯片的互聯(lián)網(wǎng)公司。
事實上,過去十多年間,隨著云計算與人工智能的發(fā)展,全球大型科技公司幾乎都在布局自研AI芯片,希望在關(guān)鍵算力資源上獲得更多控制權(quán)。
最早進行這一嘗試的是谷歌。早在2016年,谷歌就推出了專門用于機器學習任務(wù)的TPU(Tensor Processing Unit),并持續(xù)迭代至TPU v4、TPU v5等多個版本。
TPU是谷歌為加速機器學習任務(wù)而設(shè)計的專用集成電路(ASIC),TPU的成功不僅顯著降低了其內(nèi)部AI計算成本,也證明互聯(lián)網(wǎng)公司完全有能力在特定場景設(shè)計高性能AI芯片。
隨后,亞馬遜也在其云計算平臺AWS中推出了多款自研AI芯片。
其中Inferentia主要面向機器學習推理任務(wù),而Trainium則面向大規(guī)模生成式AI模型訓練與推理。這些芯片被廣泛部署在AWS云服務(wù)器中,以降低AI計算成本并提升平臺競爭力。
在中國市場,互聯(lián)網(wǎng)公司同樣開始探索自研算力體系。
阿里巴巴旗下平頭哥半導體推出含光系列AI芯片,其中含光800曾被應用于阿里云數(shù)據(jù)中心的視頻處理與推薦系統(tǒng)中。
通過自研芯片,阿里希望在電商搜索及云計算AI服務(wù)等業(yè)務(wù)中降低算力成本。
從全球經(jīng)驗來看,互聯(lián)網(wǎng)公司造芯往往并非只是為了成為傳統(tǒng)意義上的半導體廠商,而是為了優(yōu)化自身核心業(yè)務(wù)的算力結(jié)構(gòu)。
隨著AI模型規(guī)模持續(xù)擴大,算力成本逐漸成為平臺運營的重要變量,通過自研芯片,互聯(lián)網(wǎng)公司可以在部分場景中降低成本,同時減少對外部供應商的依賴。
但與此同時,芯片產(chǎn)業(yè)本身具有極高技術(shù)門檻,從架構(gòu)設(shè)計到制造工藝,再到軟件生態(tài)建設(shè),每一個環(huán)節(jié)都需要長期積累。
因此,從全球范圍來看,互聯(lián)網(wǎng)公司自研芯片往往與第三方芯片廠商形成互補關(guān)系:通用訓練芯片依賴成熟供應商,而特定場景則通過定制芯片實現(xiàn)效率優(yōu)化。
對于字節(jié)跳動而言,這種模式或許也是最現(xiàn)實的路徑。
04
尾聲
芯片從來不僅是簡單的硬件采購問題,更象征了算力主權(quán)與產(chǎn)業(yè)話語權(quán)。
字節(jié)跳動選擇在自研與外采之間尋找平衡,本質(zhì)上是一種風險分散與能力積累的策略。
當AI模型規(guī)模繼續(xù)膨脹,算力成為真正的生產(chǎn)資料,誰能在生態(tài)鎖定與自主可控之間找到最佳區(qū)間,誰就可能掌握未來主動權(quán)。
字節(jié)的芯片棋局遠未落子成局,真正的拐點,也許會在下一代架構(gòu)成熟時顯現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.