剛剛,OpenAI 正式進(jìn)軍 AI 芯片領(lǐng)域。
北京時(shí)間 6 月 24 日晚間,OpenAI 發(fā)布了旗下第一顆自研芯片,代號(hào)“Jalape?o”(西班牙語(yǔ)里的“墨西哥辣椒”)。這顆芯片由 OpenAI 自主設(shè)計(jì)架構(gòu),博通(Broadcom)負(fù)責(zé)硅片實(shí)現(xiàn)與網(wǎng)絡(luò)互聯(lián),臺(tái)積電(TSMC)代工制造,采用 3 納米先進(jìn)制程。
當(dāng)天,博通 CEO Hock Tan 和總裁 Charlie Kawwas 將首批工程樣片交到了 OpenAI CEO Sam Altman 和總裁 Greg Brockman 手中。
![]()
(來(lái)源:OpenAI)
在公告中,OpenAI 把這顆芯片稱(chēng)為“Intelligence Processor”——智能處理器,而不是業(yè)內(nèi)更常見(jiàn)的“AI 加速器”。這個(gè)命名或許暗示了 OpenAI 對(duì)其的產(chǎn)品定位:它并非通用芯片,而是一顆圍繞大語(yǔ)言模型(LLM)推理場(chǎng)景設(shè)計(jì)的處理器。
九個(gè)月,AI 開(kāi)始參與設(shè)計(jì)自己的硬件
本次官宣中,最引人注目的應(yīng)該是這枚芯片的研發(fā)速度。
據(jù) Brockman 在接受 CNBC 采訪時(shí)透露,Jalape?o 從最初的架構(gòu)設(shè)計(jì)到完成制造流片(tape-out,即將芯片版圖數(shù)據(jù)提交至晶圓廠),全程僅耗時(shí)約九個(gè)月。這個(gè)速度在高性能半導(dǎo)體行業(yè)相當(dāng)罕見(jiàn)。
作為對(duì)比,Google 第一代 TPU(Tensor Processing Unit,張量處理單元)從架構(gòu)到流片大約花了三年,傳統(tǒng)芯片公司的同等規(guī)模項(xiàng)目通常需要五到七年。OpenAI 在公告中直言,“我們相信這是高性能先進(jìn)半導(dǎo)體領(lǐng)域有史以來(lái)最快的 ASIC 開(kāi)發(fā)周期。”
如此快的開(kāi)發(fā)速度背后有兩個(gè)關(guān)鍵因素。
一是 OpenAI 自身的 AI 模型深度參與了芯片設(shè)計(jì)流程。Brockman 表示,模型在加速設(shè)計(jì)優(yōu)化方面的表現(xiàn)“令團(tuán)隊(duì)自己都感到驚訝”。換句話說(shuō),AI 正在幫助設(shè)計(jì)運(yùn)行自己的硬件。
二是團(tuán)隊(duì)經(jīng)驗(yàn)。OpenAI 硬件負(fù)責(zé)人 Richard Ho 此前在 Google 工作近九年,是 Cloud TPU 項(xiàng)目的核心工程師,曾主導(dǎo)多代 TPU 從概念走向量產(chǎn)。他在 2023 年底加入 OpenAI 后迅速組建團(tuán)隊(duì)。據(jù)此前路透社報(bào)道,OpenAI 芯片團(tuán)隊(duì)規(guī)模已擴(kuò)展到約 40 人。
![]()
圖 | Richard Ho(來(lái)源:OpenAI)
Jalape?o 是一顆 ASIC(Application-Specific Integrated Circuit,專(zhuān)用集成電路),主要面向 AI 推理,也就是當(dāng)用戶(hù)向 ChatGPT 提問(wèn)、讓 Codex 執(zhí)行編碼任務(wù)時(shí),后臺(tái)真正處理請(qǐng)求的環(huán)節(jié)。隨著 ChatGPT 日活用戶(hù)突破數(shù)億、Codex 等智能體產(chǎn)品上線,推理側(cè)的算力消耗和成本壓力正在快速攀升。
據(jù)此前多家媒體引述的技術(shù)細(xì)節(jié),Jalape?o 采用脈動(dòng)陣列(systolic array)架構(gòu),并搭配高帶寬內(nèi)存(HBM)。OpenAI 在數(shù)據(jù)搬運(yùn)路徑、計(jì)算與存儲(chǔ)配比上做了專(zhuān)門(mén)優(yōu)化。官方表述是,芯片“減少了數(shù)據(jù)搬運(yùn),使實(shí)際利用率遠(yuǎn)遠(yuǎn)逼近理論峰值性能”。簡(jiǎn)單來(lái)說(shuō),就是讓每一分算力都盡可能被模型真正用上。
Richard Ho 在此前斯坦福大學(xué)的一次閉門(mén)分享中,曾用一句話概括這顆芯片的設(shè)計(jì)哲學(xué):“你必須為模型將要去的方向設(shè)計(jì)硬件,而不是為模型今天所在的位置。”在他看來(lái),這不是單純的芯片工程,而是一個(gè)系統(tǒng)工程,涵蓋硅片、機(jī)架、網(wǎng)絡(luò)、供電、散熱和數(shù)據(jù)中心的完整鏈條。
關(guān)于性能,OpenAI 的說(shuō)法相對(duì)謹(jǐn)慎:早期測(cè)試顯示,Jalape?o 每瓦性能將“大幅優(yōu)于當(dāng)前最先進(jìn)水平”,具體技術(shù)報(bào)告將在未來(lái)數(shù)月發(fā)布。
但 Hock Tan 在接受路透社采訪時(shí)就比較直接。他表示,Jalape?o 的性能已經(jīng)與英偉達(dá) Blackwell 系列和 Google TPU 處于同一水平。另?yè)?jù) Blockonomi 報(bào)道,Hock Tan 提到,初步樣品的推理成本相比傳統(tǒng) AI GPU 降低了約 50%。不過(guò)該數(shù)據(jù)尚未獲得 OpenAI 方面獨(dú)立確認(rèn)。
目前可以確認(rèn)的是,工程樣品已經(jīng)在實(shí)驗(yàn)室以目標(biāo)頻率和功耗成功運(yùn)行 ML 工作負(fù)載,包括 GPT-5.3-Codex-Spark 模型。
OpenAI 的全棧野心
那么問(wèn)題來(lái)了,OpenAI 為什么要自己做芯片?
最直接的原因,或許是降低對(duì)英偉達(dá)的過(guò)度依賴(lài)。Brockman 在 CNBC 采訪中坦言,OpenAI“永遠(yuǎn)無(wú)法足夠快地獲取算力”。Hock Tan也表示,博通客戶(hù)的算力需求“簡(jiǎn)直是無(wú)底洞”,這種需求緊張狀態(tài)可能會(huì)一直延續(xù)到 2028 年。
但 OpenAI 不想止步于此,它還想擁有對(duì)技術(shù)的全棧控制。
OpenAI 在公告中寫(xiě)道,公司正在設(shè)計(jì)模型底下的基礎(chǔ)設(shè)施:芯片架構(gòu)、內(nèi)核、內(nèi)存系統(tǒng)、網(wǎng)絡(luò)、調(diào)度和部署系統(tǒng),每一層都圍繞同一個(gè)目標(biāo)優(yōu)化。這個(gè)思路與 Google 做 TPU、蘋(píng)果做 M 芯片的邏輯一脈相承。區(qū)別在于,OpenAI 起步最晚,但試圖用更快的速度補(bǔ)上這塊短板。
部署時(shí)間表上,OpenAI 計(jì)劃在 2026 年底前啟動(dòng)初步部署。Hock Tan對(duì) CNBC 表示,年底會(huì)進(jìn)行“小規(guī)模原型部署”,2027 年開(kāi)始放量,2028 年上半年全速運(yùn)轉(zhuǎn)。配套服務(wù)器將由天弘科技(Celestica)生產(chǎn),芯片和服務(wù)器均不對(duì)外銷(xiāo)售,僅供 OpenAI 內(nèi)部使用,最終部署在微軟等合作伙伴的數(shù)據(jù)中心內(nèi)。
Hock Tan此前預(yù)估的芯片部署總功耗為 10 吉瓦(GW)。而在周三的發(fā)布活動(dòng)上,他表示,2027 年 1.3 吉瓦的部署量預(yù)測(cè)“可能過(guò)于保守”,因?yàn)閷?shí)際需求遠(yuǎn)超預(yù)期。下一代芯片預(yù)計(jì)將在 2028 年推出,此后計(jì)劃按年迭代。
當(dāng)然,需要了解的是,當(dāng)前的 AI 芯片賽道已經(jīng)相當(dāng)擁擠。
Google 的 TPU 已經(jīng)迭代到第六代,是目前最成熟的非英偉達(dá) AI 加速方案;亞馬遜的 Trainium 芯片已投入商用,OpenAI 今年早些時(shí)候也與 AWS 簽署協(xié)議使用 Trainium;微軟在 2023 年底發(fā)布了自研 AI 芯片 Maia;Meta 也在開(kāi)發(fā) MTIA 芯片。AI 芯片初創(chuàng)公司 Cerebras 今年 5 月完成 IPO 上市,OpenAI 還與其簽署了三年期算力采購(gòu)協(xié)議。
換句話說(shuō),自研芯片并不意味著 OpenAI 會(huì)放棄外部算力來(lái)源。更準(zhǔn)確地說(shuō),它是在把算力來(lái)源變得更多元,同時(shí)盡量把最核心的推理成本和基礎(chǔ)設(shè)施控制權(quán)握在自己手里。
不過(guò),自研芯片從來(lái)不是容易的事。微軟和 Meta 都在這條路上摸索多年,進(jìn)展都不太順利。一顆大規(guī)模 AI 芯片的全流程成本可達(dá)數(shù)億美元。如果算上配套軟件棧和外圍系統(tǒng),成本還會(huì)繼續(xù)上升。
而且,OpenAI 的芯片團(tuán)隊(duì)規(guī)模也仍遠(yuǎn)小于 Google 和亞馬遜的同類(lèi)團(tuán)隊(duì)。后續(xù)能否持續(xù)擴(kuò)充人才、迭代架構(gòu),是決定這條路能走多遠(yuǎn)的關(guān)鍵變量。此外,定制 ASIC 在靈活性上天然不及通用 GPU。Jalape?o 針對(duì)推理場(chǎng)景做了深度優(yōu)化,但面對(duì)快速演進(jìn)的模型架構(gòu),它的適應(yīng)性仍有待大規(guī)模驗(yàn)證。
1.https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
2.https://www.theverge.com/ai-artificial-intelligence/955939/openai-reveals-its-first-ai-processor-jalapeno?
3.https://x.com/OpenAI/status/2069770172802773292
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.