(本文編譯自SemiWiki)
代理式人工智能(Agentic AI)工作負(fù)載正重塑現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的計(jì)算需求,將性能瓶頸從以GPU為核心的推理環(huán)節(jié),轉(zhuǎn)移至對(duì)CPU算力要求極高的編排與工作流管理環(huán)節(jié)。
傳統(tǒng)人工智能推理流水線主要依靠GPU執(zhí)行單次前向傳播,輸入分詞、模型運(yùn)行和輸出生成按順序進(jìn)行。而新興的Agentic AI系統(tǒng)將推理轉(zhuǎn)化為分布式的多步驟流程,涵蓋規(guī)劃、工具調(diào)用、驗(yàn)證及迭代推理等環(huán)節(jié)。這一架構(gòu)變革帶來(lái)了對(duì)CPU的海量需求,使得CPU的算力成為維持系統(tǒng)吞吐量和整體成本效率的關(guān)鍵因素。
![]()
在代理式工作流中,CPU承擔(dān)各類編排任務(wù),包括控制流管理、分支邏輯處理、重試機(jī)制執(zhí)行,以及多智能體與外部服務(wù)間的協(xié)同調(diào)度。每次智能體調(diào)用均可能需要與數(shù)據(jù)庫(kù)、應(yīng)用程序編程接口、搜索引擎或向量數(shù)據(jù)庫(kù)進(jìn)行交互,這些操作都會(huì)產(chǎn)生額外的CPU、內(nèi)存及I/O開銷。
此外,推理密集型工作負(fù)載通常需要獨(dú)立的沙箱執(zhí)行環(huán)境來(lái)開展驗(yàn)證與測(cè)試工作。這些迭代循環(huán)形成多輪次工作流,而CPU的性能決定了系統(tǒng)的端到端吞吐量。當(dāng)CPU資源不足時(shí),GPU會(huì)因等待預(yù)處理、工具執(zhí)行或驗(yàn)證步驟完成而處于空閑狀態(tài),造成高成本加速硬件的利用效率低下。
實(shí)驗(yàn)基準(zhǔn)測(cè)試進(jìn)一步印證了CPU工作負(fù)載在代理式流程中的重要性。在一項(xiàng)模擬監(jiān)管申報(bào)文件分析的金融異常檢測(cè)工作流測(cè)試中,CPU負(fù)責(zé)處理數(shù)據(jù)加載、基準(zhǔn)值計(jì)算、異常檢測(cè)、文檔檢索,以及通過(guò)網(wǎng)絡(luò)搜索實(shí)現(xiàn)的信息補(bǔ)充等任務(wù)。
測(cè)試結(jié)果顯示,CPU操作占據(jù)了總運(yùn)行時(shí)間的主導(dǎo)地位,僅信息補(bǔ)充環(huán)節(jié)消耗的時(shí)間就遠(yuǎn)超過(guò)基于GPU的模型推理步驟。這一結(jié)果凸顯,僅對(duì)推理環(huán)節(jié)進(jìn)行加速無(wú)法實(shí)現(xiàn)整體性能優(yōu)化,系統(tǒng)需在CPU編排與GPU計(jì)算之間達(dá)成平衡。
另一項(xiàng)針對(duì)人工智能輔助代碼生成的基準(zhǔn)測(cè)試,進(jìn)一步揭示了CPU的性能瓶頸。在該工作流中,GPU負(fù)責(zé)生成候選解決方案,而CPU則在沙箱環(huán)境中執(zhí)行并驗(yàn)證代碼。在超過(guò)兩千項(xiàng)測(cè)試任務(wù)中,即便使用高核心數(shù)的中央處理器系統(tǒng),基于CPU的沙箱執(zhí)行環(huán)節(jié)消耗的時(shí)間仍略高于GPU的代碼生成環(huán)節(jié)。CPU處理階段涵蓋子進(jìn)程管理、測(cè)試執(zhí)行與結(jié)果分析,這表明在智能體化系統(tǒng)中,驗(yàn)證循環(huán)消耗的時(shí)間可能與推理環(huán)節(jié)相當(dāng),甚至超過(guò)后者。上述研究結(jié)果表明,若不同步提升CPU性能,單純提高GPU性能無(wú)法改善系統(tǒng)的整體吞吐量。
從這些實(shí)驗(yàn)中得出的基礎(chǔ)設(shè)施規(guī)模配置建議,核心是維持CPU與GPU的配比平衡。當(dāng)前的配置指南建議,根據(jù)工作負(fù)載特性,CPU與GPU的配比應(yīng)在1:1至1.4:1之間,即每塊GPU對(duì)應(yīng)約86至120個(gè)CPU核心。Token生成速度更快的小模型,需要更多的CPU資源來(lái)保證GPU處于滿負(fù)載運(yùn)行狀態(tài),而性能更強(qiáng)的CPU則可適當(dāng)降低這一配比。未來(lái)高性能GPU的問(wèn)世,可能會(huì)進(jìn)一步提升對(duì)CPU的需求,若編排邏輯的復(fù)雜度持續(xù)增加,這一配比數(shù)值或?qū)⑦M(jìn)一步走高。
這一結(jié)論的影響不僅限于性能優(yōu)化層面。CPU資源配置不足,會(huì)導(dǎo)致編排環(huán)節(jié)產(chǎn)生延遲、工具執(zhí)行受阻、驗(yàn)證循環(huán)變慢,這些問(wèn)題都會(huì)降低GPU的利用率,推高運(yùn)營(yíng)成本。反之,合理擴(kuò)容CPU資源,能保障數(shù)據(jù)準(zhǔn)備、協(xié)同調(diào)度與驗(yàn)證工作的持續(xù)開展,讓GPU始終處于最高效率運(yùn)行狀態(tài)。這種系統(tǒng)層面的平衡與微服務(wù)架構(gòu)的邏輯相通,即系統(tǒng)的整體性能由最慢的組件而非最快的組件決定。
隨著Agentic AI的持續(xù)發(fā)展,CPU在推理基礎(chǔ)設(shè)施中的核心地位將愈發(fā)凸顯。從單次推理到多步驟工作流的轉(zhuǎn)變,使得系統(tǒng)價(jià)值向編排、協(xié)同與運(yùn)行時(shí)管理環(huán)節(jié)轉(zhuǎn)移。因此,部署智能體化系統(tǒng)的企業(yè)必須重新審視傳統(tǒng)的以GPU為核心的擴(kuò)容策略,轉(zhuǎn)而設(shè)計(jì)能配置充足CPU資源的平衡架構(gòu)。通過(guò)實(shí)現(xiàn)CPU與GPU資源的匹配適配,數(shù)據(jù)中心能夠維持穩(wěn)定的吞吐量,最大限度減少加速硬件的空閑時(shí)間,實(shí)現(xiàn)下一代人工智能部署的總擁有成本優(yōu)化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.