網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Agentic AI需要的遠(yuǎn)不止GPU

2026-04-10 08:04:45　來(lái)源: TechSugar

上海舉報(bào)

分享至

（本文編譯自SemiWiki）

代理式人工智能（Agentic AI）工作負(fù)載正重塑現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的計(jì)算需求，將性能瓶頸從以GPU為核心的推理環(huán)節(jié)，轉(zhuǎn)移至對(duì)CPU算力要求極高的編排與工作流管理環(huán)節(jié)。

傳統(tǒng)人工智能推理流水線主要依靠GPU執(zhí)行單次前向傳播，輸入分詞、模型運(yùn)行和輸出生成按順序進(jìn)行。而新興的Agentic AI系統(tǒng)將推理轉(zhuǎn)化為分布式的多步驟流程，涵蓋規(guī)劃、工具調(diào)用、驗(yàn)證及迭代推理等環(huán)節(jié)。這一架構(gòu)變革帶來(lái)了對(duì)CPU的海量需求，使得CPU的算力成為維持系統(tǒng)吞吐量和整體成本效率的關(guān)鍵因素。

在代理式工作流中，CPU承擔(dān)各類編排任務(wù)，包括控制流管理、分支邏輯處理、重試機(jī)制執(zhí)行，以及多智能體與外部服務(wù)間的協(xié)同調(diào)度。每次智能體調(diào)用均可能需要與數(shù)據(jù)庫(kù)、應(yīng)用程序編程接口、搜索引擎或向量數(shù)據(jù)庫(kù)進(jìn)行交互，這些操作都會(huì)產(chǎn)生額外的CPU、內(nèi)存及I/O開銷。

此外，推理密集型工作負(fù)載通常需要獨(dú)立的沙箱執(zhí)行環(huán)境來(lái)開展驗(yàn)證與測(cè)試工作。這些迭代循環(huán)形成多輪次工作流，而CPU的性能決定了系統(tǒng)的端到端吞吐量。當(dāng)CPU資源不足時(shí)，GPU會(huì)因等待預(yù)處理、工具執(zhí)行或驗(yàn)證步驟完成而處于空閑狀態(tài)，造成高成本加速硬件的利用效率低下。

實(shí)驗(yàn)基準(zhǔn)測(cè)試進(jìn)一步印證了CPU工作負(fù)載在代理式流程中的重要性。在一項(xiàng)模擬監(jiān)管申報(bào)文件分析的金融異常檢測(cè)工作流測(cè)試中，CPU負(fù)責(zé)處理數(shù)據(jù)加載、基準(zhǔn)值計(jì)算、異常檢測(cè)、文檔檢索，以及通過(guò)網(wǎng)絡(luò)搜索實(shí)現(xiàn)的信息補(bǔ)充等任務(wù)。

測(cè)試結(jié)果顯示，CPU操作占據(jù)了總運(yùn)行時(shí)間的主導(dǎo)地位，僅信息補(bǔ)充環(huán)節(jié)消耗的時(shí)間就遠(yuǎn)超過(guò)基于GPU的模型推理步驟。這一結(jié)果凸顯，僅對(duì)推理環(huán)節(jié)進(jìn)行加速無(wú)法實(shí)現(xiàn)整體性能優(yōu)化，系統(tǒng)需在CPU編排與GPU計(jì)算之間達(dá)成平衡。

另一項(xiàng)針對(duì)人工智能輔助代碼生成的基準(zhǔn)測(cè)試，進(jìn)一步揭示了CPU的性能瓶頸。在該工作流中，GPU負(fù)責(zé)生成候選解決方案，而CPU則在沙箱環(huán)境中執(zhí)行并驗(yàn)證代碼。在超過(guò)兩千項(xiàng)測(cè)試任務(wù)中，即便使用高核心數(shù)的中央處理器系統(tǒng)，基于CPU的沙箱執(zhí)行環(huán)節(jié)消耗的時(shí)間仍略高于GPU的代碼生成環(huán)節(jié)。CPU處理階段涵蓋子進(jìn)程管理、測(cè)試執(zhí)行與結(jié)果分析，這表明在智能體化系統(tǒng)中，驗(yàn)證循環(huán)消耗的時(shí)間可能與推理環(huán)節(jié)相當(dāng)，甚至超過(guò)后者。上述研究結(jié)果表明，若不同步提升CPU性能，單純提高GPU性能無(wú)法改善系統(tǒng)的整體吞吐量。

從這些實(shí)驗(yàn)中得出的基礎(chǔ)設(shè)施規(guī)模配置建議，核心是維持CPU與GPU的配比平衡。當(dāng)前的配置指南建議，根據(jù)工作負(fù)載特性，CPU與GPU的配比應(yīng)在1:1至1.4:1之間，即每塊GPU對(duì)應(yīng)約86至120個(gè)CPU核心。Token生成速度更快的小模型，需要更多的CPU資源來(lái)保證GPU處于滿負(fù)載運(yùn)行狀態(tài)，而性能更強(qiáng)的CPU則可適當(dāng)降低這一配比。未來(lái)高性能GPU的問(wèn)世，可能會(huì)進(jìn)一步提升對(duì)CPU的需求，若編排邏輯的復(fù)雜度持續(xù)增加，這一配比數(shù)值或?qū)⑦M(jìn)一步走高。

這一結(jié)論的影響不僅限于性能優(yōu)化層面。CPU資源配置不足，會(huì)導(dǎo)致編排環(huán)節(jié)產(chǎn)生延遲、工具執(zhí)行受阻、驗(yàn)證循環(huán)變慢，這些問(wèn)題都會(huì)降低GPU的利用率，推高運(yùn)營(yíng)成本。反之，合理擴(kuò)容CPU資源，能保障數(shù)據(jù)準(zhǔn)備、協(xié)同調(diào)度與驗(yàn)證工作的持續(xù)開展，讓GPU始終處于最高效率運(yùn)行狀態(tài)。這種系統(tǒng)層面的平衡與微服務(wù)架構(gòu)的邏輯相通，即系統(tǒng)的整體性能由最慢的組件而非最快的組件決定。

隨著Agentic AI的持續(xù)發(fā)展，CPU在推理基礎(chǔ)設(shè)施中的核心地位將愈發(fā)凸顯。從單次推理到多步驟工作流的轉(zhuǎn)變，使得系統(tǒng)價(jià)值向編排、協(xié)同與運(yùn)行時(shí)管理環(huán)節(jié)轉(zhuǎn)移。因此，部署智能體化系統(tǒng)的企業(yè)必須重新審視傳統(tǒng)的以GPU為核心的擴(kuò)容策略，轉(zhuǎn)而設(shè)計(jì)能配置充足CPU資源的平衡架構(gòu)。通過(guò)實(shí)現(xiàn)CPU與GPU資源的匹配適配，數(shù)據(jù)中心能夠維持穩(wěn)定的吞吐量，最大限度減少加速硬件的空閑時(shí)間，實(shí)現(xiàn)下一代人工智能部署的總擁有成本優(yōu)化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.