網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

昇騰管推理、鯤鵬管Agent，Agentic AI讓CPU重回舞臺(tái)中央

2026-05-30 06:02:26　來源: 字節(jié)漫游指南

北京舉報(bào)

分享至

八年前Meta就有萬億參數(shù)模型了，但今天的AI算力競(jìng)賽反而讓一家公司把CPU重新擺上主桌。

DeepSeek-V4模型首發(fā)適配昇騰芯片，這件事被行業(yè)視為中國(guó)AI生態(tài)發(fā)展的一個(gè)重要節(jié)點(diǎn)。通過芯模協(xié)同，DeepSeek與昇騰實(shí)現(xiàn)了昇騰超節(jié)點(diǎn)全系列產(chǎn)品對(duì)DeepSeek-V4系列模型的支持。背后的信號(hào)很明確：中國(guó)大模型產(chǎn)業(yè)正在從過去高度依賴海外GPU與CUDA生態(tài)，逐步走向由國(guó)產(chǎn)芯片、基礎(chǔ)軟件、編程框架、算子能力和系統(tǒng)架構(gòu)共同支撐的新階段。

在今年的鯤鵬昇騰開發(fā)者大會(huì)2026上，中國(guó)計(jì)算產(chǎn)業(yè)的幾個(gè)變化變得更加清晰。第一，中國(guó)大模型能力正在接近全球頂級(jí)閉源模型水平；第二，中國(guó)模型的Token消耗量已進(jìn)入全球前列；第三，國(guó)產(chǎn)大模型與國(guó)產(chǎn)芯片之間的協(xié)同，開始從"能跑起來"進(jìn)入"跑得好、跑得穩(wěn)、跑得經(jīng)濟(jì)"的深水區(qū)。

在這個(gè)過程中，昇騰與鯤鵬分別承擔(dān)了不同角色。昇騰更偏向智能計(jì)算底座，重點(diǎn)解決大模型訓(xùn)練、推理、KV Cache、長(zhǎng)上下文、AI推理吞吐和開發(fā)者生態(tài)等問題。鯤鵬則承擔(dān)通用計(jì)算底座角色，重點(diǎn)支撐Agent編排、工具調(diào)用、沙箱執(zhí)行、記憶檢索、安全隔離和企業(yè)級(jí)IT基礎(chǔ)設(shè)施。簡(jiǎn)單說，昇騰解決的是AI算力問題，鯤鵬解決的是Agentic AI時(shí)代系統(tǒng)運(yùn)行和工程承載問題。這種分工意味著，當(dāng)AI從"模型回答"進(jìn)化到"自主執(zhí)行任務(wù)"，CPU在工程層面的價(jià)值被重新激活。

Agentic AI正在對(duì)算力基礎(chǔ)設(shè)施提出新的要求。與傳統(tǒng)大模型推理不同，Agent工作負(fù)載通常包含多輪規(guī)劃、工具調(diào)用、記憶檢索、上下文管理、多Agent協(xié)同等復(fù)雜過程。這類負(fù)載會(huì)帶來超大KV Cache、超長(zhǎng)上下文、低時(shí)延響應(yīng)和碎片化調(diào)度需求。傳統(tǒng)以單卡、單服務(wù)器或普通集群為核心的算力架構(gòu)，已經(jīng)很難完全適配這一新型負(fù)載。

昇騰超節(jié)點(diǎn)的核心思路，是通過芯片架構(gòu)、互聯(lián)架構(gòu)和系統(tǒng)架構(gòu)的協(xié)同創(chuàng)新，讓大規(guī)模AI集群像"一臺(tái)計(jì)算機(jī)"一樣工作。在芯片層面，昇騰持續(xù)推進(jìn)架構(gòu)創(chuàng)新。昇騰芯片將支持FP8、MXFP8、MXFP4等低數(shù)值精度數(shù)據(jù)格式，以提升訓(xùn)練效率和推理吞吐。同時(shí)通過SIMD與SIMT雙編程模型兼容，在高密度計(jì)算與靈活調(diào)度之間取得平衡。這一方向也被視為AI芯片架構(gòu)演進(jìn)的重要趨勢(shì)。

在互聯(lián)層面，昇騰采用靈衢互聯(lián)，實(shí)現(xiàn)總線級(jí)全連接、無主從、平等互聯(lián)，使NPU與NPU、NPU與CPU之間可以直接通信。靈衢互聯(lián)可實(shí)現(xiàn)單跳200ns通信能力，面向Agentic AI中大量碎片化調(diào)度場(chǎng)景，減少阻塞和等待。在系統(tǒng)層面，昇騰超節(jié)點(diǎn)采用Clos與Mesh混合拓?fù)洌瑥?qiáng)調(diào)無損、無阻塞和動(dòng)態(tài)負(fù)載均衡，使超節(jié)點(diǎn)更接近一個(gè)統(tǒng)一計(jì)算系統(tǒng)，而不是傳統(tǒng)松散集群。

對(duì)于超節(jié)點(diǎn)架構(gòu)，華為特別強(qiáng)調(diào)了一個(gè)判斷標(biāo)準(zhǔn)：是否實(shí)現(xiàn)全域內(nèi)存統(tǒng)一編址和內(nèi)存語義。在傳統(tǒng)集群中，不同節(jié)點(diǎn)之間通常需要通過消息傳遞、路由和數(shù)據(jù)拷貝完成通信，這會(huì)帶來額外延遲和資源開銷。昇騰超節(jié)點(diǎn)希望通過全局單一虛擬地址空間，讓NPU和CPU可以直接以虛擬地址訪問任意位置的數(shù)據(jù)，從而實(shí)現(xiàn)無需改代碼、無需路由、無需拷貝的load/store訪問。

這對(duì)大模型推理尤其關(guān)鍵。隨著上下文長(zhǎng)度持續(xù)擴(kuò)大，KV Cache已經(jīng)成為推理系統(tǒng)的重要瓶頸。華為認(rèn)為，統(tǒng)一內(nèi)存編址可以實(shí)現(xiàn)KV Cache全局共享，使超長(zhǎng)上下文更容易擴(kuò)展，也讓每一個(gè)Token的生成更高效、更經(jīng)濟(jì)。在內(nèi)存池化方面，昇騰通過HBM與DDR分層池化能力，實(shí)現(xiàn)"以查代算"和KV Cache全局共享。資料顯示，在LLM、推薦、Engram等場(chǎng)景中，查詢時(shí)延可降低3至4倍，訓(xùn)練和推理吞吐相較傳統(tǒng)集群提升3至4倍。

在最新的950代際產(chǎn)品中，昇騰在芯片架構(gòu)層面加入對(duì)SIMT的支持，并首創(chuàng)SIMD與SIMT混合編程能力。這使開發(fā)者可以根據(jù)不同計(jì)算階段的特點(diǎn)，靈活選擇合適的編程范式。在同一個(gè)算子中，規(guī)則計(jì)算部分可以采用SIMD，以發(fā)揮高吞吐優(yōu)勢(shì)；不規(guī)則控制部分則可以利用SIMT的靈活性，從而實(shí)現(xiàn)整體效率與性能的最優(yōu)。

例如，在MoE init routing算子中，規(guī)則的連續(xù)數(shù)據(jù)搬運(yùn)與計(jì)算部分可以使用SIMD編寫，而不規(guī)則的離散數(shù)據(jù)搬出部分則可以采用SIMT編寫，從而獲得更高開發(fā)效率和更好整體性能。這一能力對(duì)于大模型時(shí)代大量不規(guī)則計(jì)算、稀疏調(diào)度和復(fù)雜路由場(chǎng)景具有現(xiàn)實(shí)意義。

除了計(jì)算算子，昇騰也在提升通信算子編程的易用性。在大規(guī)模訓(xùn)練和推理中，通信常常成為性能瓶頸。為此，昇騰試圖打破計(jì)算和通信之間的邊界，讓通信編程像訪存讀寫一樣簡(jiǎn)單。通過SHMEM編程接口，昇騰將傳統(tǒng)面向通信的編程方式，轉(zhuǎn)變?yōu)槊嫦蛟L存讀寫的方式。在統(tǒng)一編址下，跨設(shè)備訪問可以像操作本地內(nèi)存一樣直接，只需一行代碼即可直達(dá)底層。同時(shí)，憑借AIcore直驅(qū)技術(shù)，昇騰繞過傳統(tǒng)CPU調(diào)度，使下發(fā)時(shí)延優(yōu)化30倍。昇騰還推出了通信與計(jì)算融合的CATLASS模板庫，屏蔽復(fù)雜拓?fù)洳町悾瑤椭_發(fā)者快速實(shí)現(xiàn)計(jì)算與通信深度并行開發(fā)。以常見融合算子為例，相關(guān)能力可使開發(fā)周期縮短50%，性能提升30%。

除了底層硬件和系統(tǒng)架構(gòu)，昇騰也在圍繞開發(fā)者易用性進(jìn)行系統(tǒng)性升級(jí)。過去兩年，昇騰投入大量資源優(yōu)化開發(fā)體驗(yàn)，重點(diǎn)回應(yīng)開發(fā)者在底層能力開放、編程方式友好度、主流社區(qū)兼容、文檔資料完備性等方面的訴求。圍繞這些反饋，昇騰主要從三個(gè)方向推進(jìn)易用性提升：CANN開源開放與分層解耦、深度支持第三方主流開源技術(shù)生態(tài)，以及Mind系列軟件架構(gòu)持續(xù)演進(jìn)升級(jí)。

作為昇騰軟件底座和生態(tài)核心錨點(diǎn)，CANN是昇騰提升易用性的關(guān)鍵。昇騰已在去年底完成CANN分層解耦開源。通過增強(qiáng)對(duì)第三方生態(tài)的支持，CANN開放了運(yùn)行時(shí)、算子編譯等不同層級(jí)接口，支持算子庫、通信庫等組件獨(dú)立升級(jí)。目前，昇騰已開源50多個(gè)源碼倉，使開發(fā)者在生態(tài)接入、分層調(diào)用、組件升級(jí)和源碼創(chuàng)新等方面擁有更高靈活性。這一變化意味著，開發(fā)者不僅可以基于昇騰平臺(tái)做應(yīng)用開發(fā)，也可以更深入地參與底層能力優(yōu)化，圍繞算子、通信、編譯和運(yùn)行時(shí)進(jìn)行性能調(diào)優(yōu)。

在算子編程方面，開發(fā)者最關(guān)注的是開發(fā)效率和運(yùn)行性能。不同類型的開發(fā)者，對(duì)編程方式也有不同需求。對(duì)于追求極致性能的算子開發(fā)工程師，昇騰提供AscendC、CATLASS模板庫等編程方式，支持開發(fā)者對(duì)計(jì)算、訪存、流水等關(guān)鍵環(huán)節(jié)進(jìn)行細(xì)粒度控制，充分釋放芯片性能。同時(shí)，昇騰也將高性能能力沉淀為可復(fù)用模板，以提升開發(fā)效率。

對(duì)于更注重快速創(chuàng)新和算法嘗試的AI算法工程師，昇騰支持TileLang、Triton等主流Tile編程生態(tài)，使開發(fā)者能夠以更接近算法表達(dá)的方式描述分塊計(jì)算和數(shù)據(jù)流。此外，昇騰還推出PyPTO，提供面向Tensor的編程能力，幫助開發(fā)者更高效地完成算法創(chuàng)新。隨著Python成為AI開發(fā)的主流語言，昇騰也在全面擁抱Python編程生態(tài)，進(jìn)一步降低開發(fā)門檻、提升開發(fā)效率。其中，PyAsc基于AscendC增加Python編程接口，使開發(fā)者能夠以更友好的方式表達(dá)底層并行和訪存能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.