八年前Meta就有萬億參數(shù)模型了,但今天的AI算力競(jìng)賽反而讓一家公司把CPU重新擺上主桌。
DeepSeek-V4模型首發(fā)適配昇騰芯片,這件事被行業(yè)視為中國(guó)AI生態(tài)發(fā)展的一個(gè)重要節(jié)點(diǎn)。通過芯模協(xié)同,DeepSeek與昇騰實(shí)現(xiàn)了昇騰超節(jié)點(diǎn)全系列產(chǎn)品對(duì)DeepSeek-V4系列模型的支持。背后的信號(hào)很明確:中國(guó)大模型產(chǎn)業(yè)正在從過去高度依賴海外GPU與CUDA生態(tài),逐步走向由國(guó)產(chǎn)芯片、基礎(chǔ)軟件、編程框架、算子能力和系統(tǒng)架構(gòu)共同支撐的新階段。
![]()
在今年的鯤鵬昇騰開發(fā)者大會(huì)2026上,中國(guó)計(jì)算產(chǎn)業(yè)的幾個(gè)變化變得更加清晰。第一,中國(guó)大模型能力正在接近全球頂級(jí)閉源模型水平;第二,中國(guó)模型的Token消耗量已進(jìn)入全球前列;第三,國(guó)產(chǎn)大模型與國(guó)產(chǎn)芯片之間的協(xié)同,開始從"能跑起來"進(jìn)入"跑得好、跑得穩(wěn)、跑得經(jīng)濟(jì)"的深水區(qū)。
在這個(gè)過程中,昇騰與鯤鵬分別承擔(dān)了不同角色。昇騰更偏向智能計(jì)算底座,重點(diǎn)解決大模型訓(xùn)練、推理、KV Cache、長(zhǎng)上下文、AI推理吞吐和開發(fā)者生態(tài)等問題。鯤鵬則承擔(dān)通用計(jì)算底座角色,重點(diǎn)支撐Agent編排、工具調(diào)用、沙箱執(zhí)行、記憶檢索、安全隔離和企業(yè)級(jí)IT基礎(chǔ)設(shè)施。簡(jiǎn)單說,昇騰解決的是AI算力問題,鯤鵬解決的是Agentic AI時(shí)代系統(tǒng)運(yùn)行和工程承載問題。這種分工意味著,當(dāng)AI從"模型回答"進(jìn)化到"自主執(zhí)行任務(wù)",CPU在工程層面的價(jià)值被重新激活。
Agentic AI正在對(duì)算力基礎(chǔ)設(shè)施提出新的要求。與傳統(tǒng)大模型推理不同,Agent工作負(fù)載通常包含多輪規(guī)劃、工具調(diào)用、記憶檢索、上下文管理、多Agent協(xié)同等復(fù)雜過程。這類負(fù)載會(huì)帶來超大KV Cache、超長(zhǎng)上下文、低時(shí)延響應(yīng)和碎片化調(diào)度需求。傳統(tǒng)以單卡、單服務(wù)器或普通集群為核心的算力架構(gòu),已經(jīng)很難完全適配這一新型負(fù)載。
昇騰超節(jié)點(diǎn)的核心思路,是通過芯片架構(gòu)、互聯(lián)架構(gòu)和系統(tǒng)架構(gòu)的協(xié)同創(chuàng)新,讓大規(guī)模AI集群像"一臺(tái)計(jì)算機(jī)"一樣工作。在芯片層面,昇騰持續(xù)推進(jìn)架構(gòu)創(chuàng)新。昇騰芯片將支持FP8、MXFP8、MXFP4等低數(shù)值精度數(shù)據(jù)格式,以提升訓(xùn)練效率和推理吞吐。同時(shí)通過SIMD與SIMT雙編程模型兼容,在高密度計(jì)算與靈活調(diào)度之間取得平衡。這一方向也被視為AI芯片架構(gòu)演進(jìn)的重要趨勢(shì)。
在互聯(lián)層面,昇騰采用靈衢互聯(lián),實(shí)現(xiàn)總線級(jí)全連接、無主從、平等互聯(lián),使NPU與NPU、NPU與CPU之間可以直接通信。靈衢互聯(lián)可實(shí)現(xiàn)單跳200ns通信能力,面向Agentic AI中大量碎片化調(diào)度場(chǎng)景,減少阻塞和等待。在系統(tǒng)層面,昇騰超節(jié)點(diǎn)采用Clos與Mesh混合拓?fù)洌瑥?qiáng)調(diào)無損、無阻塞和動(dòng)態(tài)負(fù)載均衡,使超節(jié)點(diǎn)更接近一個(gè)統(tǒng)一計(jì)算系統(tǒng),而不是傳統(tǒng)松散集群。
對(duì)于超節(jié)點(diǎn)架構(gòu),華為特別強(qiáng)調(diào)了一個(gè)判斷標(biāo)準(zhǔn):是否實(shí)現(xiàn)全域內(nèi)存統(tǒng)一編址和內(nèi)存語義。在傳統(tǒng)集群中,不同節(jié)點(diǎn)之間通常需要通過消息傳遞、路由和數(shù)據(jù)拷貝完成通信,這會(huì)帶來額外延遲和資源開銷。昇騰超節(jié)點(diǎn)希望通過全局單一虛擬地址空間,讓NPU和CPU可以直接以虛擬地址訪問任意位置的數(shù)據(jù),從而實(shí)現(xiàn)無需改代碼、無需路由、無需拷貝的load/store訪問。
這對(duì)大模型推理尤其關(guān)鍵。隨著上下文長(zhǎng)度持續(xù)擴(kuò)大,KV Cache已經(jīng)成為推理系統(tǒng)的重要瓶頸。華為認(rèn)為,統(tǒng)一內(nèi)存編址可以實(shí)現(xiàn)KV Cache全局共享,使超長(zhǎng)上下文更容易擴(kuò)展,也讓每一個(gè)Token的生成更高效、更經(jīng)濟(jì)。在內(nèi)存池化方面,昇騰通過HBM與DDR分層池化能力,實(shí)現(xiàn)"以查代算"和KV Cache全局共享。資料顯示,在LLM、推薦、Engram等場(chǎng)景中,查詢時(shí)延可降低3至4倍,訓(xùn)練和推理吞吐相較傳統(tǒng)集群提升3至4倍。
在最新的950代際產(chǎn)品中,昇騰在芯片架構(gòu)層面加入對(duì)SIMT的支持,并首創(chuàng)SIMD與SIMT混合編程能力。這使開發(fā)者可以根據(jù)不同計(jì)算階段的特點(diǎn),靈活選擇合適的編程范式。在同一個(gè)算子中,規(guī)則計(jì)算部分可以采用SIMD,以發(fā)揮高吞吐優(yōu)勢(shì);不規(guī)則控制部分則可以利用SIMT的靈活性,從而實(shí)現(xiàn)整體效率與性能的最優(yōu)。
例如,在MoE init routing算子中,規(guī)則的連續(xù)數(shù)據(jù)搬運(yùn)與計(jì)算部分可以使用SIMD編寫,而不規(guī)則的離散數(shù)據(jù)搬出部分則可以采用SIMT編寫,從而獲得更高開發(fā)效率和更好整體性能。這一能力對(duì)于大模型時(shí)代大量不規(guī)則計(jì)算、稀疏調(diào)度和復(fù)雜路由場(chǎng)景具有現(xiàn)實(shí)意義。
除了計(jì)算算子,昇騰也在提升通信算子編程的易用性。在大規(guī)模訓(xùn)練和推理中,通信常常成為性能瓶頸。為此,昇騰試圖打破計(jì)算和通信之間的邊界,讓通信編程像訪存讀寫一樣簡(jiǎn)單。通過SHMEM編程接口,昇騰將傳統(tǒng)面向通信的編程方式,轉(zhuǎn)變?yōu)槊嫦蛟L存讀寫的方式。在統(tǒng)一編址下,跨設(shè)備訪問可以像操作本地內(nèi)存一樣直接,只需一行代碼即可直達(dá)底層。同時(shí),憑借AIcore直驅(qū)技術(shù),昇騰繞過傳統(tǒng)CPU調(diào)度,使下發(fā)時(shí)延優(yōu)化30倍。昇騰還推出了通信與計(jì)算融合的CATLASS模板庫,屏蔽復(fù)雜拓?fù)洳町悾瑤椭_發(fā)者快速實(shí)現(xiàn)計(jì)算與通信深度并行開發(fā)。以常見融合算子為例,相關(guān)能力可使開發(fā)周期縮短50%,性能提升30%。
除了底層硬件和系統(tǒng)架構(gòu),昇騰也在圍繞開發(fā)者易用性進(jìn)行系統(tǒng)性升級(jí)。過去兩年,昇騰投入大量資源優(yōu)化開發(fā)體驗(yàn),重點(diǎn)回應(yīng)開發(fā)者在底層能力開放、編程方式友好度、主流社區(qū)兼容、文檔資料完備性等方面的訴求。圍繞這些反饋,昇騰主要從三個(gè)方向推進(jìn)易用性提升:CANN開源開放與分層解耦、深度支持第三方主流開源技術(shù)生態(tài),以及Mind系列軟件架構(gòu)持續(xù)演進(jìn)升級(jí)。
作為昇騰軟件底座和生態(tài)核心錨點(diǎn),CANN是昇騰提升易用性的關(guān)鍵。昇騰已在去年底完成CANN分層解耦開源。通過增強(qiáng)對(duì)第三方生態(tài)的支持,CANN開放了運(yùn)行時(shí)、算子編譯等不同層級(jí)接口,支持算子庫、通信庫等組件獨(dú)立升級(jí)。目前,昇騰已開源50多個(gè)源碼倉,使開發(fā)者在生態(tài)接入、分層調(diào)用、組件升級(jí)和源碼創(chuàng)新等方面擁有更高靈活性。這一變化意味著,開發(fā)者不僅可以基于昇騰平臺(tái)做應(yīng)用開發(fā),也可以更深入地參與底層能力優(yōu)化,圍繞算子、通信、編譯和運(yùn)行時(shí)進(jìn)行性能調(diào)優(yōu)。
在算子編程方面,開發(fā)者最關(guān)注的是開發(fā)效率和運(yùn)行性能。不同類型的開發(fā)者,對(duì)編程方式也有不同需求。對(duì)于追求極致性能的算子開發(fā)工程師,昇騰提供AscendC、CATLASS模板庫等編程方式,支持開發(fā)者對(duì)計(jì)算、訪存、流水等關(guān)鍵環(huán)節(jié)進(jìn)行細(xì)粒度控制,充分釋放芯片性能。同時(shí),昇騰也將高性能能力沉淀為可復(fù)用模板,以提升開發(fā)效率。
對(duì)于更注重快速創(chuàng)新和算法嘗試的AI算法工程師,昇騰支持TileLang、Triton等主流Tile編程生態(tài),使開發(fā)者能夠以更接近算法表達(dá)的方式描述分塊計(jì)算和數(shù)據(jù)流。此外,昇騰還推出PyPTO,提供面向Tensor的編程能力,幫助開發(fā)者更高效地完成算法創(chuàng)新。隨著Python成為AI開發(fā)的主流語言,昇騰也在全面擁抱Python編程生態(tài),進(jìn)一步降低開發(fā)門檻、提升開發(fā)效率。其中,PyAsc基于AscendC增加Python編程接口,使開發(fā)者能夠以更友好的方式表達(dá)底層并行和訪存能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.