網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

HPC迎來AI大考，鯤鵬如何為開發(fā)者“減負(fù)”？｜甲子光年

2026-03-30 13:47:46　來源: 甲子光年

北京舉報(bào)

分享至

一場科研生產(chǎn)力的深度革命。

作者｜劉楊楠

編輯｜栗子

在科研計(jì)算領(lǐng)域，傳統(tǒng)HPC的優(yōu)化路徑正在逐漸逼近效率與成本的雙重邊界。

長期以來，HPC的核心方法論，是在明確物理方程與數(shù)值模型的前提下，通過規(guī)模化并行計(jì)算逼近唯一解。這一范式在流體力學(xué)、材料計(jì)算、分子模擬等領(lǐng)域取得了巨大成功，但其前提是：計(jì)算過程高度規(guī)則、算子結(jié)構(gòu)穩(wěn)定、通信模式可預(yù)測。

然而，隨著AI4S（AI for Science）逐步深入科研主流工作流，這一前提正在被打破。越來越多的科研任務(wù)不再僅僅依賴傳統(tǒng)數(shù)值求解，而是引入深度學(xué)習(xí)模型、統(tǒng)計(jì)推斷與數(shù)據(jù)驅(qū)動方法，形成HPC+AI的混合計(jì)算形態(tài)。

這類負(fù)載呈現(xiàn)出算子碎片化、計(jì)算圖驅(qū)動、混合精度以及動態(tài)負(fù)載不均衡等特征，使得單純依靠“更大規(guī)模并行”已難以獲得線性收益。

正是在這一背景下，HPC的問題不再只是“算得夠不夠快”，而是演變?yōu)橐粋€軟硬件協(xié)同的系統(tǒng)性問題，例如，硬件如何更好地支撐多樣化負(fù)載？軟件如何在不增加開發(fā)復(fù)雜度的前提下釋放硬件潛力？

為此，鯤鵬CPU處理器及其配套軟件棧的協(xié)同設(shè)計(jì)，正是為了從根本上回應(yīng)這一系統(tǒng)性問題，重新定義HPC+AI4S的開發(fā)體驗(yàn)。

1.鯤鵬如何重寫HPC+AI4S開發(fā)范式？

面對HPC+AI4S的系統(tǒng)性挑戰(zhàn)，鯤鵬也給出了與之對應(yīng)的系統(tǒng)性解決方案，即構(gòu)建“硬件提供潛力、軟件釋放能力”的協(xié)同體系。

作為一顆面向HPC與AI4S多元負(fù)載的服務(wù)器CPU，鯤鵬920 72F8采用眾核架構(gòu)，支持向量與矩陣計(jì)算擴(kuò)展，并配備高帶寬片上內(nèi)存與大容量DDR內(nèi)存的混合內(nèi)存體系，能夠同時滿足高精度科學(xué)計(jì)算與AI4S場景下的吞吐需求。

但在AI4S負(fù)載下，硬件能力并不會自動轉(zhuǎn)化為應(yīng)用性能。高度動態(tài)的算子調(diào)用、頻繁變化的數(shù)據(jù)依賴關(guān)系，使得單純依賴“更多核心”或“更高帶寬”往往難以持續(xù)提升效率。

真正決定開發(fā)者部署體驗(yàn)的核心，是圍繞處理器構(gòu)建的軟件棧，能否將硬件特性轉(zhuǎn)化為開發(fā)者無感的性能收益。這便引出了鯤鵬通過軟硬協(xié)同的系統(tǒng)性方案，重新定義HPC+AI4S開發(fā)范式的核心思路。

具體來看，鯤鵬軟件棧并未選擇通過某一個“明星組件”解決所有問題，而是以HPCKit為核心，構(gòu)建了一套面向HPC與AI負(fù)載的系統(tǒng)級協(xié)同優(yōu)化體系。在這一體系中，領(lǐng)域加速庫、鯤鵬數(shù)學(xué)庫（Kunpeng Math Library，KML）、Hyper MPI、KUPL（Kunpeng Unified Parallel Library，鯤鵬統(tǒng)一并行庫）、畢昇編譯器，并非孤立存在，而是通過版本選擇、參數(shù)配置與調(diào)用路徑上的整體協(xié)同，使能應(yīng)用在精度與性能上的綜合最優(yōu)。

這種“基礎(chǔ)組件最優(yōu)協(xié)同”的思路，改變了傳統(tǒng)HPC軟件棧中由開發(fā)者負(fù)責(zé)大量拼裝與調(diào)優(yōu)工作的模式。對于應(yīng)用而言，HPCKit提供的是一個已經(jīng)在鯤鵬平臺上完成系統(tǒng)級驗(yàn)證的“性能基線”。

作為這一協(xié)同體系的性能基石，畢昇編譯器的作用至關(guān)重要。它是面向數(shù)據(jù)中心場景的高性能編譯器，支持主流系統(tǒng)語言和芯片架構(gòu)，是將鯤鵬硬件特性高效映射到上層應(yīng)用的關(guān)鍵橋梁。

不過，在工程實(shí)踐中，性能并非唯一指標(biāo)。對于大多數(shù)科研與工程團(tuán)隊(duì)而言，部署成本、遷移成本與維護(hù)復(fù)雜度同樣關(guān)鍵。

HPCKit在設(shè)計(jì)之初，便將“高易用性”作為核心目標(biāo)之一。通過一鍵集成部署能力，HPCKit將領(lǐng)域加速庫、數(shù)學(xué)庫、通信庫、并行編程框架以及編譯器多組件整合為統(tǒng)一的軟件套件，使開發(fā)者無需在不同組件之間反復(fù)適配與調(diào)優(yōu)。

在數(shù)學(xué)計(jì)算層面，鯤鵬數(shù)學(xué)庫基于鯤鵬平臺，通過數(shù)據(jù)預(yù)取、編譯優(yōu)化與數(shù)據(jù)重排等手段，顯著提升基礎(chǔ)數(shù)學(xué)函數(shù)性能。同時，KML保持了對FFTW、LAPACK、ScaLAPACK等主流接口的兼容，使得大量既有應(yīng)用僅需修改鏈接庫，即可完成遷移。

這種“對上透明、對下深度優(yōu)化”的設(shè)計(jì)，使得高性能不再依賴于開發(fā)者對底層硬件細(xì)節(jié)的高度敏感。

此外，針對AI4S領(lǐng)域越來越多的高并行負(fù)載需求，鯤鵬在2025年9月的華為全聯(lián)接大會上開源KUPL，與編譯器、數(shù)學(xué)庫、通信機(jī)制的協(xié)同下，支撐更復(fù)雜的并行與調(diào)度需求。

軟硬件的協(xié)同作戰(zhàn)，也使得在鯤鵬通用CPU平臺上開發(fā)與優(yōu)化復(fù)雜AI4S應(yīng)用（如AlphaFold）的工作，從一項(xiàng)高度定制化的手藝活，轉(zhuǎn)變?yōu)橐豁?xiàng)更高效、更具可復(fù)制性的系統(tǒng)工程，更極致地釋放了自主算力平臺的潛在性能。

軟硬協(xié)同的設(shè)計(jì)理念為應(yīng)對混合負(fù)載提供了新思路，但其能否經(jīng)受考驗(yàn)，首要在于能否攻克當(dāng)前科研中依賴GPU的應(yīng)用，例如蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold。

「甲子光年」關(guān)注到，北京航空航天大學(xué)楊海龍團(tuán)隊(duì)基于鯤鵬920 72F8優(yōu)化了AlphaFold2的計(jì)算效率，可以看作檢驗(yàn)鯤鵬HPC解決方案能否在真實(shí)科研場景中發(fā)揮作用的關(guān)鍵案例。

2.AlphaFold：鯤鵬答案在AI4S場景下的現(xiàn)實(shí)檢驗(yàn)

作為蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的里程碑，AlphaFold2（AF2）作為AI4S的典型成果，其推理過程屬于典型AI負(fù)載，已成為現(xiàn)代科研工作流中不可或缺的環(huán)節(jié)。

從HPC模擬生成數(shù)據(jù)到AI模型分析預(yù)測，再到結(jié)果反饋驗(yàn)證的閉環(huán)中，優(yōu)化此類純AI模型的運(yùn)行效率，正是打通HPC+AI4S全流程的關(guān)鍵一環(huán)。

北京航空航天大學(xué)楊海龍團(tuán)隊(duì)基于鯤鵬920 72F8，對AlphaFold2進(jìn)行了系統(tǒng)性優(yōu)化。

在制定具體優(yōu)化策略之前，楊海龍團(tuán)隊(duì)首先對模型不同模塊的計(jì)算占比進(jìn)行了系統(tǒng)分析，以明確優(yōu)化投入的主要方向。

團(tuán)隊(duì)發(fā)現(xiàn)，在AlphaFold2的推理過程中，NoExtraEvoformer模塊占據(jù)了約68%的整體推理時間，是決定端到端性能的核心瓶頸。這一判斷，為后續(xù)所有算子級與系統(tǒng)級優(yōu)化提供了清晰的目標(biāo)邊界。

鎖定瓶頸模塊后，楊海龍團(tuán)隊(duì)將優(yōu)化重點(diǎn)放在以GatingAttention為代表的核心算子上。團(tuán)隊(duì)采用精細(xì)化的混合精度策略：在確保Softmax等數(shù)值敏感操作保持高精度的前提下，將大部分計(jì)算轉(zhuǎn)換為FP16格式執(zhí)行。

在混合精度策略下，楊海龍團(tuán)隊(duì)從空間局部性、算子融合、向量化、通信以及Structure模塊五個維度，對AlphaFold 2模型的GatingAttention算子進(jìn)行系統(tǒng)性優(yōu)化。

具體來看，在GatingAttention中，查詢（q）、鍵（k）、值（v）向量對應(yīng)的數(shù)據(jù)在某些階段中往往指向相同的底層數(shù)據(jù)。

在優(yōu)化前，該輸入張量需要被重復(fù)讀取三次；優(yōu)化后，系統(tǒng)可以檢測到相同的輸入，僅進(jìn)行一次讀取，并連續(xù)完成q、k、v的全部計(jì)算。這一調(diào)整直接將內(nèi)存訪問次數(shù)減少至原來的三分之一，大幅降低了訪存開銷。

對于OuterProductMean等包含連續(xù)矩陣乘法（GEMM）的算子，楊海龍團(tuán)隊(duì)并未直接在原始數(shù)據(jù)布局上執(zhí)行計(jì)算。

相反，團(tuán)隊(duì)在計(jì)算前將數(shù)據(jù)分塊復(fù)制至連續(xù)的臨時緩沖區(qū)，并按照下一步計(jì)算最優(yōu)的訪問順序進(jìn)行預(yù)排列。這確保了數(shù)據(jù)在高速緩存中以最友好的方式存放，后續(xù)計(jì)算能夠連續(xù)、高速地訪問數(shù)據(jù)，避免因跨區(qū)域跳躍訪問而引發(fā)的緩存失效。

這套策略不是在計(jì)算開始后才去搬數(shù)據(jù)，而是在計(jì)算前主動規(guī)劃、重組數(shù)據(jù)，將其放置在更近、更順暢的位置。開發(fā)者無需手動實(shí)現(xiàn)復(fù)雜的緩沖區(qū)管理和數(shù)據(jù)重排，只需調(diào)用優(yōu)化后的算子，即可自動獲得這些收益。

在向量化方面，sigmoid、softmax等函數(shù)需要對大量數(shù)據(jù)獨(dú)立進(jìn)行相同的數(shù)學(xué)運(yùn)算，而原生實(shí)現(xiàn)僅采用標(biāo)量實(shí)現(xiàn)或簡單的OpenMP多線程加速，無法充分發(fā)揮強(qiáng)大的鯤鵬算力。團(tuán)隊(duì)基于ARM的SVE指令集，對softmax與sigmoid函數(shù)進(jìn)行了從底層重構(gòu)的向量化優(yōu)化，顯著提高了優(yōu)化效果。

在通信與并行層面，鯤鵬920 72F8采用多NUMA架構(gòu)，單一進(jìn)程難以有效利用全部計(jì)算資源。同時，PyTorch原生多進(jìn)程通信機(jī)制在該場景下性能不足，為此，楊海龍團(tuán)隊(duì)重構(gòu)了推理流程：放棄單進(jìn)程模式，轉(zhuǎn)向多進(jìn)程并行推理；繞過標(biāo)準(zhǔn)通信路徑，基于共享內(nèi)存重新實(shí)現(xiàn)alltoall與allgather接口，這些接口算子在設(shè)計(jì)之初便結(jié)合AI4S數(shù)據(jù)形態(tài)進(jìn)行優(yōu)化，顯著降低了跨進(jìn)程通信開銷。

在上述一系列優(yōu)化工作后，楊海龍團(tuán)隊(duì)發(fā)現(xiàn)，Structure模塊的推理時間占比反而逐漸升高。這是由于Structure模塊是基于JAX實(shí)現(xiàn)的。

JAX是Google開發(fā)的一個用于高性能數(shù)值計(jì)算和機(jī)器學(xué)習(xí)研究的Python庫，其特性十分適合實(shí)現(xiàn)蛋白質(zhì)折疊這樣結(jié)構(gòu)復(fù)雜的模型，因此被DeepMind用來作為AlphaFold 2的初始框架。

然而，JAX模塊幾乎沒有利用CPU的多核并行能力。另外，楊海龍團(tuán)隊(duì)此前一系列優(yōu)化工作已將模型其他主要部分（如Evoformer）已在PyTorch上進(jìn)行了深度優(yōu)化，如果保留一個獨(dú)立的JAX模塊，便破壞了計(jì)算圖的完整性和優(yōu)化連續(xù)性。兩個框架間的數(shù)據(jù)交換和調(diào)度會帶來額外開銷。

因此，楊海龍團(tuán)隊(duì)將Structure模塊從JAX遷移至PyTorch，并將模塊內(nèi)的核心計(jì)算層（Linear層）替換為團(tuán)隊(duì)已高度優(yōu)化的實(shí)現(xiàn)。

在上述一系列優(yōu)化的基礎(chǔ)上，AlphaFold 2在鯤鵬920 72F8處理器上的端到端推理時間，從令人望而卻步的1332秒縮短至88秒，實(shí)現(xiàn)了超過15倍的性能飛躍，同時保證計(jì)算精度不受損。

總體上看，楊海龍團(tuán)隊(duì)的優(yōu)化，本質(zhì)上是針對大模型推理中常見的計(jì)算密集型算子（Attention）、訪存瓶頸和并行調(diào)度效率這一系列通用問題進(jìn)行的。

HPCKit、KUPL等工具的價值，正是將這些針對特定問題的優(yōu)化經(jīng)驗(yàn)，沉淀為可被其他AI4S應(yīng)用（如材料模擬中的圖神經(jīng)網(wǎng)絡(luò)、流體仿真中的物理信息神經(jīng)網(wǎng)絡(luò)）直接調(diào)用的通用能力。

同時，我們必須指出，此次優(yōu)化雖然展示了鯤鵬CPU在運(yùn)行復(fù)雜AI模型時的巨大潛力與上限，但并不意味著宣稱CPU在所有場景下均優(yōu)于GPU。其價值在于，提供了一個高性能、可選的自主算力底座，豐富了科研團(tuán)隊(duì)的選擇。

AlphaFold3發(fā)布后，算子形態(tài)更復(fù)雜、調(diào)用路徑更深，對多進(jìn)程并行效率、高頻通信及內(nèi)存管理提出更高要求。于是，在楊海龍團(tuán)隊(duì)的優(yōu)化思路上，鯤鵬研發(fā)團(tuán)隊(duì)進(jìn)一步從平臺視角，基于KUPL對AlphaFold3的并行與通信路徑進(jìn)行增強(qiáng)。

具體來看，在并行層面，鯤鵬團(tuán)隊(duì)將模型重構(gòu)為多進(jìn)程模式并由KUPL統(tǒng)一調(diào)度；在通信層面，針對AI4S場景中矩陣動態(tài)變化的特點(diǎn)，基于KUPL的共享內(nèi)存機(jī)制，重構(gòu)了alltoall等通信算子，將數(shù)據(jù)搬運(yùn)與轉(zhuǎn)置操作融合，將通信時延降低90%以上；在算子層面，借鑒Flash Attention思路，重構(gòu)了關(guān)鍵注意力算子的計(jì)算與訪存路徑。

這些工作并不改變應(yīng)用邏輯，而是通過平臺能力的增強(qiáng)，釋放前一階段優(yōu)化的潛在空間，體現(xiàn)出系統(tǒng)級協(xié)同設(shè)計(jì)的價值。

AlphaFold的案例證明了，通過系統(tǒng)優(yōu)化，CPU能有效處理計(jì)算圖復(fù)雜、通信密集的AI負(fù)載。這一范式是否具有普適性？答案是肯定的。從分子動力學(xué)到工業(yè)仿真，不同領(lǐng)域的科研應(yīng)用正沿著相似的“系統(tǒng)協(xié)同優(yōu)化”路徑，在鯤鵬平臺上實(shí)現(xiàn)突破。

3.重構(gòu)中的HPC開發(fā)生態(tài)

當(dāng)HPC的開發(fā)重心從單純追求硬件峰值性能，轉(zhuǎn)向圍繞負(fù)載特征與開發(fā)效率進(jìn)行系統(tǒng)設(shè)計(jì)時，原本被系統(tǒng)復(fù)雜性所壓制的創(chuàng)新空間，開始逐步被釋放。

通過與北京大學(xué)、清華大學(xué)、上海交通大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、南京大學(xué)、復(fù)旦大學(xué)等多所頂尖高校共建“鯤鵬昇騰科教創(chuàng)新孵化中心”，產(chǎn)業(yè)級算力平臺也被引入科研與教學(xué)一線，為工程型人才的成長提供真實(shí)場景。這種從技術(shù)、生態(tài)到人才的閉環(huán)布局，正是HPC+AI4S能夠持續(xù)演進(jìn)的關(guān)鍵支撐。

在材料科學(xué)領(lǐng)域，上海交通大學(xué)江震團(tuán)隊(duì)圍繞LAMMPS分子模擬軟件的優(yōu)化，同樣體現(xiàn)了HPC+AI4S思維對傳統(tǒng)路徑的突破。

通過將MPI進(jìn)程級并行與鯤鵬 NEON向量化能力相結(jié)合，團(tuán)隊(duì)完成了百萬原子、百納秒級的相變模擬實(shí)驗(yàn)，成功突破了傳統(tǒng)模擬在規(guī)模與效率上的雙重瓶頸。這使高熵合金篩選、鋰電池電極跨尺度設(shè)計(jì)等原本周期極長的研究任務(wù)，首次具備了工程化落地的現(xiàn)實(shí)可能。

這一實(shí)踐表明，當(dāng)?shù)讓硬⑿心Ｐ湍軌蛴行ヅ湄?fù)載特征時，科研問題本身的復(fù)雜度，才不再被系統(tǒng)能力所限制。

更具沖擊力的案例來自工業(yè)仿真領(lǐng)域。

北京大學(xué)陳幟團(tuán)隊(duì)提出的DeepFlame燃燒仿真，將物理嵌入剛性神經(jīng)算子（PE-SNO）與眾核PDE求解器相結(jié)合，在鯤鵬平臺上完成了近萬億網(wǎng)格規(guī)模的模擬計(jì)算，浮點(diǎn)性能峰值超過1EFlops。原本需要6個月完成的火箭發(fā)動機(jī)燃燒模擬，被壓縮至1小時完成。

2026年1月，該團(tuán)隊(duì)正式發(fā)布DeepFlame 2.0，正式引入“AI智能體驅(qū)動科學(xué)計(jì)算”的全新科研范式，從上一版的“求解器集合”，進(jìn)化為一個開放的、覆蓋代碼開發(fā)和算例模擬各個環(huán)節(jié)的“智能體集合”。

目前，DeepFlame 2.0已經(jīng)基于鯤鵬生態(tài)進(jìn)行了多項(xiàng)適配優(yōu)化。

在易用性方面，DeepFlame 2.0軟件棧可基于鯤鵬原生編譯，支持Jarvis工具一鍵部署運(yùn)行。

在性能方面，實(shí)現(xiàn)了鯤鵬架構(gòu)深度優(yōu)化與性能突破：硬件層針對鯤鵬 920 72F8眾核、多NUMA、片上內(nèi)存架構(gòu)，引入精細(xì)化綁核、內(nèi)存分配策略；軟件層基于畢昇編譯器重構(gòu)代碼，在保證準(zhǔn)確性和魯棒性的同時，集成鯤鵬數(shù)學(xué)庫加速GEMM計(jì)算；算法層設(shè)計(jì)鯤鵬-native的混合精度求解器（FP64 稀疏求解+FP16 推理），平衡精度與速度。

在AI-CFD融合推理加速方面，模型層開發(fā)輕量化神經(jīng)網(wǎng)絡(luò)模型，實(shí)現(xiàn)高精度網(wǎng)絡(luò)推理，并適配鯤鵬矩陣運(yùn)算指令集。

這套方案在提升計(jì)算效率的同時，也重塑了研發(fā)流程。當(dāng)仿真成本從很難復(fù)用的反復(fù)嘗試轉(zhuǎn)變?yōu)榭筛哳l迭代的飛輪，工程創(chuàng)新的節(jié)奏與方式隨之發(fā)生根本變化。

無論是AlphaFold還是DeepFlame，它們的成功優(yōu)化都非依賴于單一的硬件算力飆升，根本在于對應(yīng)用負(fù)載的深度理解，并將此理解通過KUPL、HPCKit等工具轉(zhuǎn)化為系統(tǒng)級的協(xié)同優(yōu)化。

這標(biāo)志著HPC開發(fā)的焦點(diǎn)，正從追逐硬件峰值，轉(zhuǎn)向構(gòu)建“理解負(fù)載、優(yōu)化系統(tǒng)”的下一代科研計(jì)算基礎(chǔ)設(shè)施。

當(dāng)然，HPC+AI4S的演進(jìn)之路仍面臨現(xiàn)實(shí)挑戰(zhàn)。例如，存量應(yīng)用遷移成本高、國內(nèi)生態(tài)與國際頂級社區(qū)之間的差距，以及技術(shù)路線碎片化帶來的內(nèi)耗，都是短期內(nèi)難以徹底回避的問題。但通過行業(yè)內(nèi)各玩家的持續(xù)開放協(xié)作與長期投入，這些問題正在被逐步化解。

長遠(yuǎn)來看，AI正在推動HPC從“算得更快”，走向“算得更聰明”。在這一轉(zhuǎn)變中，真正決定成敗的，不再是單點(diǎn)性能指標(biāo)，而是誰能夠率先為開發(fā)者降低系統(tǒng)復(fù)雜度。

當(dāng)并行、通信與異構(gòu)調(diào)度不再成為創(chuàng)新門檻，當(dāng)科學(xué)家與工程師能夠?qū)Ｗ⒂趩栴}本身而非工具差異，HPC+AI4S的潛力才會被真正釋放。根本上看，這是在AI4S這一特定問題空間內(nèi)，對CPU和GPU算力角色分工的一次重構(gòu)。

從這一意義上看，鯤鵬嘗試扮演的，正是這場HPC+AI4S開發(fā)范式轉(zhuǎn)移中的加速器。

（本文圖片來源：AI生成）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.