新年伊始,備受矚目的華為ICT大賽挑戰(zhàn)賽又有新進(jìn)展。1月4日,來(lái)自全國(guó)多所知名高校的參賽隊(duì)伍正式提交了初賽技術(shù)方案。這些方案其實(shí)就是參賽答卷。不久后,賽事評(píng)委們將根據(jù)這些方案進(jìn)行評(píng)分,并選出最終晉級(jí)決賽的隊(duì)伍名單。
小棗君之前曾經(jīng)給大家介紹過(guò)華為ICT大賽挑戰(zhàn)賽。這個(gè)比賽是華為ICT大賽的五大賽項(xiàng)之一,專門針對(duì)“超智融合(超算+智算)”主題,僅面向國(guó)內(nèi)高校開放報(bào)名。
比賽以國(guó)產(chǎn)算力平臺(tái)(昇騰和鯤鵬)為核心,重點(diǎn)考察參賽隊(duì)伍在系統(tǒng)優(yōu)化、算法調(diào)優(yōu)方面的綜合能力,極具創(chuàng)新性和挑戰(zhàn)性,吸引了業(yè)界的廣泛關(guān)注。
本次初賽方案提交,不禁讓人對(duì)初賽的賽題內(nèi)容產(chǎn)生了興趣——初賽到底考了些什么呢?難度大不大呢?該如何進(jìn)行準(zhǔn)備?
接下來(lái),我們就對(duì)賽題進(jìn)行一個(gè)全方位的解讀。
▉ 挑戰(zhàn)賽初賽賽題分析
華為ICT大賽挑戰(zhàn)賽分為初賽和決賽兩個(gè)階段,初賽采用線上的方式進(jìn)行。比賽主辦方會(huì)公布4道賽題,參賽隊(duì)伍需要針對(duì)這4道賽題,提出相應(yīng)的優(yōu)化方案,并線上提交。
這4道賽題,具體是:
![]()
可以看出,第1題是基于鯤鵬CPU進(jìn)行優(yōu)化,第2-4題是在昇騰NPU上進(jìn)行優(yōu)化。這些賽題既涵蓋了超算性能評(píng)估、算子優(yōu)化等基礎(chǔ)領(lǐng)域,又涉及大語(yǔ)言模型推理加速、新型大模型架構(gòu)開發(fā)等前沿技術(shù)方向,對(duì)參賽隊(duì)伍的知識(shí)儲(chǔ)備和技術(shù)實(shí)力提出了全方位的考驗(yàn)。
我們先看第1題——HPCG優(yōu)化。
HPCG,是指High Performance Conjugate Gradient(高性能共軛梯度基準(zhǔn)測(cè)試)。
大家都聽說(shuō)過(guò)手機(jī)的“跑分”測(cè)試,超算也有自己的“跑分”測(cè)試。HPCG就是屬于其中一種。
HPCG用于評(píng)估超級(jí)計(jì)算機(jī)在非結(jié)構(gòu)化稀疏線性代數(shù)計(jì)算中的性能。相比另一種傳統(tǒng)的HPL(High Performance Linpack,聚焦稠密矩陣計(jì)算)基準(zhǔn)測(cè)試,HPCG更貼近真實(shí)科學(xué)計(jì)算、工程模擬的負(fù)載特征(如流體力學(xué)、有限元分析、地球物理模擬等)。
在超算領(lǐng)域,HPCG優(yōu)化賽題非常經(jīng)典,幾乎每年都被各類競(jìng)賽所采用。在鯤鵬HPC平臺(tái)上的各類性能優(yōu)化競(jìng)賽上,HPCG優(yōu)化也是“常客”。
挑戰(zhàn)賽初賽階段,要求參賽隊(duì)在鯤鵬CPU上進(jìn)行HPCG優(yōu)化,并且限定了編譯器、進(jìn)程和線程的并行編程模型。我們可以把這道題看成一道“開胃菜”,難度適中。
再來(lái)看第2題——Pdist算子優(yōu)化。
在神經(jīng)網(wǎng)絡(luò)的計(jì)算圖中,每個(gè)節(jié)點(diǎn)就是一個(gè)算子,它是模型中最基本的計(jì)算單元。整個(gè)深度學(xué)習(xí)模型,可以看作是一個(gè)由數(shù)據(jù)和算子構(gòu)成的有向無(wú)環(huán)圖。算子接收一個(gè)或多個(gè)張量作為輸入,執(zhí)行特定運(yùn)算后,產(chǎn)生一個(gè)或多個(gè)張量作為輸出。
Pdist是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語(yǔ)言處理等領(lǐng)域的基礎(chǔ)算子,廣泛用于聚類(如DBSCAN)、度量學(xué)習(xí)、目標(biāo)跟蹤、特征匹配等任務(wù)。Pdist算子優(yōu)化,是一個(gè)平臺(tái)性能優(yōu)化的基礎(chǔ)。
昇騰原生支持Pdist算子,并且在芯片硬件架構(gòu)(如達(dá)芬奇架構(gòu)的 Cube/Vector 計(jì)算單元)上進(jìn)行了充分適配,可以通過(guò)算子級(jí)優(yōu)化(如數(shù)據(jù)分塊、并行計(jì)算)提升計(jì)算效率。
賽題要求參賽隊(duì)在昇騰處理器上實(shí)現(xiàn)并優(yōu)化Pdist算子,達(dá)到賽題任務(wù)書所要求的精度,并根據(jù)性能進(jìn)行排名。
整體來(lái)說(shuō),這道題的難度相對(duì)較小。作為昇騰NPU上的第一道賽題,也算是一道“熱身題”。完成這道賽題,會(huì)有利于拓展思路,更好地完成后面的賽題。
第3題,推理引擎加速。
近兩年,大語(yǔ)言模型(LLM)從十億參數(shù)發(fā)展到千億參數(shù)級(jí)別,已在對(duì)話問答、代碼生成、搜索增強(qiáng)、Agent編排、垂直領(lǐng)域知識(shí)問答等場(chǎng)景廣泛落地。
模型規(guī)模越大,帶來(lái)的問題也越多。例如:
計(jì)算量巨大:一次完整長(zhǎng)上下文生成包含多輪解碼;
延遲敏感:在線對(duì)話、搜索推薦、交互式編程對(duì)響應(yīng)時(shí)間非常敏感;
成本敏感:大規(guī)模部署需要在有限GPU/NPU資源下盡可能提升吞吐。
因此,業(yè)界一直在不斷優(yōu)化LLM推理系統(tǒng),包括引入vLLM、SGLang等高性能推理框架,通過(guò)KV Cache復(fù)用、張量并行、連續(xù)批處理等手段,提升生成吞吐。
第3道賽題,是前一道算子優(yōu)化賽題的進(jìn)一步擴(kuò)展和延伸,要求參賽隊(duì)針對(duì)推理采樣后處理階段進(jìn)行優(yōu)化,達(dá)成端到端推理加速的目的。
賽題任務(wù)書推薦了采用Triton融合算子進(jìn)行加速的方法,同時(shí)也歡迎參賽隊(duì)提出其他有效的優(yōu)化方法。
基于第2和第3題,參賽隊(duì)會(huì)發(fā)現(xiàn),CANN(Compute Architecture for Neural Networks,華為針對(duì)AI場(chǎng)景推出的異構(gòu)計(jì)算架構(gòu))的算子優(yōu)化能力對(duì)于在昇騰NPU上進(jìn)行AI模型性能優(yōu)化非常關(guān)鍵。
作為昇騰AI全棧解決方案的核心,CANN發(fā)揮著承上啟下的作用。
![]()
它提供了完善的工具鏈,支持將PyTorch、TensorFlow等框架的模型快速遷移到昇騰平臺(tái)進(jìn)行高效訓(xùn)練和推理。它還擁有超過(guò)1400個(gè)高性能原生算子,以及配套的Ascend C編程語(yǔ)言,可以很方便地進(jìn)行融合算子的開發(fā)。
華為在2025年8月正式宣布CANN全面開源。通過(guò)代碼開放、技術(shù)賦能和社區(qū)運(yùn)營(yíng),已經(jīng)構(gòu)建了一個(gè)能夠與主流生態(tài)競(jìng)爭(zhēng)的、充滿活力的昇騰AI生態(tài)系統(tǒng)。這也是本次挑戰(zhàn)賽能夠舉辦的重要前提。
第4題,Diffusion LLM單卡推理優(yōu)化(基于昇騰NPU進(jìn)行優(yōu)化)。
最后一道賽題,由xLLM團(tuán)隊(duì)為本次挑戰(zhàn)賽精心設(shè)計(jì)。這不僅體現(xiàn)了xLLM與昇騰團(tuán)隊(duì)的深入合作,也體現(xiàn)出xLLM團(tuán)隊(duì)對(duì)于高校人才生態(tài)的重視。
xLLM是一款高效的開源大語(yǔ)言模型推理引擎,基于國(guó)產(chǎn)人工智能芯片進(jìn)行了深度優(yōu)化,可實(shí)現(xiàn)企業(yè)級(jí)部署,兼具更高效率與更低成本。
xLLM采用服務(wù)-引擎分離的推理架構(gòu),通過(guò)多項(xiàng)技術(shù)實(shí)現(xiàn)效率突破:服務(wù)層包含在離線請(qǐng)求彈性調(diào)度、動(dòng)態(tài)PD分離、面向多模態(tài)的混合EPD機(jī)制及高可用容錯(cuò)能力;引擎層則融合多流并行計(jì)算、圖融合優(yōu)化、投機(jī)推理、動(dòng)態(tài)負(fù)載均衡與全局KV緩存管理等技術(shù)。
Diffusion LLM(dLLM)是近年來(lái)興起的新型大模型架構(gòu),通過(guò)擴(kuò)散過(guò)程生成文本,與傳統(tǒng)自回歸模型有顯著差異。
本賽題要求參賽隊(duì)基于xLLM,對(duì)LLaDA-MoE-7B-A1B-Instruct進(jìn)行開發(fā)優(yōu)化,實(shí)現(xiàn)在昇騰910B單卡上的高效推理。
這有一定的難度,要求參賽隊(duì)伍不僅要熟悉昇騰NPU的硬件特性,還需深入理解Diffusion LLM的獨(dú)特架構(gòu)與運(yùn)行機(jī)制。xLLM推理引擎的分離架構(gòu)設(shè)計(jì),為參賽隊(duì)伍提供了靈活的優(yōu)化空間,尤其是在服務(wù)層與引擎層的協(xié)同優(yōu)化上,如何平衡資源調(diào)度、提升并行計(jì)算效率、減少內(nèi)存占用,將成為關(guān)鍵挑戰(zhàn)。
以上,就是關(guān)于4道初賽賽題的介紹。
總的來(lái)說(shuō),這些賽題不僅全面考察了參賽隊(duì)伍在AI計(jì)算領(lǐng)域的綜合技術(shù)能力,還通過(guò)不同難度層次的設(shè)置,引導(dǎo)隊(duì)伍逐步深入探索昇騰NPU的優(yōu)化潛力。從HPCG優(yōu)化到Pdist算子實(shí)現(xiàn),再到推理引擎加速與Diffusion LLM單卡推理,四道賽題形成了一個(gè)由淺入深、從基礎(chǔ)到創(chuàng)新的完整技術(shù)鏈條,為參賽者提供了充分展示技術(shù)實(shí)力的舞臺(tái)。
賽題雖然有一定的專業(yè)性,但內(nèi)容也是開放的。在開源社區(qū)以及其它互聯(lián)網(wǎng)平臺(tái),都可以找到參考文檔、論文和源碼。借助AI工具,也可以獲得很多的幫助和支持。相對(duì)一些傳統(tǒng)的超算賽事,這個(gè)比賽顯然更具開放性,為更多學(xué)校參與進(jìn)來(lái)創(chuàng)造了條件。
▉ 結(jié)語(yǔ)
華為ICT大賽挑戰(zhàn)賽并不僅僅是一場(chǎng)大學(xué)生專業(yè)技術(shù)競(jìng)賽。它旨在踐行“以賽促訓(xùn)、以賽促學(xué)、以賽促用”的理念,通過(guò)搭建高水平競(jìng)技平臺(tái),激發(fā)高校學(xué)子對(duì)國(guó)產(chǎn)算力平臺(tái)及相關(guān)技術(shù)的興趣與熱情,助力專業(yè)人才培養(yǎng)。同時(shí),賽事的舉辦,也能推動(dòng)國(guó)產(chǎn)算力在高校中的普及應(yīng)用,進(jìn)一步促進(jìn)生態(tài)體系的成熟完善。
不久后,晉級(jí)決賽的名單即將公布。究竟哪些高校團(tuán)隊(duì)能夠順利挺進(jìn)下一輪,決賽賽題又會(huì)有怎樣的設(shè)計(jì)?讓我們拭目以待!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.