一起昇騰共綻光芒：昇騰AI開發(fā)者峰會2026在京成功舉辦

2026-05-23 20:22:24　來源: 前沿在線

北京舉報

分享至

[中國，北京，2026年5月22日]今日，鯤鵬昇騰開發(fā)者大會2026——昇騰AI開發(fā)者峰會2026在北京成功舉辦。此次峰會以“一起昇騰共綻光芒”為主題，旨在匯聚全球前沿技術(shù)，打造面向開發(fā)者的思想盛會。昇騰秉持開源開放理念，持續(xù)為開發(fā)者提供好用易用的開發(fā)工具，著力構(gòu)建繁榮的開發(fā)者生態(tài)，與每一位開發(fā)者攜手共創(chuàng)未來。

過去一年Agentic AI發(fā)展迅猛，華為在AI Infra層面已開啟超節(jié)點時代。華為公司Fellow、半導(dǎo)體首席科學(xué)家廖恒在《面向Agentic AI時代的昇騰超節(jié)點最佳實踐》主題演講中表示：面向預(yù)訓(xùn)練、推理Prefill與Decode等各類業(yè)務(wù)負(fù)載，AI芯片的算力、內(nèi)存帶寬、內(nèi)存容量、互聯(lián) IO 帶寬四大核心指標(biāo)，在不同應(yīng)用場景下優(yōu)先級各有差異。此外，尤其是互聯(lián)的能力直接決定了超節(jié)點的能力。通過昇騰950芯片優(yōu)異的互聯(lián)能力，可構(gòu)建出更高帶寬、更低延時，以及覆蓋范圍更大的超節(jié)點。整體來看，系統(tǒng)綜合性能等同于超節(jié)點規(guī)模與單芯片性能規(guī)格的乘積。

Agent時代，MoE模型推理對時延提出更高要求，時延需壓縮至 10 毫秒、5 毫秒，乃至 1 毫秒級別。而EP的Dispatch-Combine通信，正是制約時延的核心瓶頸。廖恒提出，EP通信應(yīng)在Scale Up域里完成，因為EP是All-to-All這種多對多的極其細(xì)粒度的通信，單數(shù)據(jù)包大小僅 7KB 至 14KB，數(shù)據(jù)包交互頻次隨專家數(shù)量呈平方級增長，傳統(tǒng)網(wǎng)絡(luò)架構(gòu)無法承載，難以實現(xiàn)低時延傳輸。對于如何選擇通信方式，廖恒認(rèn)為取決于通信的顆粒度，如果通信量小，Load&Store內(nèi)存語義優(yōu)勢大，如果通信顆粒較大，那么建議使用DMA，同時，多個網(wǎng)絡(luò)流量盡量不要有路徑重疊。

Agentic AI也對KV Cache帶來更大挑戰(zhàn)。一方面，模型調(diào)用頻次暴漲 50 至 100 倍；另一方面，序列長度從Chatbot典型的4k序列長度，到今天接近1兆的序列長度，帶來250倍提升。受此影響，KVCache命中率突破95%。高命中率會顯著降低Prefill成本，也會導(dǎo)致KVCache成本等比例提升。對此，華為創(chuàng)新設(shè)計搭載UB端口的SSU單元，直出接口接入UB網(wǎng)絡(luò)。該架構(gòu)精簡剔除存儲系統(tǒng)、文件系統(tǒng)，以及從文件系統(tǒng)名字中間轉(zhuǎn)換到SSD的邏輯扇區(qū)的轉(zhuǎn)換過程，消除原路徑諸多障礙，NPU直接命中SSU的KVCache，SSU通過UB網(wǎng)絡(luò)把數(shù)據(jù)傳送到NPU的片上內(nèi)存，帶寬至少提升一個數(shù)量級。

廖恒表示，昇騰一直秉承從“芯片架構(gòu)-系統(tǒng)架構(gòu)-集群架構(gòu)-軟件架構(gòu)”的深度協(xié)同，持續(xù)迭代硬件能力、優(yōu)化 CANN 等基礎(chǔ)軟件，平衡生態(tài)兼容性與系統(tǒng)運行效率，為業(yè)界構(gòu)筑堅實的算力底座。

華為公司Fellow、半導(dǎo)體首席科學(xué)家廖恒

圍繞易用性持續(xù)提升，打造從好用到易用的昇騰算力底座

會上，華為昇騰計算產(chǎn)品部部長周斌發(fā)表了《圍繞易用性持續(xù)提升，打造從好用到易用的昇騰算力底座》主題演講，從開發(fā)者視角全面介紹昇騰軟件易用性建設(shè)最新成果，圍繞CANN全面開源開放、兼容主流開源生態(tài)、Mind系列軟件升級并開源貢獻(xiàn)三大方向，持續(xù)降低開發(fā)門檻、提升開發(fā)效率，為 AI 開發(fā)者提供全流程高效開發(fā)體驗。

華為昇騰計算產(chǎn)品部部長周斌

CANN 作為昇騰軟件底座與生態(tài)核心，已實現(xiàn)全面開源開放，為開發(fā)者提供完整、高效、開放的算子開發(fā)體系。目前完成分層解耦與開源，開放運行時、算子編譯等全層級接口，算子與通信庫支持獨立升級，已開源 50 余個源碼倉。

算子編程層面，昇騰面向不同開發(fā)者需求提供全棧支持：對追求極致性能的工程師，提供Ascend C、CATLASS模板庫，支持對計算、訪存、流水等關(guān)鍵環(huán)節(jié)細(xì)粒度控制，充分釋放芯片性能；對注重快速創(chuàng)新的AI算法工程師，支持TileLang、Triton等主流Tile編程生態(tài)，并推出PyPTO，以Tensor抽象簡化算法創(chuàng)新流程。為降低開發(fā)門檻，昇騰全面擁抱Python生態(tài)，推出PyAsc、Python版CATLASS模板庫及PyPTO，讓開發(fā)者以Python友好方式實現(xiàn)底層并行與高性能算子開發(fā)。

昇騰還打造了CANNBot算子智能體，將微架構(gòu)優(yōu)化經(jīng)驗融入skill技能庫，支持Ascend C、CATLASS、Triton、TileLang、PyPTO等多種編程范式，覆蓋算子開發(fā)全流程。基于CANNBot，單個Vector算子生成僅需3小時，從生成到部署全流程1天內(nèi)即可完成，相比傳統(tǒng)人工開發(fā)效率提升5倍以上。為進(jìn)一步賦能業(yè)界Agent與大模型適配昇騰算子，昇騰還量身打造了專屬算子數(shù)據(jù)集與評測集：算子數(shù)據(jù)集覆蓋Vector、Cube、CV融合算子數(shù)據(jù)，通過高質(zhì)量樣本與專業(yè)思維鏈幫助大模型理解算子寫法；算子評測集提供分級評測體系，覆蓋22類典型算子、內(nèi)置4000+評測點，多維度評估算子生成的功能、精度與性能。

在兼容主流開源技術(shù)生態(tài)方面，昇騰以全面兼容主流開源生態(tài)為易用性改進(jìn)核心方向，讓開發(fā)者無需改變使用習(xí)慣即可高效調(diào)用昇騰硬件能力。算子編程層面，昇騰實現(xiàn)Triton和TileLang接口100%兼容，性能可達(dá)Ascend C的0.6~0.9倍，開發(fā)周期縮短至一周，已支持超600個Triton算子和300個TileLang算子，覆蓋主流模型關(guān)鍵算子樣例。

北京大學(xué)計算機學(xué)院副研究員楊智提到，TileLang作為tile級編程框架，在DeepSeek V4的算子實踐中表現(xiàn)出了高開發(fā)效率與高性能，使能昇騰全面支持DeepSeek V4推理，同時也證明了TileLang優(yōu)秀的跨平臺能力，Developer模式下不同平臺的算子僅有少量代碼存在區(qū)別。在未來TileLang for Ascend還有廣闊的發(fā)展空間，比如昇騰950的編程插件、torch.compile與Graph優(yōu)化、超節(jié)點統(tǒng)一編程等。

北京大學(xué)計算機學(xué)院副研究員楊智

AI框架上，昇騰全面支持PyTorch生態(tài)，實現(xiàn)2300多個API與社區(qū)對齊；圖模式加速實現(xiàn)40+模型入圖能力對齊，分布式加速實現(xiàn)20+主流大模型FSDP2開箱即用。訓(xùn)練加速方面，昇騰與8+強化學(xué)習(xí)社區(qū)建立合作，累計合入超萬行代碼。

verl社區(qū)Maintainer侯正罡介紹，verl社區(qū)與昇騰深度合作，基于昇騰軟硬件實現(xiàn)fully Async，并在基礎(chǔ)架構(gòu)上開展聯(lián)合創(chuàng)新和回饋社區(qū)，使得強化學(xué)習(xí)訓(xùn)練效率提升2倍以上。

verl社區(qū)Maintainer 侯正罡

推理領(lǐng)域，昇騰全面適配LLM、多模態(tài)等核心場景，作為vLLM Project唯一自主創(chuàng)新硬件廠商、SGLang主倉唯一自主創(chuàng)新非GPU硬件廠商，原生合入主干代碼并貢獻(xiàn)關(guān)鍵特性，長序列場景首Token時延降低30%，xLLM框架也已原生支持昇騰。

開源大模型推理引擎xLLM負(fù)責(zé)人劉童璇也分享道，xLLM推理引擎如同操作系統(tǒng)般連接底層芯片與上層大模型應(yīng)用，原生支持文本、圖像、視頻等全模態(tài)模型的推理加速，實現(xiàn)算力向模型智能高效轉(zhuǎn)化。其架構(gòu)深度適配昇騰超節(jié)點技術(shù)優(yōu)勢，推理性能出眾；同時開源大模型服務(wù)核心組件，構(gòu)筑從推理引擎到上層服務(wù)的完整技術(shù)棧。未來 xLLM 將緊跟技術(shù)趨勢持續(xù)迭代架構(gòu)，深度適配昇騰 950 超節(jié)點產(chǎn)品，立足 Al for System 理念，從技術(shù)跟隨邁向標(biāo)準(zhǔn)引領(lǐng)，打造面向未來的智能超級大腦。

開源大模型推理引擎xLLM負(fù)責(zé)人劉童璇

在Mind系列軟件全面升級方面，MindSpore面向超節(jié)點創(chuàng)新，組件化解耦，提升昇騰大模型圖模式、分布式競爭力；MindSpeed通過架構(gòu)革新，解耦插件，靈活配合開源社區(qū)使用，快速使能昇騰算力；MindIE系列軟件棧全新升級，與生態(tài)充分融合，助力推理更快、更穩(wěn)、更簡單；MindStudio開源開放并搭載智能助手，全流程提升了開發(fā)調(diào)試效率。

全面升級昇騰開發(fā)者使能計劃，共建繁榮開源生態(tài)

昇騰持續(xù)圍繞開發(fā)者需求迭代升級，致力于為每一位開發(fā)者提供更好的開發(fā)和學(xué)習(xí)體驗。華為昇騰生態(tài)發(fā)展部部長張良在《匯聚開發(fā)生態(tài)，共建技術(shù)未來》的演講中，詳細(xì)介紹了全面升級后的昇騰開發(fā)者使能計劃，包括社區(qū)體驗、開發(fā)工具、激勵權(quán)益三大方向。

華為昇騰生態(tài)發(fā)展部部長張良

面向社區(qū)，昇騰優(yōu)化環(huán)境準(zhǔn)備、部署、資料檢索等流程，實現(xiàn)一鍵自動部署，平均2分鐘即可跑通首個 Demo。社區(qū)上線了1000+昇騰卡，為每一位開發(fā)者提供初始100卡時的免費算力，基于一站式開發(fā)平臺即取即用；算子開發(fā)易用性提升，算子工程升級、開源昇騰skills倉庫，助力開發(fā)者高效開發(fā)、調(diào)試；加強開源社區(qū)CI/CD建設(shè)及Committer專家投入，提速開源貢獻(xiàn)的驗證及合入。

面向開發(fā)工具，將數(shù)千名昇騰專家經(jīng)驗沉淀成skills，搭建Agent工作流，提供全新Agentic開發(fā)體驗，開發(fā)者通過需求描述即可完成各類模型開發(fā)操作，大幅壓縮開發(fā)周期，讓新手也能輕松搞定復(fù)雜任務(wù)，加速創(chuàng)新想法落地。

伴隨基礎(chǔ)軟件全面開源，昇騰轉(zhuǎn)向社區(qū)化運作，明確開發(fā)者成長與創(chuàng)新路徑。設(shè)立首批創(chuàng)新激勵基金，扶持算子、加速庫等領(lǐng)域創(chuàng)新探索；投放 10000 卡算力資源，支撐開源社區(qū)研發(fā)運維與實操體驗，充分保障開發(fā)者算力需求。

昇騰始終心系開發(fā)者、聚力同行者。會上華為ICT戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁彭紅華、華為公司Fellow、半導(dǎo)體首席科學(xué)家廖恒、華為昇騰計算業(yè)務(wù)總裁張迪煊、華為北京總經(jīng)理張東亞為杰出個人及團(tuán)隊分別頒發(fā)了“昇騰開源貢獻(xiàn)杰出個人獎”及“昇騰開源合作杰出團(tuán)隊獎”，以表彰近一年來昇騰開發(fā)者在昇騰技術(shù)創(chuàng)新、技術(shù)生態(tài)發(fā)展中的突出表現(xiàn)。11名個人杰出貢獻(xiàn)者獲得“昇騰開源貢獻(xiàn)杰出個人獎”榮譽，14個開源項目團(tuán)隊分別獲得開源項目先鋒團(tuán)隊獎、開源社區(qū)共建團(tuán)隊獎及AI4S 生態(tài)貢獻(xiàn)團(tuán)隊獎。

昇騰開源貢獻(xiàn)杰出個人獎

昇騰開源合作杰出團(tuán)隊獎

Agentic AI時代已全面開啟，面向未來，昇騰將持續(xù)深耕超節(jié)點架構(gòu)，提升易用性，打造好用易用的算力底座，壯大開發(fā)者生態(tài)。眾行致遠(yuǎn)，聚力同行，昇騰誠邀廣大開發(fā)者并肩前行，緊抓智能時代機遇，共同譜寫Agentic AI時代高質(zhì)量發(fā)展新篇章。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.