對抗英偉達?成為英偉達。
日前,華為正式宣布開源其AI計算架構CANN,并提出要打造“中國自己的CUDA”。結合此前“昇騰NPU改道GPGPU”的傳聞,此舉不僅進一步釋放出昇騰戰略轉向信號,同時也描摹出一幅“全面對標英偉達”的嶄新圖景。
從底層架構變遷到上層生態重建,一夕之間換了新天。今天的昇騰,前路格外引人注目。
官宣:CANN開源號召共建昇騰生態
8月5日,華為輪值董事長徐直軍在昇騰計算產業發展峰會上宣布,華為昇騰硬件使能CANN全面開源開放,Mind系列應用使能套件及工具鏈全面開源。
官宣消息顯示,這一舉措主要為了支持用戶自主的深度挖潛和自定義開發,加速廣大開發者的創新步伐,讓昇騰更好用、更易用。“華為AI戰略的核心是算力,并堅持昇騰硬件變現。”
據悉,CANN全稱為“神經網絡異構計算架構”,其直接對標對象正是英偉達的CUDA。對開發者來說,CANN是把上層AI訓練框架(如PyTorch、TensorFlow、MindSpore)和底層昇騰芯片連接起來的橋梁,讓開發者不用關心芯片細節就能調用底層算力。
當然,相較于CUDA,CANN在開發者規模、架構成熟度和生態完善度方面,均存在差距。這在很大程度上影響到昇騰芯片的易用性,用戶在生態路線選擇上更傾向于前者。
華為方面表示,公司與各界伙伴探討了如何更好地構建昇騰生態,并發起《CANN開源開放生態共建倡議》,以凝聚產業力量,共探AI邊界,共建昇騰生態。
顯然,華為希望通過開源CANN,吸引更多開發者擴大其生態圈,拉近與CUDA的差距,并以此彌補昇騰產品早期易用性不足的問題。
值得一提的是,業內此前就傳出“昇騰NPU轉向GPGPU”的消息,并被視為國產ASIC芯片向主流技術路線靠攏的信號。此次CANN開源融入主流生態,無疑再次驗證了這一點。
熱議:NPU留下的坑沒那么好填?
面對開源CANN發出的生態召集令,業界給出的反應值得玩味。部分觀點頗為尖銳,認為昇騰NPU變道后會導致原有軟件棧無法維系更新,這時候開源CANN吸納開發者“惠而不費”。
有人將“昇騰轉型GPGPU”和“CANN開源”合并探討。“NPU走不下去了,原本基于NPU搞編譯器的組就要轉到基于GPGPU搞編譯器,那原來的CANN內部沒精力優先級維護了,正好放出來給‘冤大頭’們用。”
另外,也有觀點指出,開源是好事,問題在于NPU本來就沒有GPU好編程。“全國不知道能不能找得出來一百個寫昇騰算子寫得很六的,因此開源社區能對昇騰的生態做出多少貢獻我還是存疑。搞不好全是‘華子’自己的員工在上面commit。”
業內對CANN的“戒心”,源于昇騰NPU一貫以來的封閉特點。
根據公開資料,NPU與GPGPU架構存在根本技術差異,在場景應用上的定位也完全不同。NPU若從此前的全定制化路線轉向通用GPGPU,新架構體系幾乎無法復用之前的軟件棧(包括基礎環境、優化的核心算子、編譯器等)。
“如果大量人員投入新架構研發,原有的NPU軟件棧更新可能會陷入停滯。”某業內人士表示,這會導致后續的新模型或算法無法有效支持,不能充分發揮已采購芯片的價值,造成客戶投資虧損。“這時候引導開發者進駐CANN,相當于靠大家一起去‘填坑’。”
正值昇騰架構更迭之際,內有NPU架構生態問題懸而未決,外有英偉達和國產GPGPU“珠玉在前”。也有部分開發者對此時開源的CANN態度十分保守。
前瞻:昇騰轉向GPGPU或成定局
盡管CANN生態前景存在不確定性,但昇騰轉向GPGPU幾乎已成定局。種種跡象表明,ASIC芯片并不適用于主流場景需求,NPU架構路線甚至被一些媒體定義為“戰略方向性失誤”。
有專業人士分析,NPU和GPGPU相比,最大的問題在于軟件適配成本。“由于整個深度學習生態都建立在CUDA之上,最新的算法和嘗試也都基于英偉達的卡實現。將這些代碼遷移到NPU上,需要大量的時間和開發成本。”
據介紹,NPU和GPU本身的差異,導致需要特定的范式才能發揮出NPU全部的功能。比如gpu kernel需要用ascend-c定制,cpu launch kernel怕打斷、小內存訪問低效等。
華為基于歷史慣性,一直力推自己的軟件棧(如Mindspeed-LLM、Mindspeed-RL、MindIE)。可惜具體到項目落地中效果并不理想,比如今年爆火的DeepSeek-GRPO,想要在NPU上進行GRPO訓練,需要等待華為投入人力適配優化,根本跟不上市場節奏。
上述人士指出,從1月底GRPO爆火,2月初英偉達就已經有了社區的復現方案,到3月份verl都已經基本成熟。而昇騰卡直到6月份,grpo還處于“湊合能用”的狀態。如果要跑其他強化學習算法(如DAPO、PPO等),在昇騰卡上還需要繼續等待。
相對來說,GPGPU提供了另一種完全不同的思路——根據NVIDIA GPU公開(解密)的接口制造兼容CUDA (PTX)的硬件,然后做好編譯器,提供cublus、cudnn等未開源的廠商定制庫。上層的軟件完全復用cuda的生態(Megatron-LM、vllm、verl、pytorch、flash-attention等)。
依托這種方案,用戶進行精度對齊和性能對齊變得非常簡便。由于接口完全一致,還可以使用自動化的程序找到精度和性能異常的bug,并進行修復,極大地降低了開發成本。
“昇騰戰略轉向的目的正在于此”,業內分析,華為需要借助GPGPU重新適應AI時代需求趨勢。而CANN向開放者敞開懷抱,更大的可能是為其“換道超車”提供更多燃料。“問題在于,接下來會有多少用戶登上這駕戰車,更換架構引擎后的昇騰又需要陪跑多少里程?”
作者:蒜力一姐
聲明:本文來源于網絡,僅代表作者個人觀點,不代表“技術領導力”立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.