公眾號記得加星標??,第一時間看推送不會錯過。
研究發現,人工智能(AI)基礎設施競爭的最終結果取決于支撐它的軟件生態系統,而非半導體性能。分析表明,英偉達的統治地位除了其卓越的圖形處理器(GPU)硬件外,還得益于其近20年來積累的以CUDA為中心的軟件棧所構建的結構性準入壁壘。
根據軟件政策研究所(SPRi)11日發布的報告《軟件在人工智能基礎設施競爭中的結構性作用》,預計今年全球人工智能支出將達到2.5萬億美元。其中超過一半預計將集中在服務器、加速器和數據中心等基礎設施上。尤其值得一提的是,英偉達在數據中心GPU市場保持著絕對領先地位,占據了約86%的市場份額。
報告指出,這種優勢不能僅僅用芯片性能來解釋。這是因為即使使用相同的H100 GPU,實際吞吐量也會因編譯器、加速庫和驅動程序的優化程度不同而相差三倍以上。這意味著人工智能基礎設施的根本競爭力取決于“芯片上計算的執行效率”。
研究團隊將人工智能基礎設施分為五層:開發框架、編譯器、加速庫、驅動程序/運行時和硬件。他們分析發現,所有層都形成了一種鎖定結構,針對特定硬件進行了優化,從開發人員用于設計人工智能模型的 PyTorch 或 JAX 等開發工具,到基于 XLA、TVM 和 TensorRT 的編譯器(將這些模型轉換為適用于各種半導體的可執行代碼),再到提升計算速度的 cuDNN 和 cuBLAS 等加速軟件,最后到最底層的驅動程序 。
該報告特別提出了三種機制:“性能依賴性”,即優化不對稱導致最終收斂于特定芯片;“設計依賴性”,即軟件選擇決定硬件路徑;以及“結構依賴性”,即封閉的驅動架構阻礙了物理替換。報告指出,由于針對其他芯片重寫和驗證已針對特定庫和 CUDA 路徑優化的大規模 AI 模型代碼需要耗費大量人力和時間,因此硬件替換本身就相當于系統重建。此外,報告還解釋說,隨著這三個因素的疊加,切換成本呈指數級增長。
主要國家的戰略也呈現出明顯的差異。在美國,英偉達 通過“CUDA”生態系統同時建立了性能和結構上的依賴關系,而谷歌則通過垂直整合TPU(張量處理單元,其專為大規模人工智能訓練而設計的半導體)、XLA和ZAX,建立了一條獨立的架構依賴路徑。 中國的華為也被認為通過整合其人工智能芯片“Ascend”、專用軟件平臺“CANN”和人工智能開發框架“MindSpore”的系統,構建了類似的國內生態系統。
國內神經網絡處理單元(NPU)產業面臨著機遇與挑戰。報告指出,盡管韓國NPU生態系統已通過原生PyTorch支持和與虛擬大型語言模型(vLLM)的集成成功打入框架市場,但編譯器和庫層的性能差距以及缺乏可操作的參考資料,仍然是市場擴張的障礙。國內人工智能半導體企業也在努力降低對CUDA的依賴,集中精力開發專用編譯器并優化大型語言模型(vLLM)推理軟件。
業界認為,只有在總體擁有成本 (TCO) 方面展現出對英偉達的競爭優勢,而不僅僅是芯片價格競爭力,云服務提供商和大型企業才能真正采用我們的產品。TCO 涵蓋了能效、軟件維護和開發人員再培訓成本。該報告還將引入基于 TCO 的評估體系列為一項關鍵的政策任務。
因此,研究團隊建議政策范式應從以芯片設計為中心的扶持轉向扶持全棧軟件,包括編譯器、運行時環境和軟件開發工具包(SDK)。尤其值得一提的是,應擴大參與OpenXLA和MLIR等全球開源標準項目的規模,以降低對CUDA的依賴,并建立基于公共人工智能數據中心的示范環境,這些都是亟待完成的任務。分析總結指出,隨著不依賴于特定加速器廠商的多廠商標準生態系統(例如UXL基金會)的普及,國內企業必須積極參與全球軟件標準競爭。
報告指出,“K-NPU 普及的瓶頸在于軟件優化和運營生態系統的規模,而不是芯片本身”,并補充道,“我們必須通過利用公共人工智能數據中心進行大規模演示以及參與全球開源標準,來打破性能差距和缺乏參考的惡性循環。”
(來源:編譯自zdnet)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4374內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.