![]()
機器之心發布
今天上午,AI 圈心心念念的國產大模型之光 —— DeepSeek-V4 終于上線了!
第一時間,寒武紀基于 vLLM 推理框架完成了對此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 兩個版本的 Day 0 適配,適配代碼已開源到 GitHub 社區
![]()
連同去年 DeepSeek-V3.2 的發布,寒武紀連續兩次都是第一時間發布適配的國產芯片。雙方的緊密合作,得益于寒武紀長期積累的自研 NeuWare 軟件生態與芯片設計技術,也是寒武紀對芯片與算法聯合創新持續投入的延續。DeepSeek-V4 原生運行在寒武紀芯片上,這對中國人工智能產業具有里程碑意義。此前寒武紀對 DeepSeek 系列模型開展深入的軟硬件協同性能優化,并達到了業界領先的算力利用率水平。
![]()
GitHub 項目地址:https://github.com/Cambricon/vllm-mlu?sessionid=
本次適配從 “快速模型遷移” 與 “極致性能優化”兩個維度,充分展現了寒武紀的核心技術實力。
快速完成 DeepSeek-V4 新模型適配,實現 Day 0 首發
在軟件生態層面,寒武紀 NeuWare 軟件棧全面擁抱開源社區,原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架,新模型可快速遷移至寒武紀平臺;
在國產軟件生態層面,寒武紀與眾智 FlagOS 生態持續深度合作,解耦模型與不同架構芯片之間的生態壁壘,進一步降低模型適配遷移成本;
在算子開發層面,寒武紀充分利用 Triton 良好的社區兼容性和易用性進行快速算子開發適配,進一步縮短功能適配周期;
在 AI 協同層面,寒武紀研發了代碼生成智能體 CNAgent,實現算子生成、模型遷移的全流程加速;
在硬件層面,寒武紀芯片原生支持主流低精度數據格式,無需額外轉換即可快速完成功能適配與精度驗證。通過軟硬件協同,寒武紀在模型發布當日即可實現穩定運行,真正做到 Day 0 適配
極致性能優化,釋放 DeepSeek-V4 推理潛能
針對 DeepSeek-V4 的新結構,寒武紀通過自研高性能融合算子庫 Torch-MLU-Ops,對 Compressor、mHC 等模塊進行專項加速;利用 BangC 高性能編程語言,編寫稀疏 / 壓縮 Attention、GroupGemm 等熱點算子的極致優化 Kernel,充分釋放硬件底層性能。
在推理框架優化層面,寒武紀在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信計算并行、低精度量化以及 PD 分離部署等優化技術,通過策略優化,在滿足延時約束下達到最佳的詞元吞吐能力,顯著提升端到端推理效率。
硬件特性同樣被深度挖掘:利用 MLU 訪存與排序加速能力,有效加速稀疏 Attention、Indexer 等結構;高互聯帶寬與低通信延時,將 Prefill 和 Decode 兩種不同工作負載場景下的通信占比降至最低,最大化分布式推理的利用率。
正是這種軟硬件一體化的設計思路,使得寒武紀能夠在大模型部署中持續降低算力成本,提升性能上限。寒武紀將繼續深耕大模型軟硬件協同生態,為開發者與客戶提供更快、更省、更高效的大模型部署方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.