網易首頁 > 網易號 > 正文申請入駐

第一時間,寒武紀原生適配DeepSeek-V4！兩大國產之光再次強強聯合

2026-04-24 13:00:09　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

今天上午，AI 圈心心念念的國產大模型之光 —— DeepSeek-V4 終于上線了！

第一時間，寒武紀基于 vLLM 推理框架完成了對此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 兩個版本的 Day 0 適配，適配代碼已開源到 GitHub 社區

連同去年 DeepSeek-V3.2 的發布，寒武紀連續兩次都是第一時間發布適配的國產芯片。雙方的緊密合作，得益于寒武紀長期積累的自研 NeuWare 軟件生態與芯片設計技術，也是寒武紀對芯片與算法聯合創新持續投入的延續。DeepSeek-V4 原生運行在寒武紀芯片上，這對中國人工智能產業具有里程碑意義。此前寒武紀對 DeepSeek 系列模型開展深入的軟硬件協同性能優化，并達到了業界領先的算力利用率水平。

GitHub 項目地址：https://github.com/Cambricon/vllm-mlu?sessionid=

本次適配從 “快速模型遷移” 與 “極致性能優化”兩個維度，充分展現了寒武紀的核心技術實力。

快速完成 DeepSeek-V4 新模型適配，實現 Day 0 首發

在軟件生態層面，寒武紀 NeuWare 軟件棧全面擁抱開源社區，原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架，新模型可快速遷移至寒武紀平臺；

在國產軟件生態層面，寒武紀與眾智 FlagOS 生態持續深度合作，解耦模型與不同架構芯片之間的生態壁壘，進一步降低模型適配遷移成本；

在算子開發層面，寒武紀充分利用 Triton 良好的社區兼容性和易用性進行快速算子開發適配，進一步縮短功能適配周期；

在 AI 協同層面，寒武紀研發了代碼生成智能體 CNAgent，實現算子生成、模型遷移的全流程加速；

在硬件層面，寒武紀芯片原生支持主流低精度數據格式，無需額外轉換即可快速完成功能適配與精度驗證。通過軟硬件協同，寒武紀在模型發布當日即可實現穩定運行，真正做到 Day 0 適配

極致性能優化，釋放 DeepSeek-V4 推理潛能

針對 DeepSeek-V4 的新結構，寒武紀通過自研高性能融合算子庫 Torch-MLU-Ops，對 Compressor、mHC 等模塊進行專項加速；利用 BangC 高性能編程語言，編寫稀疏 / 壓縮 Attention、GroupGemm 等熱點算子的極致優化 Kernel，充分釋放硬件底層性能。

在推理框架優化層面，寒武紀在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信計算并行、低精度量化以及 PD 分離部署等優化技術，通過策略優化，在滿足延時約束下達到最佳的詞元吞吐能力，顯著提升端到端推理效率。

硬件特性同樣被深度挖掘：利用 MLU 訪存與排序加速能力，有效加速稀疏 Attention、Indexer 等結構；高互聯帶寬與低通信延時，將 Prefill 和 Decode 兩種不同工作負載場景下的通信占比降至最低，最大化分布式推理的利用率。

正是這種軟硬件一體化的設計思路，使得寒武紀能夠在大模型部署中持續降低算力成本，提升性能上限。寒武紀將繼續深耕大模型軟硬件協同生態，為開發者與客戶提供更快、更省、更高效的大模型部署方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.