網易首頁 > 網易號 > 正文 申請入駐

KernelCAT 發布,Agent 自動化實現國產芯片適配與計算加速

0
分享至

國產算力基建進入下半場,重心正從芯片的「數量增長」轉向「效率提升」。國產芯片數量持續增長,但生態建設依舊落后,這正是當下 AI 落地最真實的一幕。

模型不斷刷新參數,底層卻在艱難轉場。

比起輪番刷新的參數規模記錄,更難轉變的是開發者所使用的那套固化的流程。算力只是門檻,而真正的較量在于算法與硬件的協同效率。



KernelCAT:計算加速專家級別的 Agent

幾乎每個人都能感受到 AI 領域的加速感,模型密集發布,應用數據持續走高。但在真實的工程現場,感受卻更復雜:真正制約落地效率的不是模型能力本身,而是底層軟件生態的成熟度。

硬件選擇變多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩定。很多模型即便具備條件切換算力平臺,最終也會被算子支持和工具鏈完整度擋在門外。

這讓一個事實變得越來越清晰。突破口不是堆更多算力,而是打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉化為可用性能。

其中最關鍵的一環正是高性能算子的開發。

算子(Kernel)的作用是連接 AI 算法與計算芯片,它將算法轉化為硬件可執行的指令,決定了 AI 模型的推理速度、能耗與兼容性。

算子開發屬于內核級的編程工程,但行業現狀卻仍高度依賴個人經驗。它極度依賴頂尖專家的直覺與肌肉記憶,性能調優往往像是在迷霧里盲測,周期漫長。

但如果,讓 AI 來開發算子呢?

傳統大模型或知識增強型 Agent 在此類任務面前往往力不從心。因為它們擅長模式匹配,卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。唯有超越經驗式推理,深入建模問題本質,才能實現真正的「智能級」優化。

正是在這種嚴峻的技術挑戰下,KernelCAT 應運而生。


KernelCAT 終端版 Agent

KernelCAT 是一款本地運行的 AI Agent。它不僅是深耕算子開發和模型遷移的「計算加速專家」,也能夠勝任日常通用的全棧開發任務,提供了 CLI 終端命令行版與簡潔桌面版兩種形態供開發者使用。

不同于僅聚焦特定任務的工具型 Agent,KernelCAT 具備扎實的通用編程能力。

它不僅能理解、生成和優化內核級別代碼,也能處理常規軟件工程任務,如環境配置、依賴管理、錯誤診斷與腳本編寫,從而在復雜場景中實現端到端自主閉環。


KernelCAT 桌面版 Agent


為國產芯片生態寫高性能算子

在算子開發中,有一類問題很像「調參」。面對幾十上百種參數或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統做法靠經驗試錯費時費力且容易踩坑。KernelCAT 的思路是:引入運籌優化,把「找最優參數」這件事交給算法,讓算法去探索調優空間并收斂到最佳方案。

以昇騰芯片上的 FlashAttentionScore 算子為例,KernelCAT 可以依據昇騰官方的示例代碼自動對該算子的分塊參數調優問題進行運籌學建模,并使用數學優化算法求解。十幾輪迭代后就能鎖定最優配置,在多種輸入尺寸下延遲降低最高可達 22%,吞吐量提升最高近 30%,整個過程無需人工干預。

這正是 KernelCAT 的獨特之處。它不僅具備大模型的智能,能夠理解代碼、生成方案,還擁有運籌優化算法的嚴謹,能夠系統搜索并收斂到最優解。

智能與算法的結合讓算子調優既靈活,又有交付保障。

在對 KernelCAT 的另一場測試中,該團隊選取了 7 個不同規模的向量加法任務,測試目標明確,即在華為昇騰平臺上,直接對比華為開源算子、「黑盒」封裝的商業化算子與 KernelCAT 自研算子實現的執行效率。

結果同樣令人振奮。在這個案例的 7 個測試規模中,KernelCAT 給出的算子版本性能均取得領先優勢,且任務完成僅用時 10 分鐘。這意味著,即便面對經過商業級調優的閉源實現,KernelCAT 所采用的優化方式仍具備一定競爭力。

這不僅是數值層面的勝利,更是國產 AI Agent 在算子領域完成的一次自證。



沒有堅不可破的生態,包括 CUDA

全球范圍內,目前超過 90% 的重要 AI 訓練任務運行于英偉達 GPU 之上,推理占比亦達 80% 以上;其開發者生態覆蓋超 590 萬用戶,算子庫規模逾 400 個,深度嵌入 90% 頂級 AI 學術論文的實現流程。

黃仁勛曾言:「我們創立英偉達,是為了加速軟件,芯片設計反而是次要的。」

在現代計算體系中,軟件才是真正的護城河。英偉達的持續領先,源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。

參考 AMD 的歷史經驗,即使在架構與制程上具備充足的競爭力,缺乏成熟的生態系統也仍然難以撼動英偉達的地位。

這類案例清晰地表明,模型性能并不簡單等價于算力規模的堆疊,而是取決于算法設計、算子實現與硬件特性的協同程度。當算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT 團隊圍繞模型在本土算力平臺上的高效遷移,進行了系統性的工程探索。以 DeepSeek-OCR-2 模型在華為昇騰 910B2 NPU 上的部署為例,KernelCAT 展示了一種全新的工作范式:

  • 對抗「版本地獄」:KernelCAT 對任務目標和限制條件有著深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 實現,通過精準的依賴識別和補丁注入,解決了 vLLM、torch 和 torch_npu 的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩定的生產環境,結合基礎 Docker 鏡像即可實現模型的開箱即用。


  • 準確修補:它敏銳地識別出原版 vLLM 的 MOE 層依賴 CUDA 專有的操作,和 vllm-ascend 提供的 Ascend 原生 MOE 實現,并果斷通過插件包進行調用替換,讓模型在國產芯片上「說上了母語」。

  • 實現 35 倍加速:在引入 vllm-ascend 原生 MOE 實現補丁后,vLLM 在高并發下的吞吐量飆升至 550.45toks/s,相比 Transformers 方案實現了 35 倍加速,且在繼續優化中。

  • 無需人工大量介入:在這種復雜任務目標下,KernelCAT 可以自己規劃和完成任務,無需研發提供大量提示詞指導模型工作。


有了 KernelCAT,原本需要頂尖工程師團隊花費數周才能完成進行的適配工作,現在可以縮短至小時級(包含模型下載、環境構建的時間)。

與此同時,它讓國產芯片實現了 35 倍的加速。也就是說,KernelCAT 讓國產芯片可以通過深度工程優化,承載頂級多模態模型推理任務的性能引擎。

KernelCAT 所代表的不只是一個 AI Agent 新范式的出現,更是一種底層能力建設方式的轉向:從依賴既有生態,到構建能夠自我演進的計算基礎。

KernelCAT 正限時免費內測中,歡迎體驗。

點擊原文鏈接即可跳轉產品主頁。




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
孫楊與張豆豆因為行李箱打膜產生爭執,孫楊:“別每句話都懟我”

孫楊與張豆豆因為行李箱打膜產生爭執,孫楊:“別每句話都懟我”

韓小娛
2026-04-24 11:20:50
退休人員注意!人社部28號文明確:這類工齡必須算,少一年都不行

退休人員注意!人社部28號文明確:這類工齡必須算,少一年都不行

笑熬漿糊111
2026-04-25 00:05:16
Coco又曝猛料!謝賢冬天解衣讓她取暖,把女兒珠寶讓她戴,太會了

Coco又曝猛料!謝賢冬天解衣讓她取暖,把女兒珠寶讓她戴,太會了

橙星文娛
2026-04-24 12:12:33
中組部人社部規定:公職人員違紀后待遇一文講清

中組部人社部規定:公職人員違紀后待遇一文講清

笑熬漿糊111
2026-04-23 00:05:18
別著急買車!燃油車價格全面崩塌,今年行情太反常

別著急買車!燃油車價格全面崩塌,今年行情太反常

生活魔術專家
2026-04-25 02:42:53
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

童叔不飆車
2026-04-23 22:38:35
河南一企業將絲瓜絡做成燈具遠銷海外,單盞售價300到600美金

河南一企業將絲瓜絡做成燈具遠銷海外,單盞售價300到600美金

大象新聞
2026-04-24 21:49:03
瓜迪奧拉要走人了?曼城鎖定接班人,英超格局要大變

瓜迪奧拉要走人了?曼城鎖定接班人,英超格局要大變

瀾歸序
2026-04-25 06:00:48
國務院免去二人職務!此前任上被查

國務院免去二人職務!此前任上被查

上觀新聞
2026-04-24 15:51:06
詹姆斯吼他“滾蛋”,他卻送老詹紅酒寫長文感恩,兩件震驚籃球圈

詹姆斯吼他“滾蛋”,他卻送老詹紅酒寫長文感恩,兩件震驚籃球圈

翰飛觀事
2026-04-23 22:17:28
寧募遠童,不恤近子!

寧募遠童,不恤近子!

胖胖說他不胖
2026-04-22 11:50:12
中美聯合國激烈交鋒,美逼中國買單,中方拒絕接受,對美反將一軍

中美聯合國激烈交鋒,美逼中國買單,中方拒絕接受,對美反將一軍

南宗歷史
2026-04-23 15:52:11
為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

娛樂小丸子
2026-03-30 09:53:37
顏值是差些,可優點也大呀

顏值是差些,可優點也大呀

飛娛日記
2026-04-24 08:27:29
原來他們是夫妻,彼此初戀結婚20年零緋聞,如今一起出演《金關》

原來他們是夫妻,彼此初戀結婚20年零緋聞,如今一起出演《金關》

凡知
2026-04-24 14:48:58
又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

我愛英超
2026-04-24 22:13:09
人類滅絕大局已定?科學家算出人類滅絕日期,我們能僥幸存活嗎?

人類滅絕大局已定?科學家算出人類滅絕日期,我們能僥幸存活嗎?

深度解析熱點
2026-04-23 00:32:44
“生娃率”持續走低,廈門教授給出建議:不生孩子就下調養老金

“生娃率”持續走低,廈門教授給出建議:不生孩子就下調養老金

大果小果媽媽
2026-04-02 13:16:39
就在剛剛,臺當局發了個聲明,可把大家逗樂了。

就在剛剛,臺當局發了個聲明,可把大家逗樂了。

果媽聊娛樂
2026-04-24 14:43:55
2026-04-25 06:36:49
真格基金 incentive-icons
真格基金
創業,來真格的。
1543文章數 3663關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

健康
親子
家居
手機
公開課

干細胞如何讓燒燙傷皮膚"再生"?

親子要聞

小獅子也只是個大寶寶呀,看到小朋友的車車滿眼羨慕

家居要聞

自然肌理 溫潤美學

手機要聞

續航大戰!紅米、vivo、榮耀手機,電池都往一萬毫安時以上堆

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版