![]()
編輯|杜偉
很多科學突破,最開始都來自一個樸素的問題:人類終于算得動了。天文學需要計算行星軌道,生物醫藥需要計算分子相互作用,現代 AI 需要在海量參數、數據和反饋中尋找更優解……
科學發現和工業生產看起來相隔很遠,但背后都離不開同一件事:把復雜世界轉化為可以被計算、搜索和驗證的問題。從這個角度來看,人類科學和工業的發展史,也是一部計算效率不斷躍遷的歷史。
人類不斷發明工具來加速計算,從手算、算盤、機械計算器,到通用計算機和芯片,逐漸從手動人腦轉移到自動化工具。后來,計算加速又進入硬件架構躍遷階段:從 CPU 到 GPU,從單機到集群,從串行到并行,承接規模化的計算任務。
到了今天,新的瓶頸出現了。以大模型、智能體、具身智能、科學計算為代表的行業場景,把計算需求推向新的數量級。但硬件制程、功耗和成本約束越來越明顯,單純靠硬件擴張很難持續換來線性的效率提升。計算加速需要進入新的階段:用 AI 來自動優化計算本身
在這樣的背景下,智子芯元所處的 AI for Computing(人工智能驅動的計算)賽道變得尤為重要。
這家成立于 2025 年 8 月的初創公司通過「大模型 + 運籌優化 + 算法自動發現」的技術范式,打造能夠全面掌控復雜計算系統的智能體,將橫跨軟硬件各層級的復雜度從人類工程師手中全面接管,讓計算芯片參數表上的理論峰值轉化為使用場景中真實有效的實際算力。
在單點提速之外,AI for Computing 更深層的價值在于計算能力的躍遷將重構底層生產力,更多過去卡在計算環節的高價值產業開始具備規模化落地的可能。
就在今日,智子芯元正式官宣完成數千萬元天使 + 輪融資。而在不到兩個月之前,這家公司才拿到了數千萬元天使輪融資,兩輪累計融資近億。
新一輪融資由鼎峰科創(武岳峰創投)、英諾科創基金、首程資本領投,老股東同創偉業等機構超額追投。
AI for Computing,為加速計算而生
AI for Computing 的出現,是計算系統復雜度上升之后的必然結果。
過去行業談算力,更關心芯片參數、集群規模和理論峰值。但在真正進入生產環境之后,問題變得更具體:同樣一批芯片,跑不同的模型、框架與業務負載,實際表現可能完全不同。
這種變化首先來自軟硬件體系的高速更迭。芯片架構、編譯器、推理框架與通信網絡等都在變化,任何一側更新,都會帶來新的適配和調優問題。
其次,高水平性能優化人才稀缺。真正能同時理解算法、系統、硬件并把優化結果交付到生產環境的人不多。過去,這類工作主要依賴少數專家的反復排查、調參和驗證。但隨著系統層級越來越多,靠人工經驗逐層優化接近效率上限。
更重要的是,計算任務本身正在變復雜。AI 應用從對話式交互走向智能體執行,模型推理也隨之從單次問答延伸到長鏈路任務。持續規劃、工具調用、文件讀寫和多輪執行,都會讓計算負載變得更加動態、碎片化,也更取決于端到端系統效率。
理論上,最優的算力交付方案,應該根據具體計算資源和目標場景來特化設計。但現實中,工程師很難為每一個模型、每一套硬件、每一種業務負載都重新做一遍深度優化。優化空間太大,人工試錯成本太高。
因此,AI for Computing 要解決的核心問題,就是讓 AI 接管更多計算優化與系統統籌環節,加快整體計算流程。
智子芯元正是沿著這個方向展開,用 AI 釋放每一塊芯片中的有效算力,將過去依賴少數專家經驗的性能優化沉淀成可自動化搜索與發現、可硬件驗證、可規模交付的端到端工具鏈。打造 AI 時代的計算加速基礎設施,成為它的核心使命
而在國產算力生態中,AI for Computing 又有更具體的產業緊迫性。
國產 AI 芯片路線更加多元,不同廠商有不同的硬件架構、軟件棧和開發工具。另外,國內客戶的需求分散,模型廠商優先關心在 CUDA 上的性能效果, 云廠商和 AIDC(人工智能數據中心)關心集群利用率,政企私有化客戶更看重穩定交付和本地化部署。
這也解釋了為什么這件事很難完全由芯片廠商獨立完成。它們最理解自己的芯片,也會優化底層軟件和開發工具,但其工作重心在于「筑底而非建樓」,受限于精力,不可能包攬上層應用適配。在真實場景里,芯片要面對大量具體而分散的適配瓶頸,靠單一廠商的通用工具包無法面面俱到。
在這種情況下,智子芯元承擔起了國產算力精裝修商的角色,幫助芯片廠商、大模型廠商、云廠商、AIDC 和政企私有化客戶,把「卡能用」這件事做扎實。
AI + 運籌,讓計算系統自己找到最優解
讓卡能用、打造計算時代的核心基礎設施,智子芯元的這兩大愿景,正在通過其獨有的技術路線來實現
按照這一路線,它構建起了一個能夠掌控計算系統的智能體:先理解計算任務和硬件約束,再自動發現可能的算法和實現路徑,最后通過真實硬件反饋不斷驗證、篩選和迭代,實現自動化推進的計算加速過程。
這套技術路線具體可以拆成三步來看:
一是看清計算任務
一個計算任務進入系統后,首先要被拆解成可分析、可優化、可評測的對象,比如時延、吞吐量、功耗。在真實計算系統中,性能瓶頸可能藏在很多地方:內存訪問不夠高效、并行調度沒有展開,或者是算子實現、編譯路徑、推理框架與硬件適配出了問題。因此,第一步是讓 AI 透徹理解計算任務與系統本身,否則后面的性能優化很容易變成盲試。
二是自動搜索與算法發現
計算加速的難點在于,優化空間極其龐大。同一個計算任務往往有大量可能的實現方式,靠工程師經驗逐一嘗試,不僅效率低,也很難覆蓋真實業務復雜多變的場景。這就來到了第二步:在一個巨大的實現空間里自動搜索合適的計算路徑,甚至發現過去沒有的新實現方式。
一方面,AI 提供通用理解和生成能力,包括理解任務、生成候選方案、補齊不同場景下的實現思路。
另一方面,運籌優化提供的則是在復雜約束條件下進行數學建模和優化搜索的能力。我們可以將它理解為工廠排產:每道工序要用哪臺設備、什么時候開始、前后順序怎么安排,資源沖突如何避免,都要考慮進來。放到計算系統里,這樣的排產管理對應的就是算子、計算路徑、編譯策略和硬件資源之間的協同關系。
這樣一來,系統可以在多重約束下尋找更接近性能上限的實現路徑,并能夠自動發現新的算法結構、計算路徑或實現方式。
三是硬件驗證
計算加速不能只在靜態分析或模擬環境里進行。一個算法是否真有效,還是要回到真實芯片、真實框架和真實業務負載中驗證。作為智子芯元技術路線中的重要組成:硬件的反饋,讓優化過程完成了從經驗工程走向自動化工程的關鍵一環。
從需求到交付,計算加速跑成自動閉環
遵循上文的技術范式,智子芯元打造的計算時代的核心基礎設施,落在了其核心產品「KernelCAT 自動化計算加速平臺」上
作為面向計算加速任務的智能體,KernelCAT 的核心能力是把用戶的自然語言需求轉化為可執行、驗證與交付的優化流程。
當模型、算子、計算圖、業務負載、目標硬件和性能目標接入后,它會先分析計算依賴、資源約束、硬件特征和潛在優化空間,再結合 AI 生成、運籌優化、強化學習和硬件反饋,搜索候選方案,最后在真實硬件上驗證結果。
這套流程可以概括為四步:「分析 — 編碼 — 上板調優 — 交付」,將計算加速中的復雜環節串成一個自動閉環
更重要的是,KernelCAT 面向的是一整類計算加速任務。過去,一次模型遷移或硬件適配可能需要工程師反復查文檔、寫代碼、編譯、跑測試、看 profiling、 調參,并且每換一個模型、框架或硬件,很多工作又得重新來一遍。它解決的正是這些重復、細碎但影響交付效率的工作:讓系統自動接管底層復雜流程,快速完成 POC、跑通框架適配,并根據真實業務負載優化。
KernelCAT 家族中的 Kerminal 已經展現出了強大的自動計算加速能力,它是一套智能體系統,把模型能力、工具調用、代碼執行、硬件反饋和任務流程組織在一起。
并且,Kerminal 沒有針對單一榜單進行專項適配,憑借更底層的通用能力和深度優化能力,它能夠在多個主流 benchmark 中取得領先表現。
其中在評估 AI 加速 GPU 內核優化的基準 KernelBench 中,Kerminal 取得了 SOTA 成績,正確率、平均加速比與幾何平均加速比三項核心指標均位居榜首。此外在 CANN-Bench 中體現得更明顯,Kerminal 在總計 53 個任務中的 50 個完成 profiling,35 個完全通過,41 個通過率超過 95%,僅有 1 個任務報錯。
更進一步看,Kerminal 展現出的能力并不只是工程排列組合。在測試任務中,如果目標硬件上的常規實現方式在大值域和特殊值場景(如 NaN)下精度不達標,它可以在沒有人工提示的情況下,自主放棄原有實現,改用多項式逼近重新實現目標,并通過反復測試和迭代讓精度達標。這一點很關鍵,它說明Kerminal 有能力用數學思維自主探索新的實現路徑
這種能力經受住了不同芯片平臺的考驗,它生成和優化的 tile 算子已合并至昇騰官方 CANN 算子庫 ops-math。reshape_and_cache_kernel_flash 算子從 vLLM CUDA 版本遷移到昇騰后,性能也從 14us 優化到 2.58us,提升 5.4 倍。
計算加速能力也在具體產業場景大顯身手。比如在具身智能和機器人等端側場景,RDK S100 開發板部署 DeepSeek R1 1.5B,端到端 2 小時閉環完成,吞吐性能較倉庫基線提升 1.5 倍;在 AI for Science 場景,TorchFold 長序列昇騰部署實現峰值內存降低 70%、速度提升 50%;DSDP 分子盲對接模型完成 CUDA 生態向鯤鵬平臺的遷移適配后,推理性能提升 138 倍。
這些成功的案例表明,KernelCAT 已經將行之有效的自動化計算加速方案沉淀為一套可復用、可跨平臺遷移的產品能力。
并且隨著 AI 深度介入加速過程,計算系統里原本按清晰層級優化的方式不夠用了。未來稀缺的,是穿透不同層級、在繁雜業務中找準最優實現路徑的能力。KernelCAT 的出現讓計算加速從單點調優走向了系統級優化。
從科學研究到工業生產,我們將見證高價值產業被計算能力重新定義。很多過去難以推進的事情,并不是理論上不可能,究其原因是計算跟不上。
諸如蛋白結構預測、新藥篩選、工業仿真、機器人策略迭代,它們很大程度上依賴對復雜世界進行建模、搜索、驗證和優化。計算能力大幅提升之后,產業變化不只體現在效率層面。
一方面,這些高價值場景將可被計算,轉化為數學建模、算法搜索和系統優化問題;另一方面,計算變得更快、更便宜、更穩定,使這些能力能夠真正進入業務流程。
智子芯元所處賽道的長期價值,也正在這里。
這些既是提升有效算力所面臨的系統性門檻,也是智子芯元試圖打開的空間。對于一家成立不到一年的初創公司來說,需要具備跨理論、算法、系統和硬件的前瞻判斷。
智子芯元恰恰擁有了這樣的復合背景,它更像是一支帶有 Neo Lab 氣質的研究型創業團隊,圍繞著 AI for Computing,將 AI、運籌優化、高性能計算、智能體和系統工程放到同一套技術體系中推進。這種技術底色不是憑空而來,團隊具備從模型訓練、模型能力提升、運籌優化到 Agentic 系統的全棧技術積累,并依托深圳市大數據研究院與河套學院的孵化支持,同時聘請羅智泉院士擔任學術指導。
與此同時,從算力供給側的芯片廠商、云廠商、AIDC,到模型與應用供給側的模型廠商,再到終端需求側的政企私有化客戶,分布在產業鏈不同環節的各方都有為 AI for Computing 買單的理由:將紙面上的算力轉化為可交付的有效算力。
此次的天使 + 輪融資,不只代表資本市場對一家新公司的關注,它們更看重的是:AI for Computing 帶來的持續算力提升將成為釋放新的科學、工業和智能化生產力的變量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.