![]()
還記得年初爆火的龍蝦嗎?這類可執行的智能體,正悄悄爬進產業,在實業場景里爆發。在鯤鵬昇騰開發者大會2026現場,給我一種不談智能體直接落伍的感覺。
![]()
中科大團隊讓Agent擔任機器化學家,自主啃下上萬篇化學文獻,甚至自主設計實驗、優化方案,讓科研不再是試錯苦旅。
企業服務領域,過去分析師團隊耗時半個月的行業研報、競品分析與數據建模工作,如今數十個Agent協同分工,幾天就能搞定。
而智能體的每一次自主決策、每一輪迭代優化,都在驅動Token消耗量攀升。萬億Token時代已經到來,所有行業、所有企業都不得不直面一場AI infra的能力大考:AI基礎設施,我們真的準備好了嗎?
一方面是業務場景的極致復雜度。在推薦、交互等極致低時延場景下,毫秒級的延遲差距能夠直接影響到產品體驗與市場競爭力,超低延遲、超高吞吐的推理需求成為剛需。
而與此同時,多數企業聚焦模型與應用層創新,卻忽視了算力調度、推理優化等底層基建的決定性作用,AI infra的核心價值被低估。
![]()
在全行業機遇和挑戰并存的關鍵期,我在大會現場深度采訪了國產推理引擎xLLM項目負責人劉童璇。從這支扎根國產化賽道的技術團隊身上,看到了AI infra的破局答案,也看到了托舉智能中國的根源力量。
它孤獨地站在那里
顯得寂寞而又倔強
似乎即將傾跌進深谷里
卻又像是要展翅飛翔……
——《懸崖邊的樹》
![]()
xLLM為什么特殊?海量Token的激增需求,疊加居高不下的算力成本、海外算力生態的不確定性,讓算力優化成為AI落地的最關鍵問題。而推理引擎,下接硬件,通過深度優化來提升芯片的模型運行性能,壓縮大模型的推理耗時;上接應用,高效承接萬億Token級的海量請求。
適配國產芯片、高性能的國產推理引擎寥寥無幾。xLLM的出現,填補了行業空白。而這,源于一個懸崖邊的選擇。
時間撥回2024年下半年,xLLM立項之初,海外算力框架占據絕對主流,行業內幾乎沒有人愿意all in國產推理引擎的原生研發。當時,擺在xLLM團隊面前的,是一道終極選擇題:究竟是依附成熟的海外開源框架,簡單適配國產芯片,做淺層增量改造,還是從零起步,原生自研一套純國產推理引擎,走一條充滿未知的絕壁之路。
xLLM團隊做出了堅定的抉擇,從零搭建全國產推理體系,不做混合適配、不依附海外框架,徹底扎根國產算力生態。
劉童璇反復而篤定地強調,如果直接在海外框架上支持國產芯片,會受到很大束縛,因為國產芯片生態與CUDA生態不同,優化手段也不一樣。強行適配會受到已有框架的束縛,永遠無法挖掘國產算力的極致性能。同時,企業做AI必須要有算力壓艙石,唯有原生自研,才能真正為國產算力量身打造最優推理底座,也為企業業務提供可靠可持續的保障。
![]()
從零起步的抉擇,換來的是極致的技術自由,卻也伴隨著難以想象的困境。
技術上的挑戰首當其沖。國產芯片生態碎片化,各類國產芯片架構迥異,沒有統一、通用的編程模型,無法復刻CUDA體系的成熟適配邏輯。同一大模型,需要針對不同芯片架構單獨重寫、深度調優,適配成本極高。更棘手的是,當時國產芯片在FP16、INT8等精度的支持不夠,極易出現各類BUG,優化效果沒人敢打包票。
同時,國內缺乏原生國產高性能推理引擎的通用方案,這支以95后工程師為核心的年輕團隊,成員大多沒有從0到1建立推理引擎的經驗,面對復雜的底層架構設計與全鏈路優化工作,難免缺乏信心。
起步階段,是整個研發周期中最艱難時期。面對懸崖絕境般的困境,團隊放棄廣撒網的適配思路,沒有盲目鋪開試水,集中錨定DeepSeekV3/R1模型,死磕單一模型的國產化推理優化。
于懸崖邊扎根,在逆境中生長,xLLM恰如崖柏,展現出頑強的技術生命力。項目正式開源之前,團隊終于對自建全國產推理引擎這件事有了信心。
![]()
一棵樹,彼此孤離地兀立著……但在泥土的覆蓋下,它們的根伸長著。在看不見的深處,它們把根須糾纏在一起——艾青《樹》
認定全國產這條路能跑通的轉折點,出現在項目開源之前的性能攻堅階段。
在長達數月的全鏈路深耕與芯片聯調后,xLLM的優化能力迎來了質的飛躍,將原本毫秒級的調度間隙壓縮至百微秒以下,讓國產硬件的性能得以極致釋放。
![]()
在此之前,行業普遍感知到,國產芯片的性能與N卡存在天然差距,大約只有海外先進芯片的60%—70%。但xLLM徹底打破了這一認知。在同等模型、同等部署條件下,xLLM賦能昇騰芯片跑出的推理性能,能夠達到H200的80%—90%。
在劉童璇看來,這一性能表現,是國產軟硬件深度協同的系統性勝利。既源于xLLM框架層的架構革新與算法優化,也得益于與國產芯片廠商的緊密合作,優化涵蓋了從上到下的整個鏈路,包括推理引擎框架層的優化和底層計算方法的改進。
比如說,昇騰CANN、Mind系列開源軟件棧,具備完善的算子適配、模型兼容能力,能夠高效匹配xLLM的自研架構,大幅降低原生推理引擎的適配成本與改造難度。
此外,xLLM也得到了昇騰社區的高效響應。雙方建立了常態化深度協同機制,通過每周技術例會同步迭代進度、攻克技術難題,昇騰甚至派團隊常駐亦莊,與xLLM團隊聯合辦公,從方案打磨、技術攻堅到場景落地全流程共建,實現技術迭代無縫銜接。
結果就是,xLLM的原生架構設計與昇騰超節點的技術特性高度契合,形成獨一無二的軟硬協同優勢,基于昇騰在推理性能上獲得更優表現,在分布式推理、高并發吞吐場景下,能實現性能最大化。
![]()
隨后,xLLM逐步完成了其他主流國產芯片的深度適配與優化,以及與DeepSeek、Qwen、GLM等頭部模型廠商的深度協同。
通過推理引擎,零散的國產芯片廠商、技術團隊、模型生態被串聯在一起,根系相連,能力互補,形成產業合力。可以說,xLLM的性能突破之路,也是國產AI生態聚力共生、聚木成林的一個縮影。
與國際頂尖硬件掰手腕的實測成果,給了xLLM團隊極大的信心,國產化自研路線完全可行。一個新的命題隨之而來:一項原生技術,如何真正走出代碼,走進真實產業場景?開源,成了唯一也是最佳的答案。
![]()
2025年8月,xLLM正式在Github開源,開放給全行業共同使用和創新。但上傳源代碼只是開始,真正的挑戰是如何被開發者用起來,吸引更多的人參與到項目中,甚至成為社區貢獻者?
![]()
深耕產業多年的劉童璇,十分清楚技術研發與業務落地之間,存在巨大的gap。比如說,產業生產環境復雜多變、需求碎片化,對框架的穩定性要求極致嚴苛;開發者從早已習慣成熟的CUDA生態向國產CANN生態切換時普遍存在成本顧慮。
這些問題不解決,xLLM在開源社區的競爭力和生命力就無從談起。
下定決心做大生態,xLLM走出了最為關鍵的三步:
第一步,性能,性能,還是性能。
劉童璇認為,推理引擎的性能是芯片廠商、模型廠商與行業客戶都最在意的指標,也是推理引擎最剛性的競爭力所在。以國產芯片廠商為例,都以客戶需求為導向,需要適配各家企業的私有框架,多數框架無法釋放國產芯片極致算力,導致國產硬件空有硬件底座,卻難以跑出匹配產業需求的推理效率。
xLLM始終將性能優化作為核心底色,持續壓縮推理時延、拉高吞吐上限,堅定沖刺1毫秒以下超低推理耗時目標,在生成式推薦、大模型對話、多模態生成、工業智能巡檢等剛需場景中,實現數十倍的性能提升。團隊主動聯動頭部模型廠商,首發適配GLM4.6V、GLM4.7等主流國產模型,讓各類國產大模型都能在國產芯片上釋放最優性能。
第二步,得到來自真實業務驗證的能力背書。
開源技術的最大短板,在于缺少大規模線上生產環境的打磨。純實驗室、純社區驅動的框架,一旦落地到復雜集群、低容錯的產業場景中,可能出現各類問題,這也是產業用戶不敢直接使用開源版本的顧慮。
xLLM與生俱來的優勢,就是誕生于產業,依托海量真實業務場景完成全鏈路打磨。相較于傳統推薦模型,新一代大模型結構的生成式推薦模型泛化能力更強,能夠顯著提升商品推薦精準度與用戶購買轉化率。但大模型的超大參數,也導致推理耗時激增,并發承載困難,嚴重制約產業落地。xLLM將超大模型的推理時延極致壓縮,拉升電商轉化率的同時,機器硬件成本降低90%。
與此同時,這套方案已經成為眾多運營商、大型央國企、互聯網企業的選擇。
第三步,依托昇騰生態,打通技術落地的推廣gap。
xLLM立項之初便原生適配昇騰CANN體系,消解了生態遷移成本,徹底解決了行業最頭疼的兼容適配難題,大幅降低全產業落地門檻,迅速融入國產算力核心生態體系,雙方合力打造標準化行業解決方案。昇騰成熟的產業渠道、客戶體系、生態伙伴資源,為xLLM提供了廣闊的落地場景。如今,xLLM已廣泛落地電力、能源、政務、交通等關鍵領域。
![]()
當昇騰依托開源的xLLM框架,將大模型推理能力封裝進智能一體機,成功部署至邊遠地區電站并落地電力智能巡檢場景時,劉童璇深刻感受到了代碼守護國計民生的力量。
xLLM從一株懸崖邊的崖柏,乘開源之風,聚開發者之力,成長成一片產學研用共同參與的森林。xLLM的成長過程,也是填平技術與產業斷層、加速國產AI生態起飛的過程,中國的AI產業已為迎接智能體與萬億Token時代的全面爆發做好了準備。
![]()
xLLM推理引擎,推動國產模型與國產芯片的適配,讓行業AI應用牢牢扎根在自主創新的算力底座之上,為智能體時代的到來筑實了根基。
如今,多模態普及、智能體自主協同、億級超長上下文場景落地,正在倒逼整個推理體系重構。劉童璇認為,國產推理引擎必須解決幾個新的難題,一是延遲。智能體連續決策、實時交互、生成式推薦等場景,1毫秒以下甚至百微秒級超低延遲成為產業標配,對推理時延提出極致要求。二是全模態。AI應用從單一文本生成,走向圖文、音視頻、三維內容融合的全模態時代,推理框架必須支持全模態的輸入輸出能力。三是億級上下文。行業向億級超長上下文演進,對推理系統形成全新考驗。
萬億Token帶來了行業的結構性機遇,而抓住機遇的前提,是應對好技術趨勢對推理架構的挑戰。生態共建,成為中國AI破解所有難題的關鍵。
![]()
國產算力、模型與AI人才,是驅動國內產業智能化必不可少的三駕馬車。生態能夠匯聚不同芯片廠商、模型團隊、行業開發者共同參與,持續縮小與海外AI軟硬件的差距。此外,單一團隊、單一企業無法承接時代級的產業變革,國產AI人才是千行百業應用創新的源頭。
因此,xLLM一方面深度聯動清華、北大、北航、中科大、北郵、天大等十余所頂尖高校,聯動數十位高校導師、近五十名實習生共建研發。同時,聯合昇騰生態,打造社區+高校+產業三位一體的人才培育體系,在華為ICT大賽等官方賽事,拋出“百微秒級推理耗時優化”等產業命題,鼓勵青年開發者在實戰中錘煉能力,挖掘具備產業潛力的創新人才。后續,xLLM社區將持續加大開放力度,降低參與門檻,通過任務拆解、規劃公開、輕量化入局的模式,讓學生開發者、中小企業研發團隊,即使沒有龐大算力與人力資源,也能參與到國產AI技術的發展中來。
曾經空白的國產推理引擎,已根深葉茂;曾經貧瘠的國產算力,已厚植沃土;曾經各自為戰的國產AI生態,也有了根系交織、生機盎然的景象。當我們站在智能體AI時代的大門之前,終于有了底氣。
![]()
每一個開發者,都是中國AI產業的種子,扎根在各自的領域與崗位,讓國產軟硬件生根發芽。當無數應用之花在行業綻放,時間將會銘記,這是所有中國開發者用一行行代碼寫就的,不屈的春天。
那就用《種子的夢》來結尾吧:
為了沖破那土層的壓力,
我一點一滴地積攢著力氣。
我思念那明媚的陽光,
我思念那遼闊的大地……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.