網易首頁 > 網易號 > 正文申請入駐

萬億Token時代，國產AI Infra準備好了嗎？

2026-05-28 16:38:18　來源: 腦極體

天津舉報

分享至

還記得年初爆火的龍蝦嗎？這類可執行的智能體，正悄悄爬進產業，在實業場景里爆發。在鯤鵬昇騰開發者大會2026現場，給我一種不談智能體直接落伍的感覺。

中科大團隊讓Agent擔任機器化學家，自主啃下上萬篇化學文獻，甚至自主設計實驗、優化方案，讓科研不再是試錯苦旅。

企業服務領域，過去分析師團隊耗時半個月的行業研報、競品分析與數據建模工作，如今數十個Agent協同分工，幾天就能搞定。

而智能體的每一次自主決策、每一輪迭代優化，都在驅動Token消耗量攀升。萬億Token時代已經到來，所有行業、所有企業都不得不直面一場AI infra的能力大考：AI基礎設施，我們真的準備好了嗎？

一方面是業務場景的極致復雜度。在推薦、交互等極致低時延場景下，毫秒級的延遲差距能夠直接影響到產品體驗與市場競爭力，超低延遲、超高吞吐的推理需求成為剛需。

而與此同時，多數企業聚焦模型與應用層創新，卻忽視了算力調度、推理優化等底層基建的決定性作用，AI infra的核心價值被低估。

在全行業機遇和挑戰并存的關鍵期，我在大會現場深度采訪了國產推理引擎xLLM項目負責人劉童璇。從這支扎根國產化賽道的技術團隊身上，看到了AI infra的破局答案，也看到了托舉智能中國的根源力量。

它孤獨地站在那里

顯得寂寞而又倔強

似乎即將傾跌進深谷里

卻又像是要展翅飛翔……

——《懸崖邊的樹》

xLLM為什么特殊？海量Token的激增需求，疊加居高不下的算力成本、海外算力生態的不確定性，讓算力優化成為AI落地的最關鍵問題。而推理引擎，下接硬件，通過深度優化來提升芯片的模型運行性能，壓縮大模型的推理耗時；上接應用，高效承接萬億Token級的海量請求。

適配國產芯片、高性能的國產推理引擎寥寥無幾。xLLM的出現，填補了行業空白。而這，源于一個懸崖邊的選擇。

時間撥回2024年下半年，xLLM立項之初，海外算力框架占據絕對主流，行業內幾乎沒有人愿意all in國產推理引擎的原生研發。當時，擺在xLLM團隊面前的，是一道終極選擇題：究竟是依附成熟的海外開源框架，簡單適配國產芯片，做淺層增量改造，還是從零起步，原生自研一套純國產推理引擎，走一條充滿未知的絕壁之路。

xLLM團隊做出了堅定的抉擇，從零搭建全國產推理體系，不做混合適配、不依附海外框架，徹底扎根國產算力生態。

劉童璇反復而篤定地強調，如果直接在海外框架上支持國產芯片，會受到很大束縛，因為國產芯片生態與CUDA生態不同，優化手段也不一樣。強行適配會受到已有框架的束縛，永遠無法挖掘國產算力的極致性能。同時，企業做AI必須要有算力壓艙石，唯有原生自研，才能真正為國產算力量身打造最優推理底座，也為企業業務提供可靠可持續的保障。

從零起步的抉擇，換來的是極致的技術自由，卻也伴隨著難以想象的困境。

技術上的挑戰首當其沖。國產芯片生態碎片化，各類國產芯片架構迥異，沒有統一、通用的編程模型，無法復刻CUDA體系的成熟適配邏輯。同一大模型，需要針對不同芯片架構單獨重寫、深度調優，適配成本極高。更棘手的是，當時國產芯片在FP16、INT8等精度的支持不夠，極易出現各類BUG，優化效果沒人敢打包票。

同時，國內缺乏原生國產高性能推理引擎的通用方案，這支以95后工程師為核心的年輕團隊，成員大多沒有從0到1建立推理引擎的經驗，面對復雜的底層架構設計與全鏈路優化工作，難免缺乏信心。

起步階段，是整個研發周期中最艱難時期。面對懸崖絕境般的困境，團隊放棄廣撒網的適配思路，沒有盲目鋪開試水，集中錨定DeepSeekV3/R1模型，死磕單一模型的國產化推理優化。

于懸崖邊扎根，在逆境中生長，xLLM恰如崖柏，展現出頑強的技術生命力。項目正式開源之前，團隊終于對自建全國產推理引擎這件事有了信心。

一棵樹，彼此孤離地兀立著……但在泥土的覆蓋下，它們的根伸長著。在看不見的深處，它們把根須糾纏在一起——艾青《樹》

認定全國產這條路能跑通的轉折點，出現在項目開源之前的性能攻堅階段。

在長達數月的全鏈路深耕與芯片聯調后，xLLM的優化能力迎來了質的飛躍，將原本毫秒級的調度間隙壓縮至百微秒以下，讓國產硬件的性能得以極致釋放。

在此之前，行業普遍感知到，國產芯片的性能與N卡存在天然差距，大約只有海外先進芯片的60%—70%。但xLLM徹底打破了這一認知。在同等模型、同等部署條件下，xLLM賦能昇騰芯片跑出的推理性能，能夠達到H200的80%—90%。

在劉童璇看來，這一性能表現，是國產軟硬件深度協同的系統性勝利。既源于xLLM框架層的架構革新與算法優化，也得益于與國產芯片廠商的緊密合作，優化涵蓋了從上到下的整個鏈路，包括推理引擎框架層的優化和底層計算方法的改進。

比如說，昇騰CANN、Mind系列開源軟件棧，具備完善的算子適配、模型兼容能力，能夠高效匹配xLLM的自研架構，大幅降低原生推理引擎的適配成本與改造難度。

此外，xLLM也得到了昇騰社區的高效響應。雙方建立了常態化深度協同機制，通過每周技術例會同步迭代進度、攻克技術難題，昇騰甚至派團隊常駐亦莊，與xLLM團隊聯合辦公，從方案打磨、技術攻堅到場景落地全流程共建，實現技術迭代無縫銜接。

結果就是，xLLM的原生架構設計與昇騰超節點的技術特性高度契合，形成獨一無二的軟硬協同優勢，基于昇騰在推理性能上獲得更優表現，在分布式推理、高并發吞吐場景下，能實現性能最大化。

隨后，xLLM逐步完成了其他主流國產芯片的深度適配與優化，以及與DeepSeek、Qwen、GLM等頭部模型廠商的深度協同。

通過推理引擎，零散的國產芯片廠商、技術團隊、模型生態被串聯在一起，根系相連，能力互補，形成產業合力。可以說，xLLM的性能突破之路，也是國產AI生態聚力共生、聚木成林的一個縮影。

與國際頂尖硬件掰手腕的實測成果，給了xLLM團隊極大的信心，國產化自研路線完全可行。一個新的命題隨之而來：一項原生技術，如何真正走出代碼，走進真實產業場景？開源，成了唯一也是最佳的答案。

2025年8月，xLLM正式在Github開源，開放給全行業共同使用和創新。但上傳源代碼只是開始，真正的挑戰是如何被開發者用起來，吸引更多的人參與到項目中，甚至成為社區貢獻者？

深耕產業多年的劉童璇，十分清楚技術研發與業務落地之間，存在巨大的gap。比如說，產業生產環境復雜多變、需求碎片化，對框架的穩定性要求極致嚴苛；開發者從早已習慣成熟的CUDA生態向國產CANN生態切換時普遍存在成本顧慮。

這些問題不解決，xLLM在開源社區的競爭力和生命力就無從談起。

下定決心做大生態，xLLM走出了最為關鍵的三步：

第一步，性能，性能，還是性能。

劉童璇認為，推理引擎的性能是芯片廠商、模型廠商與行業客戶都最在意的指標，也是推理引擎最剛性的競爭力所在。以國產芯片廠商為例，都以客戶需求為導向，需要適配各家企業的私有框架，多數框架無法釋放國產芯片極致算力，導致國產硬件空有硬件底座，卻難以跑出匹配產業需求的推理效率。

xLLM始終將性能優化作為核心底色，持續壓縮推理時延、拉高吞吐上限，堅定沖刺1毫秒以下超低推理耗時目標，在生成式推薦、大模型對話、多模態生成、工業智能巡檢等剛需場景中，實現數十倍的性能提升。團隊主動聯動頭部模型廠商，首發適配GLM4.6V、GLM4.7等主流國產模型，讓各類國產大模型都能在國產芯片上釋放最優性能。

第二步，得到來自真實業務驗證的能力背書。

開源技術的最大短板，在于缺少大規模線上生產環境的打磨。純實驗室、純社區驅動的框架，一旦落地到復雜集群、低容錯的產業場景中，可能出現各類問題，這也是產業用戶不敢直接使用開源版本的顧慮。

xLLM與生俱來的優勢，就是誕生于產業，依托海量真實業務場景完成全鏈路打磨。相較于傳統推薦模型，新一代大模型結構的生成式推薦模型泛化能力更強，能夠顯著提升商品推薦精準度與用戶購買轉化率。但大模型的超大參數，也導致推理耗時激增，并發承載困難，嚴重制約產業落地。xLLM將超大模型的推理時延極致壓縮，拉升電商轉化率的同時，機器硬件成本降低90%。

與此同時，這套方案已經成為眾多運營商、大型央國企、互聯網企業的選擇。

第三步，依托昇騰生態，打通技術落地的推廣gap。

xLLM立項之初便原生適配昇騰CANN體系，消解了生態遷移成本，徹底解決了行業最頭疼的兼容適配難題，大幅降低全產業落地門檻，迅速融入國產算力核心生態體系，雙方合力打造標準化行業解決方案。昇騰成熟的產業渠道、客戶體系、生態伙伴資源，為xLLM提供了廣闊的落地場景。如今，xLLM已廣泛落地電力、能源、政務、交通等關鍵領域。

當昇騰依托開源的xLLM框架，將大模型推理能力封裝進智能一體機，成功部署至邊遠地區電站并落地電力智能巡檢場景時，劉童璇深刻感受到了代碼守護國計民生的力量。

xLLM從一株懸崖邊的崖柏，乘開源之風，聚開發者之力，成長成一片產學研用共同參與的森林。xLLM的成長過程，也是填平技術與產業斷層、加速國產AI生態起飛的過程，中國的AI產業已為迎接智能體與萬億Token時代的全面爆發做好了準備。

xLLM推理引擎，推動國產模型與國產芯片的適配，讓行業AI應用牢牢扎根在自主創新的算力底座之上，為智能體時代的到來筑實了根基。

如今，多模態普及、智能體自主協同、億級超長上下文場景落地，正在倒逼整個推理體系重構。劉童璇認為，國產推理引擎必須解決幾個新的難題，一是延遲。智能體連續決策、實時交互、生成式推薦等場景，1毫秒以下甚至百微秒級超低延遲成為產業標配，對推理時延提出極致要求。二是全模態。AI應用從單一文本生成，走向圖文、音視頻、三維內容融合的全模態時代，推理框架必須支持全模態的輸入輸出能力。三是億級上下文。行業向億級超長上下文演進，對推理系統形成全新考驗。

萬億Token帶來了行業的結構性機遇，而抓住機遇的前提，是應對好技術趨勢對推理架構的挑戰。生態共建，成為中國AI破解所有難題的關鍵。

國產算力、模型與AI人才，是驅動國內產業智能化必不可少的三駕馬車。生態能夠匯聚不同芯片廠商、模型團隊、行業開發者共同參與，持續縮小與海外AI軟硬件的差距。此外，單一團隊、單一企業無法承接時代級的產業變革，國產AI人才是千行百業應用創新的源頭。

因此，xLLM一方面深度聯動清華、北大、北航、中科大、北郵、天大等十余所頂尖高校，聯動數十位高校導師、近五十名實習生共建研發。同時，聯合昇騰生態，打造社區+高校+產業三位一體的人才培育體系，在華為ICT大賽等官方賽事，拋出“百微秒級推理耗時優化”等產業命題，鼓勵青年開發者在實戰中錘煉能力，挖掘具備產業潛力的創新人才。后續，xLLM社區將持續加大開放力度，降低參與門檻，通過任務拆解、規劃公開、輕量化入局的模式，讓學生開發者、中小企業研發團隊，即使沒有龐大算力與人力資源，也能參與到國產AI技術的發展中來。

曾經空白的國產推理引擎，已根深葉茂；曾經貧瘠的國產算力，已厚植沃土；曾經各自為戰的國產AI生態，也有了根系交織、生機盎然的景象。當我們站在智能體AI時代的大門之前，終于有了底氣。

每一個開發者，都是中國AI產業的種子，扎根在各自的領域與崗位，讓國產軟硬件生根發芽。當無數應用之花在行業綻放，時間將會銘記，這是所有中國開發者用一行行代碼寫就的，不屈的春天。

那就用《種子的夢》來結尾吧：

為了沖破那土層的壓力，

我一點一滴地積攢著力氣。

我思念那明媚的陽光，

我思念那遼闊的大地……

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.