網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中國(guó)AI芯片論文入選計(jì)算機(jī)體系結(jié)構(gòu)界Nature！芯片會(huì)自己做決策了

2026-04-14 19:10:31　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者云鵬
編輯漠影

今天，AI算力軍備競(jìng)賽如火如荼，從搶芯片到囤算力，GW（吉瓦）級(jí)數(shù)據(jù)中心一座接一座拔地而起，海外科技巨頭更是動(dòng)輒掀起數(shù)萬(wàn)億元級(jí)別的AI基建大工程。

但錢(qián)真的“花在刀刃上”了嗎？或者說(shuō)，“囤”的算力真的有被充分利用嗎？

根據(jù)國(guó)內(nèi)RISC-V架構(gòu)AI芯片領(lǐng)域頭部玩家之一奕行智能的研究團(tuán)隊(duì)測(cè)算，各類AI加速器的實(shí)際利用率遠(yuǎn)低于理論峰值。

問(wèn)題不在于芯片不夠強(qiáng)，而在于現(xiàn)有的軟件調(diào)度方式，無(wú)法在運(yùn)行時(shí)靈活地“喂飽”硬件。有人將賣(mài)算力比作AI“賣(mài)鏟子”，但同樣一把鏟子，用什么力度、角度去挖，在老師傅和菜鳥(niǎo)的手里，效率或有天壤之別。

我們看到，AI算力領(lǐng)域的下一波紅利，在于購(gòu)買(mǎi)更高利用率的芯片，把每一分算力，真正用滿、用好。

在此背景下，近期智東西與奕行智能進(jìn)行了深入交流，了解到其最新突破性研究正直指這一AI芯片行業(yè)痛點(diǎn)，其內(nèi)部已研發(fā)實(shí)現(xiàn)基于Tile級(jí)虛擬指令集實(shí)現(xiàn)AI加速器的動(dòng)態(tài)調(diào)度（TISA）。

簡(jiǎn)單來(lái)說(shuō)，TISA構(gòu)建了一套“讓芯片在運(yùn)行時(shí)自己做決策”的動(dòng)態(tài)調(diào)度架構(gòu)——在編譯器和硬件之間建立一種新的調(diào)度語(yǔ)義契約，使芯片能基于實(shí)時(shí)狀態(tài)智能分配任務(wù)。

▲TISA整體架構(gòu)示意圖

值得一提的是，TISA 動(dòng)態(tài)調(diào)度架構(gòu)論文《Dynamic Scheduling for AI Accelerators via TISA》正式入選 ISCA 2026，這也是國(guó)內(nèi)AI芯片公司在ISCA上的重要突破。

要知道，ISCA如同計(jì)算機(jī)體系結(jié)構(gòu)界的Nature，是該領(lǐng)域歷史最久、最具影響力的會(huì)議，這代表奕行智能的核心技術(shù)路線已經(jīng)獲得國(guó)際同行的正式認(rèn)可。

可以說(shuō)，讓有AI算力需求的玩家們“花小錢(qián)辦大事”，在AI時(shí)代更好地把握機(jī)遇方向上，奕行智能實(shí)現(xiàn)了一次重要突破，給產(chǎn)業(yè)破局提供了一種新的思路。

一、芯片買(mǎi)了錢(qián)花了，為什么效率提升跟不上？解密TISA三項(xiàng)核心突破

當(dāng)前，各類前沿AI芯片單卡算力動(dòng)輒達(dá)到幾PFLOPS（每秒千萬(wàn)億次浮點(diǎn)運(yùn)算）甚至幾十PFLOPS，峰值算力大幅提升，但相比算力的大幅提升，芯片算力利用率的提升卻遠(yuǎn)未達(dá)到理論峰值。

從AI芯片內(nèi)部結(jié)構(gòu)來(lái)看，矩陣計(jì)算單元、向量計(jì)算單元，以及數(shù)據(jù)搬運(yùn)單元協(xié)同運(yùn)行，三者各司其職，同時(shí)持續(xù)滿負(fù)荷運(yùn)轉(zhuǎn)才能實(shí)現(xiàn)最高效率。但當(dāng)前AI芯片中主流采用的“編譯時(shí)靜態(tài)調(diào)度”模式，會(huì)在在程序運(yùn)行前就把所有任務(wù)的執(zhí)行順序一次性排定。

這就像工廠廠長(zhǎng)提前排好了生產(chǎn)計(jì)劃，卻不考慮工人臨時(shí)請(qǐng)假、設(shè)備臨時(shí)故障、原料臨時(shí)缺貨等情況（對(duì)應(yīng)芯片運(yùn)行時(shí)的帶寬爭(zhēng)用、溫控降頻等隨機(jī)擾動(dòng)），很容易造成流水線“空轉(zhuǎn)干等”。

即便部分現(xiàn)代GPU在線程束（warp）調(diào)度等底層機(jī)制上引入動(dòng)態(tài)調(diào)度，但這些機(jī)制僅在極細(xì)的指令粒度上運(yùn)作，僅能解決CUDA Core內(nèi)部的指令調(diào)度問(wèn)題，無(wú)法協(xié)調(diào)數(shù)據(jù)搬運(yùn)單元TMA、Tensor Core與CUDA Core三者的并發(fā)執(zhí)行，仍存在局限性。

相比之下，TISA架構(gòu)是如何突破這一瓶頸的？整體來(lái)看，主要是三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新。

首先是語(yǔ)義保留編譯器，其作為“翻譯官”，可以做到不丟失“背景信息”。傳統(tǒng)編譯器把AI模型翻譯成芯片指令，往往會(huì)丟棄算子類型、依賴關(guān)系等關(guān)鍵語(yǔ)義信息，就像轉(zhuǎn)述菜譜是只說(shuō)操作步驟，卻不說(shuō)每一步需要用什么材料、什么廚具、目的是什么。而奕行智能的編譯器在翻譯每一步時(shí)都會(huì)刻意保留這些“上下文”，讓芯片執(zhí)行的每一個(gè)計(jì)算任務(wù)都有完整說(shuō)明，這是后續(xù)智能調(diào)度的信息基礎(chǔ)。

第二個(gè)重要?jiǎng)?chuàng)新是給每一個(gè)計(jì)算任務(wù)都附帶一張標(biāo)準(zhǔn)化“任務(wù)說(shuō)明卡”，實(shí)現(xiàn)Tile級(jí)指令集TISA，說(shuō)明卡會(huì)注明計(jì)算類型、所需硬件、依賴數(shù)據(jù)結(jié)果等信息，借此，芯片在運(yùn)行時(shí)不再需要“猜測(cè)”就能精準(zhǔn)判斷和規(guī)劃任務(wù)的并行和等待。

形象地來(lái)看，在AI計(jì)算過(guò)程中，AI編譯器會(huì)將大算子切分為可獨(dú)立調(diào)度、并行執(zhí)行的小塊，抽象成為一個(gè)個(gè)“Tile（數(shù)據(jù)塊）”，就像把一座積木城堡拆解為一個(gè)個(gè)積木塊，在保證計(jì)算完整的同時(shí)，能顯著提升調(diào)度靈活性與硬件利用率。

這已經(jīng)成為目前行業(yè)的共識(shí)，2025年Tile編程范式迎來(lái)爆發(fā)：從英偉達(dá)發(fā)布CUDA 13.1與cuTile工具鏈到北大開(kāi)源TileLang獲得“國(guó)產(chǎn)Triton時(shí)刻”的贊譽(yù)，再到DeepSeek更宣布新模型算子優(yōu)先用TileLang做精度基線。可以說(shuō)，讓Tile抽象成為行業(yè)共識(shí)，既能適配AI模型特性，又能充分挖掘芯片并行潛力。

第三是構(gòu)建芯片的“實(shí)時(shí)大腦”，奕行智能對(duì)其命名為沖突感知運(yùn)行時(shí)調(diào)度器，這也是整套系統(tǒng)的核心。調(diào)度器持續(xù)監(jiān)控芯片上所有計(jì)算單元的狀態(tài)，一旦發(fā)現(xiàn)某個(gè)單元空閑，會(huì)立刻從待執(zhí)行任務(wù)中找出滿足條件的任務(wù)推送過(guò)去，整個(gè)決策過(guò)程極為迅速，從判斷到下發(fā)僅需幾納秒，不會(huì)給芯片帶來(lái)額外負(fù)擔(dān)，但可以大幅降低各單元“空等”時(shí)間。

相比在軟件層通過(guò)算法進(jìn)行運(yùn)行時(shí)調(diào)度有微秒級(jí)延遲，奕行智能的動(dòng)態(tài)調(diào)度在硬件層實(shí)現(xiàn)，速度可以快100到1000倍，每一個(gè)調(diào)度決策可以保證在納秒級(jí)內(nèi)完成，減少延遲帶來(lái)的損失，可以說(shuō)，TISA也一定程度上代表了其軟硬協(xié)同能力。

從實(shí)際案例測(cè)試來(lái)看，在目前大模型推理中公認(rèn)最先進(jìn)的注意力機(jī)制實(shí)現(xiàn)FlashAttention-3中，相比CUDA版，TISA版本代碼量減30%，同步調(diào)用減少50%，性能達(dá)到手調(diào)基線的95%以上，并且由編譯器自動(dòng)生成的，無(wú)需任何手工優(yōu)化。

▲CUDA版代碼（左）與TISA版代碼（右）對(duì)比

值得一提的是，同一套TISA指令流不僅可以在奕行智能自研芯片EPOCH上運(yùn)行，也可以適用于其他第三方硬件平臺(tái)。

總體來(lái)看，TISA首次在AI芯片領(lǐng)域?qū)崿F(xiàn)了Tile粒度的動(dòng)態(tài)調(diào)度，填補(bǔ)了行業(yè)空白，首次定義了Tile級(jí)ISA作為軟硬件間的調(diào)度語(yǔ)義接口。

對(duì)于行業(yè)來(lái)說(shuō)，奕行智能提供了一條擺脫“算力依賴”，不再一味追求大，而是更高效地充分利用好既有硬件的技術(shù)路徑，這對(duì)云端大模型推理和端側(cè)AI部署等計(jì)算資源受限、成本控制敏感等場(chǎng)景均有直接價(jià)值。

二、深耕類TPU架構(gòu)，兼顧AI計(jì)算通用和專用，硬件、軟件、生態(tài)一個(gè)不能少

TISA架構(gòu)實(shí)現(xiàn)突破的背后，是奕行智能在AI芯片領(lǐng)域長(zhǎng)期深耕和深厚技術(shù)積累的一次階段性成果展示。在交流中我們也了解到，奕行智能對(duì)AI算力產(chǎn)業(yè)發(fā)展有深入思考和關(guān)鍵判斷，TISA技術(shù)突破正是其核心戰(zhàn)略方向上的一次技術(shù)落地。

從產(chǎn)品技術(shù)布局上來(lái)看，在芯片硬件層面，奕行智能研發(fā)的國(guó)內(nèi)業(yè)界首款RISC-V AI大算力芯片EPOCH已經(jīng)在今年年初就實(shí)現(xiàn)了大規(guī)模量產(chǎn)出貨，這也是業(yè)內(nèi)率先采用RISC-V+RVV（RISC-V向量擴(kuò)展）指令集架構(gòu)、用于數(shù)據(jù)中心領(lǐng)域的AI算力芯片，填補(bǔ)了國(guó)內(nèi)RISC-V架構(gòu)在高性能AI計(jì)算領(lǐng)域的空白。

▲EVAS解決方案亮點(diǎn)

實(shí)際上，近期RISC-V架構(gòu)在數(shù)據(jù)中心領(lǐng)域的應(yīng)用已經(jīng)成為行業(yè)重要趨勢(shì)方向，包括英偉達(dá)重金投資RISC-V龍頭企業(yè)SiFive以推動(dòng)其數(shù)據(jù)中心業(yè)務(wù)與RISC-V生態(tài)系統(tǒng)的融合、Meta面向數(shù)據(jù)中心的AI芯片MTIA 300也利用了RISC-V向量核心、谷歌將RISC-V作為T(mén)PU芯片的底層指令集架構(gòu)，與此同時(shí)，高通、Tenstorrent等相關(guān)領(lǐng)域全球科技巨頭也在持續(xù)加大對(duì)“RISC-V+AI”的投入。

奕行智能可以說(shuō)很早就看清并認(rèn)定了這一方向，在其團(tuán)隊(duì)看來(lái)，RISC-V是當(dāng)前最適合構(gòu)建AI芯片的指令集架構(gòu)：開(kāi)放的圖靈完備指令天然支持復(fù)雜控制流，可以補(bǔ)上ASIC/NPU的靈活性短板；RVV向量則天然契合AI張量計(jì)算，掩碼操作原生支持稀疏矩陣；允許在標(biāo)準(zhǔn)之上擴(kuò)展專用指令的定制化潛力，則讓AI芯片可以更好地兼顧通用性與專用性。

在當(dāng)前全球大國(guó)博弈日益激烈的背景下，相較于需授權(quán)的Arm和x86架構(gòu)，RISC-V作為開(kāi)源開(kāi)放的指令集架構(gòu)，天然具有中立性，在打破壟斷、構(gòu)建開(kāi)放生態(tài)、構(gòu)建自主可控的AI算力底座方面，有著不容忽視的戰(zhàn)略意義。

在RISC-V的基礎(chǔ)上，奕行智能在芯片架構(gòu)設(shè)計(jì)方面有別于傳統(tǒng)通用GPU，類谷歌TPU架構(gòu)專門(mén)針對(duì)AI計(jì)算場(chǎng)景進(jìn)行了原生優(yōu)化，可以實(shí)現(xiàn)更高能效比，進(jìn)一步提升AI訓(xùn)練與推理效率，降低算力部署成本。

其自研的E Link互聯(lián)技術(shù)，既可作為AI計(jì)算模組內(nèi)部的芯片間高速互聯(lián)方式，同時(shí)還支持Scale Up與Scale Out融合組網(wǎng)，集合通信庫(kù)加速，可以滿足多種互聯(lián)拓?fù)湎聦?duì)大帶寬、低延遲的智算互聯(lián)需求，支持前沿的在網(wǎng)計(jì)算。

可以說(shuō)，這是國(guó)產(chǎn)自主高速互聯(lián)的重要突破。

奕行智能的芯片產(chǎn)品已經(jīng)面向國(guó)產(chǎn)主流大模型進(jìn)行了深度適配優(yōu)化，實(shí)測(cè)性能可以達(dá)到國(guó)內(nèi)領(lǐng)先、對(duì)標(biāo)國(guó)際一流的水準(zhǔn)。在實(shí)測(cè)中，相比國(guó)際競(jìng)品，奕行智能芯片在模型推理速度顯著提升：RestNet50提升52%，BERT-Base提升31%，GPT-J-6B提升25%，LLAMA2-13B提升43%，提升幅度明顯。

▲EPOCH與競(jìng)品芯片性能對(duì)比

實(shí)際上，類谷歌TPU的專用AI加速芯片通常都會(huì)在性能和能效比上有著比通用GPU更大的優(yōu)勢(shì)，但其主要挑戰(zhàn)來(lái)自于生態(tài)適配成本，這也是行業(yè)努力的方向。

在降低生態(tài)適配成本、吸引開(kāi)發(fā)者高效編程方面，基于Tile的編程模式本就能提供更友好的編程接口，提升算子開(kāi)發(fā)效率，而此次入選頂會(huì)的獨(dú)創(chuàng)Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu)，由Tile級(jí)虛擬指令集、智能編譯器和硬件調(diào)度器組成，原生適配Tile生態(tài)范式，能實(shí)時(shí)適配硬件行為，充分挖掘芯片潛力，在編程方面也更為干凈簡(jiǎn)潔。

Tile級(jí)動(dòng)態(tài)調(diào)度架構(gòu)的自動(dòng)管理指令間依賴、指令順序流水和內(nèi)存切分，都可以顯著提高編程易用性。

生態(tài)層面，奕行智能正積極與vLLM、Triton、gitee等國(guó)內(nèi)外開(kāi)源社區(qū)互動(dòng)，與Triton國(guó)際社區(qū)合作，把Triton編譯導(dǎo)流到RISC-V DSA后端，并將開(kāi)源其虛擬指令集，合力打造針對(duì)RISC-V DSA的CUDA生態(tài)，對(duì)于RISC-V DSA整個(gè)產(chǎn)業(yè)的發(fā)展具有重要的戰(zhàn)略意義。

值得一提的是，奕行智能還計(jì)劃舉辦RISC-V AI 應(yīng)用大賽，面向高校及科研院所開(kāi)放合作，包括資源支持、技術(shù)培訓(xùn)交流等，進(jìn)一步加速RISC-V產(chǎn)學(xué)研生態(tài)的發(fā)展和成熟。

三、最新旗艦AI芯片已大規(guī)模量產(chǎn)，拿下行業(yè)頭部客戶

此次奕行智能在TISA技術(shù)方面的突破可以快速落地到自家芯片以及各類主流算力芯片中，并非只是停留在實(shí)驗(yàn)室中的技術(shù)。實(shí)際上，在產(chǎn)業(yè)落地和商業(yè)化方面，奕行智能已經(jīng)取得了長(zhǎng)足進(jìn)展。

奕行智能已經(jīng)發(fā)布了多款A(yù)I芯片產(chǎn)品，據(jù)稱其最新一代EPOCH在行業(yè)頭部客戶中持續(xù)取得商業(yè)突破，可以說(shuō)是真正走到產(chǎn)業(yè)中去了。

當(dāng)然，芯片賽道歸根結(jié)底是“技術(shù)為王”，扎實(shí)的技術(shù)研發(fā)和產(chǎn)線體系的建立是奕行智能長(zhǎng)期在堅(jiān)持推進(jìn)的，其核心團(tuán)隊(duì)來(lái)自業(yè)界頂尖系統(tǒng)與芯片公司，目前布局北京、上海、深圳、杭州、南京、廣州等地。

從AI內(nèi)核架構(gòu)、編譯器、ESL 建模，到芯片前后端設(shè)計(jì)、封測(cè)與量產(chǎn)的全鏈條自研能力，奕行智能均有布局。簡(jiǎn)單來(lái)說(shuō)，他們有著全流程端到端交付能力和全鏈路商業(yè)化閉環(huán)能力。

作為國(guó)內(nèi)唯一實(shí)現(xiàn)RISC-V云端AI算力芯片大規(guī)模量產(chǎn)的公司，奕行智能無(wú)疑已經(jīng)成為AI時(shí)代RISC-V陣營(yíng)在AI芯片賽道的核心扛旗手。

結(jié)語(yǔ)：從通用算力競(jìng)賽到能效比對(duì)決，AI芯片設(shè)計(jì)轉(zhuǎn)向“運(yùn)行時(shí)智能”

在交流中，奕行智能相關(guān)負(fù)責(zé)人提到，TISA架構(gòu)突破帶來(lái)的并不是一個(gè)簡(jiǎn)單的性能數(shù)字提升，而是AI芯片系統(tǒng)設(shè)計(jì)思路的一次重要轉(zhuǎn)變：從“靜態(tài)確定性”向“運(yùn)行時(shí)智能”，編譯器可以描述意圖，進(jìn)而讓硬件實(shí)現(xiàn)實(shí)時(shí)決策。

當(dāng)然，這背后離不開(kāi)多項(xiàng)關(guān)鍵技術(shù)的創(chuàng)新以及完善軟件工具和生態(tài)的支撐，在追尋更高能效比、更極致成本的今天，奕行智能著實(shí)給行業(yè)提供了一種新思路。

面向未來(lái)，行業(yè)變革仍在繼續(xù)，成本的重壓有增無(wú)減，AI算力產(chǎn)業(yè)已經(jīng)從 “通用算力競(jìng)賽”進(jìn)入了“能效比對(duì)決”時(shí)代，以TPU為代表的專用領(lǐng)域AI計(jì)算架構(gòu)，以突出的能效比取得了市場(chǎng)成功，而奕行智能是其中跑的最快的一批。

在算力版圖逐漸重塑、國(guó)內(nèi)AI芯片競(jìng)爭(zhēng)激烈之下，奕行智能已經(jīng)成為強(qiáng)有力的行業(yè)挑戰(zhàn)者和行業(yè)賦能者。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.