无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

算力轉向推理,AI芯片規則重寫

0
分享至



Token皆有成本,架構決定戰略。

2025年12月24日,英偉達以200億美元收購了Groq的推理技術授權及核心團隊。時隔兩個月,2026年2月20日,加拿大AI芯片初創企業Taalas推出推理芯片HC1。該芯片運行Llama 3.1 8B模型時,單用戶推理速度可達每秒16960個token,在同等測試條件下,性能約為英偉達B200的48倍。2026年5月14日,Cerebras正式登陸資本市場上市,再度讓AI推理芯片行業受到市場廣泛關注。

從英偉達斥巨資布局、大批初創企業入局,再到資本市場開始對相關企業進行估值,不難看出,AI推理時代下,行業競爭的核心已從打造“超大”模型,轉向研發“高效”模型。

行業風向轉變:從訓練走向推理

2022年生成式AI興起初期,行業競爭聚焦于模型訓練。誰能訓練出性能最強的大模型,誰就能掌握競爭主動權。各大企業紛紛投入巨額資金,不斷擴充模型參數、疊加芯片算力,力求實現模型規模與能力的跨越式提升。

但隨著AI服務進入常態化落地階段,成本結構也隨之發生改變。訓練屬于資金投入大、使用頻次低的研發開支,而推理則是高頻次、長期持續的成本項,直接與企業營收掛鉤。單token處理成本與能效表現,會直接影響企業毛利率與業務規模化能力。每一次接口調用、每一個生成的token,都會產生算力消耗,進一步壓縮利潤空間。倘若token生成成本無法隨業務規模擴大而下降,商業模式的可持續性將遭到質疑。

在此背景下,軟硬件研發的重心開始轉向吞吐能力、能效比與存儲架構優化。行業不再一味追求峰值算力,而是更加注重數據流轉效率與低延遲設計。

通用圖形處理器的架構瓶頸

傳統通用圖形處理器依靠高帶寬內存(HBM)與外置DRAM存儲模型參數,計算核心與存儲單元物理分離,數據需要在芯片與封裝組件之間頻繁交互。隨著推理業務流量持續增長,通用圖形處理器的架構短板愈發凸顯。

基于矩陣運算的Transformer模型推理任務,主要受限于內存帶寬與訪問延遲。高帶寬內存雖能提供出色的帶寬性能,但也存在封裝工藝復雜、量產良率不佳、成本高昂等問題,且帶寬提升的同時,功耗也會同步上漲。面對小批量、低延遲的推理請求,圖形處理器難以發揮大規模并行計算的優勢,最終導致硬件利用率走低、單token處理成本攀升。

與此同時,模型規模已不再是衡量競爭力的唯一標準,市場開始探索在保留推理能力的前提下對模型進行壓縮。例如,1.58比特量化、權重剪枝等技術,可讓模型在占用極小內存空間的同時,維持原有推理精度;混合專家(MoE)架構則采用“局部激活”機制,每次推理僅啟動部分子網絡,以此削減整體計算量。

輕量化模型的普及,為硬件設計開辟了新方向:當模型參數與架構趨于穩定,不再需要高成本的動態內存來適配靈活迭代需求時,將算法直接嵌入芯片硬件的路線,便具備了商業落地的可行性。

硬編碼推理芯片:功耗、散熱與成本優勢凸顯

硬編碼推理芯片的出現,正是為了解決能效瓶頸。以Taalas為代表的企業,將模型參數固化在掩膜只讀存儲器(Mask ROM)中,利用片內靜態隨機存儲器(SRAM)處理動態數據,大幅減少外部內存的數據交互功耗,顯著提升單位功耗、單位成本下的token處理量。這類芯片核心優勢在于低延遲、低功耗、高吞吐,同時散熱與封裝設計也得以簡化。

不過,行業最為擔憂的問題,仍是硬件面對模型快速迭代時的靈活性不足。相較于可編程架構,專用硬編碼芯片可調整空間極小。這類產品必須應用在場景高度穩定、部署規模足夠龐大的領域,才能攤平一次性工程費用(NRE)。生態層面同樣存在壁壘:目前云市場仍以通用平臺為主,客戶也更傾向于選擇可跟隨模型同步升級的靈活方案。

為化解上述風險,廠商正搭建自動化模型轉芯片流程、預制晶圓方案,同時研發融合量化、LoRA微調技術的混合可編程架構,在硬編碼與靈活性之間尋求平衡,推動產品商業化落地。

長遠來看,在低延遲要求極高、部署場景封閉、模型架構穩定、數據隱私要求嚴苛且落地規模明確的領域,硬編碼技術將迎來快速發展。這類芯片可適配常規風冷機架,降低能耗與硬件投入,對云服務商及垂直領域集成商吸引力十足。反觀傳統依托軟件調度的專用集成電路(ASIC)廠商,則會在架構層面面臨性能壓力。

綜合來看,集邦咨詢認為,通用圖形處理器仍將主導模型訓練以及多模型混合運行的場景;而在業務成熟、運行規律可預判的推理場景中,專用架構芯片將逐步占據一席之地。二者并非替代關系,而是聚焦對能效、成本敏感度不同的細分領域。整個行業將逐步形成通用計算與專用計算并行發展的雙軌格局。

Taalas HC1:硬編碼推理方案的實踐樣本

2026年2月20日,加拿大AI芯片初創企業Taalas推出HC1芯片,該產品將Llama 3.1 8B模型直接硬編碼至硬件內部,單用戶推理吞吐達到每秒16960個token。

Taalas HC1采用臺積電N6工藝,無需搭載高帶寬內存,也不使用CoWoS封裝,單芯片熱設計功耗約250瓦,僅依靠風冷即可運行。據Taalas測算,在運行Llama 3.1 8B模型時,英偉達B200(吞吐優化版)每生成百萬token的成本為3.79美分,而Taalas HC1僅需0.75美分,成本約為前者的五分之一。



內置Llama 3.1 8B模型的Taalas HC1芯片



Taalas HC1運行Llama 3.1 8B模型的單用戶token吞吐表現

Taalas實現超高算力效率的核心,是采用存內計算(CIM)架構。該技術將計算單元集成在存儲器內部,數據可直接在存儲單元中完成運算,免去計算核心與內存之間的頻繁數據搬運,打破存儲墻瓶頸,同時降低運算過程中的額外延遲與功耗。

存內計算是什么?

1945年,數學家馮?諾依曼提出馮?諾依曼架構。此后芯片設計均沿用計算單元與存儲單元相互分離的結構,以此保障硬件具備更強的通用性與靈活性。

但隨著內存帶寬與算力的發展速度逐漸失衡,計算單元與內存之間的數據傳輸,逐漸成為性能提升的主要制約因素。存內計算(CIM)技術應運而生,目前已分化出數字存內計算(DCIM)、模擬存內計算(ACIM)、混合存內計算等多種技術形態。不過,適配存內計算的編程語言、底層軟件架構及各類應用尚未完全成熟,該技術整體仍處在發展初期。



存內計算技術類型對比表,涵蓋數字、模擬、混合存內計算的原理、精度與能效差異

相較于常規存內計算方案,Taalas的技術路線更為激進,秉持“模型即硬件”的設計理念,打造全硬件定義的AI核心架構,把模型參數直接固化在芯片的掩膜只讀存儲器中。這套方案既保留了存內計算低延遲、低功耗的優勢,也規避了當前存內計算軟件生態不完善的短板。

除了極致的算力效率,依托高密度只讀存儲器存儲模型參數,Taalas針對全新AI模型開發專用芯片時,僅需修改兩層掩膜,從模型轉化為實體芯片的周期可縮短至兩個月。同時芯片保留部分靜態隨機存儲器,用于存放鍵值緩存與LoRA微調參數,以此彌補硬編碼架構靈活性不足的問題。

Taalas的全硬件定義路線與Groq的全軟件定義路線,實現方式雖截然不同,但目標一致:盡可能實現靜態調度與全確定性運算,用動態靈活性換取極致運行效率。

推理芯片新時代:多條技術路線并行發展

除Taalas之外,越來越多專注于高效推理賽道的AI芯片初創企業相繼入局,包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文匯總了各家主流芯片參數規格。



高效AI推理芯片參數對比表

需要說明的是,行業普遍將存內計算(CIM)作為一類架構統稱,但各家具體實現方式差異極大。Taalas HC1將模型參數直接硬編碼至掩膜只讀存儲器,屬于純硬件定義方案;Etched旗下Sohu芯片同樣采用硬編碼架構,但可適配所有Transformer模型,靈活性更高;d-Matrix的Corsair芯片以數字存內計算為核心,將AI模型底層架構嵌入硬件,適配范圍更廣,靈活性優于Etched;Untether AI的Boqueria芯片采用近內存計算架構,將精簡指令集(RISC-V)處理器與運算單元直接集成在靜態隨機存儲器陣列中;Axelera AI的Metis人工智能處理器(AIPU)同樣搭載數字存內計算技術,由精簡指令集架構管控數據流轉。



d-Matrix Corsair芯片架構



Untether AI Boqueria芯片架構

2026年5月14日,當下推理芯片領域熱度最高的企業Cerebras正式于納斯達克上市。其核心技術為晶圓級集成,將整片12英寸晶圓封裝為單顆芯片(WSE-3),片內集成44GB靜態隨機存儲器,內存帶寬可達21PB/s。目前Cerebras已與OpenAI達成為期三年的算力合作,合作規模超200億美元,算力部署容量達750兆瓦。



Cerebras WSE-3芯片四級架構示意圖

現階段整個市場仍處于早期探索階段,多條技術路線同步推進,包括存內計算、靜態隨機存儲器優先架構、晶圓級集成、張量收縮處理器等。業內預計,未來推理芯片架構會逐步融合各類技術優勢,以此滿足AI推理場景對性能與能效的綜合要求。

*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
摩洛哥場上11人全出生在他國!網友喊國足抄作業 媒體人:根本沒戲

摩洛哥場上11人全出生在他國!網友喊國足抄作業 媒體人:根本沒戲

風過鄉
2026-06-14 12:02:04
徹查!信號強烈!中央升級反腐“天網”!

徹查!信號強烈!中央升級反腐“天網”!

職場資深秘書
2026-06-13 16:01:25
中方最后一刻放棄36架圖-22M3,外媒曝光訂單取消內幕

中方最后一刻放棄36架圖-22M3,外媒曝光訂單取消內幕

激情與榮耀并存
2026-06-13 07:10:52
大佬拋售科技股,全面押注這家公司!

大佬拋售科技股,全面押注這家公司!

格隆匯
2026-06-14 14:02:05
鄧超攜兒子現身NBA總決賽現場,在父親旁邊吃爆米花,顏值清秀像孫儷

鄧超攜兒子現身NBA總決賽現場,在父親旁邊吃爆米花,顏值清秀像孫儷

鄉野小珥
2026-06-14 14:25:08
尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

看盡落塵花q
2026-05-21 04:47:45
丹丹的餐廳在“四不”抵制下門可羅雀,印度丈夫要把全家帶到中國

丹丹的餐廳在“四不”抵制下門可羅雀,印度丈夫要把全家帶到中國

魔都姐姐雜談
2026-06-13 15:58:31
日本強奸犯進國家隊踢世界杯?日本主帥發表驚人言論:他那是失誤

日本強奸犯進國家隊踢世界杯?日本主帥發表驚人言論:他那是失誤

十點街球體育
2026-06-13 21:00:12
C 羅機場亮相西裝造型干練,氣場拉滿備戰世界杯

C 羅機場亮相西裝造型干練,氣場拉滿備戰世界杯

述家娛記
2026-06-13 13:07:39
下周上班時間有變:連休3天,不調休

下周上班時間有變:連休3天,不調休

江西晨報
2026-06-14 11:11:17
什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

另子維愛讀史
2026-06-13 23:39:37
1988年,他花10萬買下深圳荒地,30年后拆遷款把他嚇壞

1988年,他花10萬買下深圳荒地,30年后拆遷款把他嚇壞

燦爛夏天
2025-05-12 14:33:45
中方最擔心的事發生了:伊朗作出危險決定!特朗普親手毀了中東

中方最擔心的事發生了:伊朗作出危險決定!特朗普親手毀了中東

狗子的快樂
2026-06-14 05:10:25
特朗普稱美伊14日簽署協議,霍爾木茲海峽將立即開放;伊朗否認,但不排除在未來幾天內完成,表示此階段不討論核問題,簽署后將立即結束軍事行動

特朗普稱美伊14日簽署協議,霍爾木茲海峽將立即開放;伊朗否認,但不排除在未來幾天內完成,表示此階段不討論核問題,簽署后將立即結束軍事行動

每日經濟新聞
2026-06-14 14:57:27
1950年,聶榮臻含淚下令槍決沙飛,臨行特囑為其做最愛吃的魚

1950年,聶榮臻含淚下令槍決沙飛,臨行特囑為其做最愛吃的魚

嘮叨說歷史
2026-03-27 16:29:16
穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

球事百科吖
2026-06-13 19:18:38
2026年反腐重點,沒有煙草、消防、醫藥、工程建設了,有三個變化

2026年反腐重點,沒有煙草、消防、醫藥、工程建設了,有三個變化

細說職場
2026-06-14 14:31:07
東鵬特飲做夢也沒想到!德比斯拿下第6冠,一舉動讓自己壓力巨增

東鵬特飲做夢也沒想到!德比斯拿下第6冠,一舉動讓自己壓力巨增

樂悠悠娛樂
2026-06-14 14:57:03
被“全球拒簽”的印度人,盯上中國,印人高喊:中國應該接受我們

被“全球拒簽”的印度人,盯上中國,印人高喊:中國應該接受我們

錯過美好
2026-06-14 09:58:47
2026-06-14 18:11:00
半導體產業縱橫 incentive-icons
半導體產業縱橫
探索IC產業無限可能。
2913文章數 1342關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

時尚
健康
房產
數碼
本地

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

老人、小孩、孕婦,吃粽子有啥風險

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進入關懷版