![]()
![]()
![]()
來源:獵云網
國內全自研GPGPU創新企業「北京行云集成電路有限公司」(以下簡稱"行云")宣布連續完成Pre-A及Pre-A+多輪融資,融資金額超4億元。本輪由五源資本、賽富投資基金、春華資本聯合領投,北京、江蘇等地方國資、佰維存儲、金沙江聯合帶動全球知名GPU企業創始人家辦、創維資本等產業資本跟投。云岫資本連續多輪服務并擔任下一輪獨家融資財務顧問。
行云成立于2024年,專注面向大模型推理的新一代GPGPU芯片。技術上打造超大顯存規格、極致CUDA兼容的全自研產品,公司目標直指AI大模型推理的普惠化。
創始人季宇博士,清華大學計算機系博士,"華為天才少年"計劃成員,曾在華為海思深度參與昇騰AI芯片的編譯器與架構研發。CTO余洪敏博士,中科院半導體所博士,曾深度參與包括兩款國產AI芯片在內的多款芯片的研發與量產,擁有十余款芯片成功流片經驗。一位是站在算法×編譯器交界處的架構師,一位是十余次走完"實驗室到量產"全流程的芯片老兵——這恰好對應了行云技術路線的兩個重點:架構判斷要不要賭錯、工程交付能不能扛住。
要理解行云芯片的邏輯,必須先承認一個正在被業內默認、但還未被公眾充分定價的事實:2026年的大模型,已經不再是"應用",而是"生產資料"。
從Chatbot到Agent,從一次性問答到長鏈路、多輪自主執行的任務交付,模型正在變成知識工作的底層引擎。一旦角色從"產品"轉換為"生產資料",關于"誰擁有它、誰定價它、誰被它替代"的討論就避無可避。而當這個問題向下追問到基礎設施層,三個結構性矛盾立刻浮現。
矛盾一:從玩具到工具的鴻溝,門檻是千億參數
Chatbot時代,7B、13B的小模型勉強夠用。但真正能被Agent場景委以重任的模型,幾乎全部集中在200B–700B的千億參數區間——只有這個量級,才能撐得住超長上下文、穩定的工具調用鏈和可接受的幻覺率。
用戶用錢投票已經把這一點說得很清楚:2026年初,Anthropic以行業最高的API定價把營收推到300億美元ARR,其中Claude Code單產品ARR即達25億美元。"最貴的模型反而最賺錢",恰恰說明在"真正能干活"的場景里,模型質量是一道硬門檻,而這道門檻,今天的消費級硬件夠不著。
矛盾二:成本結構性失衡,大廠和用戶被同時擠壓
為了把千億模型留在云端,OpenAI、Anthropic、Google 等頭部廠商過去兩年的資本開支呈指數級增長——更大的集群、更貴的HBM、更密的液冷機房。這些成本最終必然向用戶端傳導:訂閱制的代價是限流、降智、高峰排隊,海外API計費的代價是Agent長鏈任務下指數級增長的Token賬單,月支出動輒數千美元。
這是一場不對稱的雙向擠壓:大廠在賭自己能撐到回本那一天,用戶在賭自己付得起下一張賬單。任何能在這局之外另開一條算力供給路徑的玩家,都會給目前的產業界帶來新的思考。
矛盾三:數據主權與崗位反噬的不對稱交換
云端API在數據流向上是單向透明的。用戶每一次與Agent的深度協作,都在把職業Know-how免費轉交給模型公司。海外大廠一邊組建"反蒸餾聯盟"嚴防所謂競爭對手,一邊肆無忌憚地從所有用戶身上蒸餾經驗。"個人經驗→模型能力→崗位替代"的閉環就此閉合。
對一名知識工作者來說,這已經不只是隱私問題,而是生存問題。只要推理還完全構筑于云端,數據和生產關系的主權就總有歸零的一天。
上述矛盾,過去并非沒人看到,但在稠密Transformer時代,"把千億模型搬回本地"在物理上就不成立——稠密模型每次前向都要全量激活,對帶寬的需求讓HBM成為不可繞開的剛需,消費級的LPDDR/DDR根本進不了場。
而MoE稀疏架構的普及,把這套法則改寫了。MoE用更大的總容量裝下更多"專家",但每次推理只激活一小部分。結果是瓶頸從"極致帶寬"遷移到"超大容量",單次激活的算力和帶寬需求驟降。帶寬需求第一次回落到LPDDR/DDR的"甜點區間"。再配合Attention的稀疏性和超長上下文的需求,算力,容量,顯存帶寬,互聯的關系在不斷發生改變。
換句話說,是算法演進給硬件留出了一個歷史性的窗口期。能不能踩準這個窗口,決定了一家芯片公司是順著潮水走還是逆著潮水走。
行云的技術路徑,可以拆成"介質替換"和"系統級工程"兩層。
介質層面,行云放棄成本高昂的HBM,轉而采用LPDDR乃至NAND(SSD顆粒)作為顯存介質,使顯存成本下降1到2個數量級。低成本介質單顆粒帶寬較低,行云用多顆粒、多通道并行架構把整體帶寬堆疊到TB級,匹配大模型推理的吞吐需求。
系統層面,公司通過Prefill / Decode分離(PD分離)、KV Cache稀疏化、分布式擴展、極致CUDA兼容等手段,在系統級構建軟硬件協同壁壘。CTO余洪敏強調,行云的設計優先級已經從"追求單芯片極致性能"轉向"從板級系統角度追求可擴展性與供應鏈穩定性"——通過分布式設計與成熟工藝、低成本存儲的組合,在系統層面實現成本最優與體驗一致。
物化到產品,就是行云即將推出的首款消費級桌面計算產品,CUDA極致兼容,面向消費級價位點設計。它不是一張被裁剪過的計算卡,而是從底層就為"在端側跑千億模型"重新設計的芯片,讓用戶可以在萬元價位高吞吐運行萬億級別參數的大模型。
行云援引一個產業類比:當19世紀的交通革命中鐵路剛出現的時候,英國產生了巨大的鐵路泡沫,認為所有的道路將通過鐵路流通,并最終留下了商業模型的崩潰出清。但最后并不是只靠貫穿大洲的鐵路干線完成所有的交通需求,更依賴于深入毛細血管的汽車與公路。今天的AI算力網絡也站在同樣的分岔口——是走向超算壟斷的"中心化鐵軌",還是走向端側普惠的"分布式公路"?
行云給出的答案是后者。在公司的產品路線里,首顆芯片只是第一個錨點。當技術路徑進一步推向NAND介質,端側算力設備的價位有望下探到千元級,覆蓋主流千億乃至萬億參數模型,并在單用戶場景下反超云端體驗,最終讓AI算力設備的普及率接近今天的智能手機。
與此對應,季宇明確表示,公司今年的核心目標是完成芯片量產并盡快推向市場,以芯片產品作為商業化的主要抓手。OpenClaw 和Hermers這類Agent平臺的現象級傳播也已經印證了下游需求——市場對"消費級硬件承載高質量AI"的渴望,已經具備實際購買力。
—— 芯榜 ——
芯榜成立于 2015 年,是半導體垂直領域的產業媒體與數字化服務平臺。全網覆蓋超 100 萬垂直行業用戶,核心提供專業榜單發布、原創訪談、產業報告、峰會活動及研究咨詢等服務。已合作近千家半導體生態企業,聯動多家基金公司與產業媒體,助力硬科技產業發展。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.