无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)字深度|面壁智能,在效率的極限處,連續(xù)穿越AGI的周期

0
分享至

站在2026年的今天回看,中國(guó)大模型產(chǎn)業(yè)的敘事,大多圍繞兩個(gè)關(guān)鍵詞展開(kāi):規(guī)模與應(yīng)用。

一方面,是不斷被刷新參數(shù)上限的模型競(jìng)賽,仿佛只有“更大”才能通向“更強(qiáng)”;另一方面,是圍繞API調(diào)用、Agent與行業(yè)落地展開(kāi)的商業(yè)化肉搏。幾乎所有公司,都在這兩條路徑之間尋找自己的位置,試圖在算力軍備競(jìng)賽與用戶增長(zhǎng)之間求得一線生機(jī)。

但如果把時(shí)間線拉長(zhǎng),會(huì)發(fā)現(xiàn)有一類(lèi)公司,其路徑并不完全遵循這兩條主線。

面壁智能就是其中一個(gè)典型。

這家公司并不以參數(shù)規(guī)模見(jiàn)長(zhǎng),在傳播上也不追求高調(diào),但它卻長(zhǎng)期領(lǐng)跑在另一條更隱蔽的技術(shù)軌道上:圍繞“如何在有限資源下構(gòu)建更高能力的模型”這一問(wèn)題,持續(xù)推進(jìn)。

這使它形成了一種少見(jiàn)的技術(shù)路線——不是由產(chǎn)品規(guī)模或用戶數(shù)量定義,而是由一套穩(wěn)定且一貫的技術(shù)判斷所塑造。在巨頭林立、算力為王的時(shí)代,面壁智能走出了一條以“智能密度”為核心,從云端向端側(cè),從通用向垂直的“精益”突圍之路。

——導(dǎo)語(yǔ)

01

不是參與者,而是范式的連續(xù)跨越者

通往AGI的道路上,企業(yè)發(fā)展路徑的城頭變幻大王旗,甚至比技術(shù)的煥新來(lái)的更快。

2023年5月,行業(yè)曾用“AI六小虎”總結(jié)中國(guó)大模型創(chuàng)業(yè)的核心陣營(yíng):智譜AI、MiniMax、百川智能、零一萬(wàn)物、月之暗面、階躍星辰。這些明星公司均有著履歷光鮮的創(chuàng)始團(tuán)隊(duì),一度被視為中國(guó)大模型產(chǎn)業(yè)的風(fēng)向標(biāo)。

然而,資本的聚光燈遠(yuǎn)比技術(shù)路徑更易轉(zhuǎn)向。短短兩年間,這個(gè)組合已經(jīng)面目全非。2025年1月,零一萬(wàn)物創(chuàng)始人李開(kāi)復(fù)明確宣布不再追求訓(xùn)練超大模型,公司逐漸轉(zhuǎn)變?yōu)橐患褹I應(yīng)用與工程公司。2025年9月,百川智能創(chuàng)始人王小川通過(guò)全員信明確——專注醫(yī)學(xué),減少多余動(dòng)作。兩員大將前后腳退出了基座模型的競(jìng)賽。

取而代之的是新概念的涌現(xiàn)。“AGI五小龍”成為了繼“六小虎”之后新的行業(yè)明星群體。這一組合中的五家企業(yè)——智譜AI、MiniMax、月之暗面、階躍星辰與面壁智能——都以AGI為終極目標(biāo)。

前四家早已聲名在外,而面壁智能,則是最新加入這一行列、也最具路徑個(gè)性的那一個(gè)。

這是一家既“老”且“新”的公司。

說(shuō)它“老”,是因?yàn)槠浜诵膱F(tuán)隊(duì)至今仍和清華大學(xué)NLP實(shí)驗(yàn)室(THUNLP)有著極其密切的聯(lián)動(dòng),其在大模型領(lǐng)域的積累可以追溯到2019年,甚至更早。2020年12月,團(tuán)隊(duì)發(fā)布了國(guó)內(nèi)首個(gè)中文大模型CPM-1,成為后來(lái)中國(guó)奠基性大模型“悟道”系列的首發(fā)主力陣容。可以說(shuō),這支團(tuán)隊(duì)親歷了中國(guó)大模型從無(wú)到有的全過(guò)程。

說(shuō)它“新”,是因?yàn)槊姹谥悄茉?022年8月才正式成立,且這一時(shí)間點(diǎn)要早于ChatGPT引發(fā)的創(chuàng)業(yè)熱潮——這意味著面壁的創(chuàng)業(yè)決策并非跟風(fēng),而是基于團(tuán)隊(duì)對(duì)技術(shù)趨勢(shì)的獨(dú)立研判。而它真正旗幟鮮明地主攻端側(cè)大模型,則是在2023年8月之后完成的一次戰(zhàn)略性轉(zhuǎn)折。



這就是面壁智能最核心的特征:與技術(shù)成就相比,其真正的核心能力,并不僅僅在于某一具體技術(shù)棧,而在于核心團(tuán)隊(duì)對(duì)“范式切換”的持續(xù)判斷能力——從知識(shí)圖譜轉(zhuǎn)向預(yù)訓(xùn)練,從預(yù)訓(xùn)練到高效訓(xùn)練,從大參數(shù)模型轉(zhuǎn)向端側(cè)高效模型、再到今年火熱的本地類(lèi)Claw產(chǎn)品,甚至 AI 制造 AI——每一次轉(zhuǎn)換,面壁都踩在了技術(shù)范式更迭的前夜。

國(guó)內(nèi)的公司無(wú)論是大廠還是以技術(shù)出身的創(chuàng)業(yè)公司,脫離了中國(guó)高校的學(xué)術(shù)圈之后都會(huì)有一個(gè)問(wèn)題——他們很難時(shí)刻緊跟最前沿的技術(shù)。而面壁不同,它始終與清華實(shí)驗(yàn)室保持著深度連接,由此保持了許多思想上的活力。

換言之,面壁不只是一家公司,它是一個(gè)從學(xué)術(shù)創(chuàng)新土壤中持續(xù)汲取養(yǎng)分的有機(jī)體。

傳統(tǒng)的技術(shù)競(jìng)爭(zhēng)像是攀登珠峰,目標(biāo)明確,大家比拼的是誰(shuí)爬得快;而大模型時(shí)代更像是一片沙漠里的“淘寶”,沒(méi)有人知道寶藏(AGI)的確切坐標(biāo),大家都在根據(jù)自己的直覺(jué)和地圖摸索。更重要的是,即使你挖到了寶藏,但隨時(shí)可能有人挖到更大寶藏的消息傳來(lái),讓你痛悔不已——本質(zhì)上,這是一場(chǎng)追求誰(shuí)能活下來(lái)和持續(xù)發(fā)現(xiàn)寶藏的“無(wú)限游戲”。

而面壁之所以選擇端側(cè),并非因?yàn)槎藗?cè)是終點(diǎn),而是因?yàn)樵谫Y源極度受限的端側(cè)“沙漠”中,他們找到了一條能讓自己活得更久、跑得更快的路徑。

這是一家罕見(jiàn)的,對(duì)走一條完全自主的技術(shù)路線心里有數(shù),并有超前洞見(jiàn)性的企業(yè)。它并不盲目追隨“大力出奇跡”的主流敘事,而是選擇了一條人跡罕至的“密度定律”之路。

02

從“密度定律”出發(fā)的技術(shù)路線

2023年,當(dāng)整個(gè)行業(yè)都在為ChatGPT 的發(fā)布而顫抖,紛紛砸下重金試圖堆砌算力復(fù)刻“千億美元級(jí)”的模型時(shí),面壁智能卻在做一件看起來(lái)“很蠢”的事:他們砍掉了原本計(jì)劃中的萬(wàn)億參數(shù)大模型(CPM-D),轉(zhuǎn)而全力投入一個(gè)參數(shù)規(guī)模極小的模型研發(fā)。

從2020年GPT-3問(wèn)世后聯(lián)合智源研究院做出中國(guó)第一個(gè)十億級(jí)參數(shù)的的中文大模型CPM-1,到 2022年做出百億級(jí)參數(shù)的CPM-B,再到2023年8月果斷暫停萬(wàn)億參數(shù)路線并轉(zhuǎn)向端側(cè)——每一次行業(yè)拐點(diǎn)的到來(lái),面壁似乎都提前半步聞到了風(fēng)向——這就是我前面提到的“洞見(jiàn)力”。

這種判斷力在2023年的那個(gè)夏天達(dá)到了關(guān)鍵一躍。當(dāng)時(shí),“六小虎”們都在瘋狂融資、囤積算力,目標(biāo)是“誰(shuí)先達(dá)到GPT-4水平誰(shuí)就是霸主”。面壁卻在一個(gè)內(nèi)部會(huì)議上做出了一個(gè)反共識(shí)的決定:不做萬(wàn)億模型。

“當(dāng)時(shí)走了這條路,之后很有可能就是萬(wàn)劫不復(fù)的深淵,”面壁智能首席研究員韓旭回憶,“會(huì)抽干所有資源,最后還不一定達(dá)到效果。”

2023年8月,面壁正式將戰(zhàn)略目標(biāo)調(diào)整為:在2024年發(fā)布一個(gè)參數(shù)小于百億、能力約等于ChatGPT的模型。這個(gè)決定在當(dāng)時(shí)看來(lái)近乎冒險(xiǎn)——當(dāng)所有人都在往云上沖刺時(shí),為什么要往終端轉(zhuǎn)移?

因?yàn)槊姹谝庾R(shí)到,云側(cè)大模型的道路過(guò)于擁擠。更重要的是,云側(cè)大模型的計(jì)算成本、運(yùn)營(yíng)成本和隱私問(wèn)題,使其難以真正“讓智能走進(jìn)千家萬(wàn)戶”——而這句話,恰好是面壁智能的slogan。

于是,一個(gè)大膽的目標(biāo)被定了下來(lái):做一個(gè)小于百億參數(shù)的模型,讓它達(dá)到ChatGPT的水平,并通過(guò)終端設(shè)備賦能千家萬(wàn)戶。這是面壁端側(cè)路線的真正起點(diǎn)。

但端側(cè)并不是一個(gè)隨意選擇的結(jié)果,它背后有一套完整的技術(shù)哲學(xué),也就是如今被稱為“大模型領(lǐng)域的摩爾定律”的“密度定律”。

所謂的大模型智能的密度定律,來(lái)自于面壁團(tuán)隊(duì)持續(xù)的探索。可以說(shuō),對(duì)這個(gè)規(guī)律的探索和感悟,才是支持面壁智能發(fā)展的底層思維模式——大模型的智能密度每100天提升一倍。

這其中,智能密度 = 模型能力 / 推理算力能耗。

2025年,這一規(guī)律得到進(jìn)一步深化,面壁智能的高層在公開(kāi)演講中指出:大模型智能密度每3.3個(gè)月翻一番,意味著同等能力的模型,在3.3個(gè)月后僅需要一半的參數(shù)就能實(shí)現(xiàn)。

這就是面壁的核心理論框架。當(dāng)行業(yè)普遍將參數(shù)規(guī)模視為能力核心時(shí),面壁已經(jīng)轉(zhuǎn)向了一個(gè)不同的函數(shù):參數(shù)規(guī)模只是大模型的變量之一,而不是決定性變量。真正決定模型價(jià)值的,是單位參數(shù)所承載的有效智能。

這一思路的自然結(jié)果,在工程層面,就體現(xiàn)為在模型尺寸的收斂與效率的飆升這兩個(gè)看似矛盾的追求中尋找最佳平衡點(diǎn)。

但這種平衡不是沒(méi)有上限的,它建立在主流端側(cè)的算力限制之內(nèi)。韓旭回憶說(shuō):“這個(gè)上限,在這一定律最早成型的時(shí)代背景下,是能夠在一臺(tái)采用高通驍龍8gen3芯片和8GB內(nèi)存的手機(jī)上,勉強(qiáng)跑起來(lái)當(dāng)時(shí)主流大模型的能力。”

嚴(yán)格的硬件上限之內(nèi)對(duì)性能的極致追求,也是沿著這條路,面壁智能才一步步走到了今天 。

回看面壁端側(cè)模型的產(chǎn)品迭代時(shí)間線,可以清晰地看到這條密度定律在工程層面的兌現(xiàn)過(guò)程:

2024年2月,面壁推出首個(gè)端側(cè)大模型MiniCPM,僅用24億參數(shù)的模型實(shí)現(xiàn)了超越同期百億參數(shù)模型的能力,一出手就打響了“小鋼炮”的名號(hào)。

此后,他們用40億參數(shù)的模型,實(shí)現(xiàn)了接近甚至超越GPT-3.5的能力;用80億參數(shù)模型逼近GPT-4的能力。這打破了“模型必須大”的迷信,證明了通過(guò)架構(gòu)優(yōu)化和數(shù)據(jù)質(zhì)量的提升,小模型也能具備大智慧。

為了在有限資源下訓(xùn)練大模型,面壁很早就自研了分布式訓(xùn)練框架BMTrain。這不僅是對(duì)標(biāo)DeepSpeed或Megatron的工程實(shí)現(xiàn),更是其“密度定律”的體現(xiàn)——僅用32張卡甚至更少的資源,就可以啟動(dòng)百億級(jí)模型的訓(xùn)練,極大地降低了大模型的準(zhǔn)入門(mén)檻。

更重要的是,在開(kāi)始大批量訓(xùn)練模型之前,他們建立了一套“模型風(fēng)洞”機(jī)制——借鑒航空工業(yè)的空氣動(dòng)力學(xué)理論,在小模型上快速實(shí)驗(yàn)、驗(yàn)證方案,再推演到大尺寸模型上。“我們?cè)谛》秶鷥?nèi)把所有方案都嘗試完之后,最終得到一個(gè)最優(yōu)方案,再去訓(xùn)更大尺寸的模型,”韓旭解釋,“這樣可以降低大量的試錯(cuò)成本。”

隨后接踵而至的,就是面壁在兩到三年里沖到端側(cè)超頭部的一連串驚人之舉。

2024年5月,多模態(tài)端側(cè)模型MiniCPM-V發(fā)布,以80億參數(shù)實(shí)現(xiàn)了多模態(tài)綜合性能超越GPT-4V、Gemini Pro等云側(cè)模型,首次在手機(jī)、平板等終端設(shè)備上實(shí)現(xiàn)多模態(tài)實(shí)時(shí)推理。

但讓這款模型真正廣為人知的,是其后來(lái)被美國(guó)頂尖高校斯坦福的一個(gè)AI團(tuán)隊(duì)抄襲,引發(fā)了國(guó)際學(xué)術(shù)圈的軒然大波,最終以抄襲者致歉撤下模型告終。

面壁的端側(cè)多模態(tài)研究果也于2024年 7 月登上《Nature》子刊《Nature Communications》,標(biāo)志著中國(guó)高效大模型的技術(shù)創(chuàng)新獲得國(guó)際學(xué)術(shù)界的最高認(rèn)可

2025年1月,MiniCPM-o 2.6發(fā)布,以80億參數(shù)量在iPad上實(shí)現(xiàn)媲美GPT-4o的全模態(tài)實(shí)時(shí)流式視頻理解與高級(jí)語(yǔ)音對(duì)話能力,成為開(kāi)源社區(qū)彼時(shí)最強(qiáng)語(yǔ)音通用模型與最強(qiáng)端側(cè)視覺(jué)通用模型。

2025年8月,MiniCPM-V 4.5開(kāi)源,以80億參數(shù)量實(shí)現(xiàn)視頻理解、OCR、文檔解析能力的端側(cè)SOTA,用別人不到九分之一的參數(shù)做到了更強(qiáng)的效果。

2026年1月,行業(yè)首個(gè)全雙工全模態(tài)大模型MiniCPM-o 4.5發(fā)布,僅90 億參數(shù)的精簡(jiǎn)體量,實(shí)現(xiàn)了語(yǔ)音、視頻、文本的全模態(tài)同步交互,從「一問(wèn)一答」進(jìn)化為「類(lèi)人即時(shí)自由對(duì)話」。

目前看大模型公司,已經(jīng)過(guò)了單看參數(shù)量的階段,更核心的pk是迭代速度和再迭代速度。而面壁證明了這兩個(gè)能力,自己全都具備。

具備的最有力證據(jù),就是圖中的這條迭代曲線:



注:「密度定律」的曲線圖

有人問(wèn):為什么面壁智能明明走的是一條看似不那么主流的端側(cè)路線,但卻依舊被歸集于“AGI五小龍”的行列中?

這是因?yàn)椋藗?cè)不是算力貧弱的代名詞,而是一種可攻可守的研發(fā)策略,它的終點(diǎn)同樣是AGI,而且是智力密度更高的AGI。

韓旭對(duì)此有一個(gè)精準(zhǔn)的總結(jié):“訓(xùn)練端側(cè)模型的過(guò)程也是尋找大模型方法論的過(guò)程,能讓端側(cè)模型訓(xùn)練成功的方法論,把參數(shù)規(guī)模放大,卡加多,很快就能把更大的模型給訓(xùn)出來(lái)。只要掌握了方法論,訓(xùn)練極大參數(shù)規(guī)模的模型,難點(diǎn)更多的是在算力基礎(chǔ)設(shè)施高效性和穩(wěn)定性等工程性問(wèn)題上。通向AGI的路線,是學(xué)術(shù)、工程、資源分配的組合優(yōu)化問(wèn)題。”

換言之,做端側(cè)模型的技術(shù)積累是向上兼容的,但反過(guò)來(lái)卻未必能行。一個(gè)長(zhǎng)期聚焦云側(cè)的大模型公司可能并不知道如何讓大模型在手機(jī)芯片上以最佳效率運(yùn)行。小參數(shù)尺寸的端側(cè)模型對(duì)數(shù)據(jù)質(zhì)量會(huì)更為敏感,對(duì)大參數(shù)尺寸云側(cè)大模型成功的方案未必能成功訓(xùn)練端側(cè)模型。但面壁 則隨時(shí)可以把小模型的技術(shù)“放大”。只要給它足夠的資源和不長(zhǎng)的時(shí)間,它就可以是一家標(biāo)準(zhǔn)意義上的大模型前沿企業(yè)。

韓旭舉的一個(gè)例子十分有趣:“現(xiàn)在開(kāi)源的大模型家族里,不乏有極其優(yōu)秀的大模型家族衍生出的小尺寸模型,最經(jīng)典的比如Meta的Llama,它們也可以在端側(cè)設(shè)備上面跑,但它的效率絕對(duì)無(wú)法超過(guò)面壁智能的同尺寸模型。歸根結(jié)底,是其仍然采用了較原始的Transformer架構(gòu),而沒(méi)有充分考慮端側(cè)的特點(diǎn)進(jìn)行設(shè)計(jì)。相反,我們同樣通過(guò)很多精巧的架構(gòu)設(shè)計(jì)和模型強(qiáng)化訓(xùn)練,使之更符合密度定律,也因此才能在端側(cè)更具競(jìng)爭(zhēng)力——而這是那些主打大尺寸模型的企業(yè)很少會(huì)有的積累和水磨功夫。”

事實(shí)也證明了這一點(diǎn)——面壁不僅在端側(cè)領(lǐng)先,在法律領(lǐng)域等需要大參數(shù)模型,但由于合規(guī)性的要求又必須在本地設(shè)備上實(shí)現(xiàn)數(shù)據(jù)閉環(huán)的業(yè)務(wù)上,同樣具備全棧能力。甚至可以說(shuō)的大一點(diǎn)——限制條件越多的環(huán)境,面壁的優(yōu)勢(shì)就越明顯。

換言之, 面壁強(qiáng)迫自己小,是因?yàn)樽非笮《瑫r(shí)具備隨時(shí)變大的能力,正如那句俗語(yǔ)一樣:“金麟本非池中物,一遇風(fēng)云便化龍”。

03

小團(tuán)隊(duì)的“跨層能力”與穿越周期的韌性

在組織形態(tài)上,面壁呈現(xiàn)出另一種反常識(shí)的特征:規(guī)模不大,但技術(shù)能力覆蓋面極廣。

面壁的團(tuán)隊(duì)規(guī)模遠(yuǎn)小于互聯(lián)網(wǎng)巨頭,也小于其它“小虎”,甚至核心研發(fā)人員只有幾十人。然而,這幾十人的團(tuán)隊(duì)卻同時(shí)具備了三類(lèi)稀缺能力,構(gòu)成了其“跨層能力”的護(hù)城河。

首先,是模型結(jié)構(gòu)的精益優(yōu)化能力: 面壁擁有極強(qiáng)的算法創(chuàng)新能力。從早期的CPM系列到MiniCPM,他們通過(guò)MoE(混合專家)架構(gòu)、稀疏化計(jì)算等技術(shù),實(shí)現(xiàn)了模型的“瘦身”與“增肌”。

在這個(gè)追求小而更強(qiáng)的過(guò)程中,面壁不是單純做應(yīng)用調(diào)優(yōu),也不是只在模型之上疊一層 Prompt 或 Agent 框架,而是深入到訓(xùn)推框架、數(shù)據(jù)治理、結(jié)構(gòu)優(yōu)化等大模型全技術(shù)鏈路。

從訓(xùn)練框架BMTrain,到后來(lái)的稀疏架構(gòu)InfLLM、低比特量化方法BitCPM、推理框架CPM.cu和ArkInfer,這些組件都集成在 MiniCPM 系列(尤其是 MiniCPM-4)中,形成了體系化的高效端側(cè)大模型方案,而且指向了同一個(gè)方向:不是僅僅“使用”現(xiàn)成大模型,而是在重新組織和加速“模型如何被訓(xùn)練、被部署、被優(yōu)化”的過(guò)程。

“抽象起來(lái),大模型技術(shù)就兩條線”,韓旭分析,“數(shù)據(jù)決定模型能力,芯片和架構(gòu)決定模型效率,前者是高質(zhì)量的數(shù)據(jù)治理,后者是高度軟硬協(xié)同的架構(gòu)設(shè)計(jì)與優(yōu)化。”

面壁與DeepSeek被業(yè)內(nèi)稱為兩家“國(guó)內(nèi)最會(huì)做架構(gòu)改進(jìn)的公司",但兩者的戰(zhàn)場(chǎng)截然不同:DeepSeek緊抓云側(cè)大算力場(chǎng)景,在萬(wàn)卡集群上榨干算力價(jià)值;面壁則聚焦單張端側(cè)芯片,在功耗、散熱、訪存帶寬的嚴(yán)苛約束下追求極致效率。很多大模型企業(yè),采用保守的傳統(tǒng)架構(gòu),通過(guò)同一批數(shù)據(jù)訓(xùn)練多個(gè)尺寸模型;面壁則針對(duì)端側(cè)芯片特性,做了大量稀疏計(jì)算、近存計(jì)算等底層優(yōu)化。

其次,是數(shù)據(jù)與訓(xùn)練方法的獨(dú)特性: 面壁是行業(yè)內(nèi)最早提出“數(shù)據(jù)質(zhì)量?jī)?yōu)于數(shù)據(jù)規(guī)模”的團(tuán)隊(duì)之一。他們不盲目堆砌數(shù)據(jù),而是通過(guò)數(shù)據(jù)合成、清洗和蒸餾技術(shù),構(gòu)建了高信息密度的訓(xùn)練集。

韓旭曾談起,早期團(tuán)隊(duì)在 ChatGPT 爆發(fā)前后,就已經(jīng)做了大量指令微調(diào)和數(shù)據(jù)合成探索,也開(kāi)源了很多有影響力的數(shù)據(jù)集,只是當(dāng)時(shí)還沒(méi)有把它單獨(dú)作為一個(gè)顯性技術(shù)點(diǎn)提出來(lái)。也就是說(shuō),他們?cè)缙趯?duì)于 模型對(duì)齊、數(shù)據(jù)合成、蒸餾、用大模型清洗和擴(kuò)展訓(xùn)練數(shù)據(jù)這些方法,十分熟悉。

而在此后,MiniCPM 系列相關(guān)產(chǎn)品里,高質(zhì)量數(shù)據(jù)樣本混入、多階段數(shù)據(jù)精細(xì)安排、用大模型輔助數(shù)據(jù)構(gòu)造等做法,已經(jīng)成為其“小模型高性能”路線的一部分。

最后,也是最強(qiáng)悍的是,面壁科技具備對(duì)底層硬件的極致優(yōu)化能力。

這是面壁最獨(dú)特的“掃地僧”屬性。

在采訪中,面壁的受訪人透露,幾乎所有國(guó)產(chǎn)芯片廠商在遇到軟件棧優(yōu)化難題時(shí),都會(huì)直接找到面壁。面壁不僅是技術(shù)使用者,更是技術(shù)驗(yàn)證者與構(gòu)建者。他們參與了協(xié)助華為昇騰、鯤鵬,以及寒武紀(jì)、天數(shù)智芯等國(guó)產(chǎn)芯片構(gòu)建和優(yōu)化軟件棧,甚至能在沒(méi)有GPU的情況下,利用華為鯤鵬CPU實(shí)現(xiàn)大模型推理。

也就是說(shuō),硬件企業(yè)在自家的軟件團(tuán)隊(duì)之外,還經(jīng)常會(huì)找來(lái)面壁智能做外腦。這樣的結(jié)果,是面壁智能與國(guó)產(chǎn)硬件企業(yè)有了極其密切的聯(lián)系。

一個(gè)鮮明的例子, 是我們前面提到的,2026年1月,MiniCPM-o 4.5發(fā)布。具有標(biāo)志性的意義的是,該模型發(fā)布當(dāng)天即完成對(duì)六大主流AI芯片(天數(shù)智芯、華為昇騰、平頭哥、海光、沐曦等)的適配與開(kāi)源上線,實(shí)現(xiàn)端到端推理性能全面超越各芯片原生方案。如果沒(méi)有和硬件廠家長(zhǎng)期的配合,一個(gè)端側(cè)模型極少能得到這樣的各家寵愛(ài)。

當(dāng)然,這也是被逼出來(lái)的。在面壁最早的公司化階段,做 Infra 不是錦上添花,而是生存所迫。當(dāng)時(shí)的各種問(wèn)題,如算力不足、國(guó)產(chǎn)芯片不成熟、現(xiàn)成框架不完善,這“逼著我們必須往下走”。



也正因此,團(tuán)隊(duì)后來(lái)逐漸發(fā)展出對(duì)芯片、推理框架和底層軟件棧的較強(qiáng)適配與優(yōu)化能力。面壁今年也在不斷解決一個(gè)現(xiàn)實(shí)問(wèn)題:端側(cè)芯片是碎片化的,如果不能在算法和硬件之間實(shí)現(xiàn)解耦、代碼復(fù)用和跨平臺(tái)高效部署,模型再?gòu)?qiáng)也很難真正落地。ArkInfer 這類(lèi)技術(shù),實(shí)際上解決的就是“一次開(kāi)發(fā),處處運(yùn)行”的問(wèn)題。

這意味著,面壁并不只是技術(shù)使用者,它也是技術(shù)驗(yàn)證者和構(gòu)建者。

在很多公司里,模型結(jié)構(gòu)、數(shù)據(jù)訓(xùn)練、硬件部署、商業(yè)化應(yīng)用常常是彼此分開(kāi)的:有人只做模型,有人只做工程,有人只管賣(mài)產(chǎn)品。而面壁的罕見(jiàn)之處,在于它把這些能力壓進(jìn)了同一個(gè)組織之中,使得其人才的能力密度極高,正因?yàn)槿绱耍挠绊懥Σ⒉皇紫润w現(xiàn)在用戶規(guī)模和市場(chǎng)聲量上,而體現(xiàn)在它為什么能持續(xù)穿越周期上。

同樣值得關(guān)注的是面壁的“前進(jìn)四”人才培養(yǎng)機(jī)制。

面壁內(nèi)部將研發(fā)團(tuán)隊(duì)視為一個(gè)“人才培養(yǎng)平臺(tái)”——首席科學(xué)家劉知遠(yuǎn)和韓旭本身就是清華教師,他們?cè)诿姹诘纳矸菔恰皫俗銮把靥剿鳌保囵B(yǎng)最頂尖的大模型人才,那些技術(shù)棧成熟、能獨(dú)當(dāng)一面的人才,會(huì)被輸送到各團(tuán)隊(duì)領(lǐng)導(dǎo)前沿項(xiàng)目同時(shí)培養(yǎng)更多人才。這種產(chǎn)學(xué)研深度融合的工作機(jī)制有效解決了大模型前沿技術(shù)高速演進(jìn)與產(chǎn)業(yè)化需求之間的經(jīng)典矛盾,也就是我們說(shuō)的“始終有新鮮血液進(jìn)來(lái)”的問(wèn)題。因此面壁智能的一大優(yōu)勢(shì)是原生的高水平人才培養(yǎng)能力。

從 GPT-3 的“大力出奇跡”,到 DeepSeek 等路線所代表的“優(yōu)質(zhì)、低成本訓(xùn)練”,再到智能體時(shí)代,面壁看到的從來(lái)不是一個(gè)固定答案,而是一連串問(wèn)題定義方式的變化。面壁之所以能歸入今天所謂“AGI 五小龍”的討論范圍,不是因?yàn)樗蝗蛔兏哒{(diào)了,而是因?yàn)樾袠I(yè)逐漸意識(shí)到:當(dāng)大模型競(jìng)爭(zhēng)從“誰(shuí)更大”轉(zhuǎn)向“誰(shuí)更高效、誰(shuí)更可落地、誰(shuí)更適合分發(fā)”時(shí),面壁這類(lèi)公司的價(jià)值反而會(huì)越來(lái)越明顯。

正是這種“以一當(dāng)十”的技術(shù)密度,賦予了面壁穿越周期的能力。

04

端側(cè)模型的光明未來(lái)

在大部分AGI企業(yè)還在被反復(fù)追問(wèn)“未來(lái)商業(yè)的終局模式到底是什么”的時(shí)候,面壁智能的商業(yè)化圖景,顯得既實(shí)在,又有很高的天花板。

首先,是端側(cè)路線中的“端”的價(jià)值。

和很多新的AI能力都處于“靈魂找不到肉體”的迷茫中不同,“端側(cè)”一開(kāi)始就決定了面壁智能的商業(yè)化落地道路很清晰。

這是因?yàn)椋瑳](méi)有一個(gè)清晰功能定位的“端側(cè)”,是根本不會(huì)被制造出來(lái)的。

汽車(chē)就是最大的端側(cè)設(shè)備之一。以谷歌的Waymo為例,所有的自動(dòng)駕駛能力都建立在端側(cè)之上,只有極少數(shù)非駕駛場(chǎng)景中會(huì)用到云側(cè),這也改變了人們對(duì)端側(cè)“弱”的刻板印象,告訴人們:端側(cè)也可以很強(qiáng)大。

在汽車(chē)領(lǐng)域,MiniCPM系列先后搭載于長(zhǎng)安馬自達(dá)EZ-60和吉利銀河M9等量產(chǎn)車(chē)型,合作方覆蓋吉利、長(zhǎng)安、大眾、廣汽、長(zhǎng)城、極氪等頭部車(chē)企。2025年,面壁將汽車(chē)業(yè)務(wù)線提升為一級(jí)組織,直接向CEO李大海匯報(bào)。

在具身智能方向,面壁與樂(lè)聚機(jī)器人聯(lián)合研發(fā)的人形機(jī)器人已深度集成MiniCPM-V 4.5端側(cè)多模態(tài)模型,可實(shí)現(xiàn)在嘈雜環(huán)境中的實(shí)時(shí)視覺(jué)理解與主動(dòng)決策。

我們能接觸到的一切“端”,如手機(jī)、PC、車(chē)、可穿戴設(shè)備、邊緣設(shè)備、具身智能、智能駕駛,都在渴求更大的端側(cè)能力——這些終端場(chǎng)景的共同特點(diǎn),是對(duì)成本、時(shí)延、響應(yīng)速度、私密性和可持續(xù)運(yùn)行有現(xiàn)實(shí)要求。云側(cè)大模型把能力集中在 API 上,適合訓(xùn)練和統(tǒng)一調(diào)度,但成本高、調(diào)用重、依賴網(wǎng)絡(luò),也天然不適合所有場(chǎng)景。相比之下,端側(cè)模型如果足夠強(qiáng),就意味著能力可以被“分布化”地放置到各類(lèi)設(shè)備之中:成本結(jié)構(gòu)被重構(gòu),調(diào)用門(mén)檻下降,場(chǎng)景適配變得更靈活。

除了傳統(tǒng)意義上的硬件端側(cè),“龍蝦”、“愛(ài)馬仕”等智能體調(diào)度框架,也極大的拉升了面壁智能的發(fā)展想像的天花板。

所有的人都在養(yǎng)蝦或養(yǎng)馬,但也都困惑于安全、成本、易用性等問(wèn)題上,而在面壁智能的布局中,這些已經(jīng)有了答案——在智能體時(shí)代,端側(cè)模型的意義遠(yuǎn)不止“沒(méi)有網(wǎng)絡(luò)時(shí)的平替”,它指向三個(gè)“協(xié)同”:端云協(xié)同、軟硬協(xié)同、數(shù)模協(xié)同。端云協(xié)同解決的是成本與隱私的平衡;軟硬協(xié)同意味著模型設(shè)計(jì)與芯片發(fā)展的緊密耦合;數(shù)模協(xié)同則指向記憶管理,面壁聯(lián)同清華開(kāi)源的UltraRAG框架,就試圖解決智能體“自己養(yǎng)蝦養(yǎng)出bug”的混亂現(xiàn)狀,讓數(shù)據(jù)與模型能力形成雙向迭代。

更深層的變革還藏在于AI能力的分發(fā)方式。如果未來(lái)終端芯片持續(xù)進(jìn)化,甚至可能出現(xiàn)ASIC化的端側(cè)AI芯片——將大模型能力直接“焊”入硬件,徹底擺脫對(duì)云的依賴。

“如果走到那一天,不存在云這個(gè)概念,去中心化就是終局,”韓旭說(shuō),“大家都有自己的AI infa,不再依賴中心化的集群在部署給所有人服務(wù)。”

這不僅是技術(shù)的變革,更是AI和人關(guān)系的一種重塑,對(duì)此,面壁智能想的很遠(yuǎn)很遠(yuǎn)——面壁智能創(chuàng)始人劉知遠(yuǎn)提出的“密度定律”和“摩爾定律”既是兩個(gè)時(shí)代的產(chǎn)物,又同樣對(duì)端側(cè)算力和端側(cè)模型能力的發(fā)展有驚人的預(yù)測(cè)洞察——

“摩爾定律”下,算力分為了超算、云算與端算,其中端算是云算的十四倍(IDC數(shù)據(jù)顯示);同樣,“密度定律”下,根據(jù)智力的密度,大模型智能也將分為超級(jí)智能(AI for Science,讓 AI 像人類(lèi)最強(qiáng)大腦科學(xué)家們一樣解決最難的科學(xué)問(wèn)題)、云上智能與端側(cè)智能。

如果把兩個(gè)定律對(duì)照起來(lái)看,我們不難得出這樣的結(jié)論——未來(lái)大模型智能的中最耀眼的可能屬于超級(jí)智能,但從廣度和滲透率上,搭載端側(cè)大模型的設(shè)備量可能是現(xiàn)在手機(jī)保有量的幾倍、幾十倍,像面壁智能這樣建立起端側(cè)護(hù)城河的企業(yè),未來(lái)的商業(yè)天花板是極高的。

05

結(jié)語(yǔ)

在一個(gè)被參數(shù)規(guī)模與資本驅(qū)動(dòng)的時(shí)代,面壁智能提供了一種不同的參照系。

它的價(jià)值,不在于是否擁有最大的模型,也不在于是否擁有最多的用戶,而在于:它持續(xù)在回答一個(gè)更基礎(chǔ)的問(wèn)題——模型究竟如何變強(qiáng)?

在“大算力+大數(shù)據(jù)”的暴力美學(xué)之外,面壁智能證明了“高智能密度+極致工程化”的可行性。它像一個(gè)在沙漠中尋找寶藏的智者,不靠人海戰(zhàn)術(shù),而是依靠精準(zhǔn)的羅盤(pán)(技術(shù)判斷)和高效的行軍(工程能力)。

通往AGI的路線,我們需要探索更多的可能性。面壁智能走了一條看上去人更少,但難度更高甚至是最高的路徑。這或許就是它最終成功的終局模式的前提:在效率的極限處,看見(jiàn)未來(lái)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
吉利全新車(chē)型官宣,硬剛比亞迪!

吉利全新車(chē)型官宣,硬剛比亞迪!

電動(dòng)內(nèi)參
2026-06-16 17:57:49
紅棗千萬(wàn)別隨便吃!醫(yī)生提醒:以后吃紅棗時(shí),一定要多注意了

紅棗千萬(wàn)別隨便吃!醫(yī)生提醒:以后吃紅棗時(shí),一定要多注意了

水大叔
2026-06-15 19:15:05
最大利空消失,金屬要王者歸來(lái)了?

最大利空消失,金屬要王者歸來(lái)了?

生活新鮮市
2026-06-16 18:35:38
開(kāi)眼了!泰國(guó)帕公主葬禮紀(jì)實(shí),人坐在棺槨里,據(jù)說(shuō)是婆羅門(mén)教傳統(tǒng)

開(kāi)眼了!泰國(guó)帕公主葬禮紀(jì)實(shí),人坐在棺槨里,據(jù)說(shuō)是婆羅門(mén)教傳統(tǒng)

魔都姐姐雜談
2026-06-16 12:27:36
26人全靠歸化,非洲雄獅被打趴,世界杯或造驚天大冷,劍指西班牙

26人全靠歸化,非洲雄獅被打趴,世界杯或造驚天大冷,劍指西班牙

流史歲月
2026-06-16 17:00:06
正式官宣!確認(rèn)是張藝謀

正式官宣!確認(rèn)是張藝謀

吉刻新聞
2026-06-14 18:04:54
380頭鯨、8000年銅礦:美國(guó)時(shí)間膠囊里的50州

380頭鯨、8000年銅礦:美國(guó)時(shí)間膠囊里的50州

算力游俠
2026-06-16 01:49:39
巴西重大噩耗!內(nèi)馬爾二級(jí)拉傷恢復(fù)緩慢,將缺席全部的小組賽

巴西重大噩耗!內(nèi)馬爾二級(jí)拉傷恢復(fù)緩慢,將缺席全部的小組賽

夜白侃球
2026-06-16 10:20:17
發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:當(dāng)看到一個(gè)女人手上沒(méi)有手鐲,脖子上沒(méi)有項(xiàng)鏈,能確定她在這3個(gè)方面是非常“特別”的人......

發(fā)現(xiàn)一個(gè)奇怪現(xiàn)象:當(dāng)看到一個(gè)女人手上沒(méi)有手鐲,脖子上沒(méi)有項(xiàng)鏈,能確定她在這3個(gè)方面是非常“特別”的人......

背包旅行
2026-06-03 11:43:15
數(shù)百名醫(yī)生已證實(shí):輔酶Q10的真相,最好花點(diǎn)時(shí)間看看

數(shù)百名醫(yī)生已證實(shí):輔酶Q10的真相,最好花點(diǎn)時(shí)間看看

健康科普365
2026-06-15 20:40:11
呂麗君罕曬母子合照,16歲兒子比她高一頭,長(zhǎng)得不像父親劉鑾雄

呂麗君罕曬母子合照,16歲兒子比她高一頭,長(zhǎng)得不像父親劉鑾雄

眼底星碎
2026-06-16 23:53:42
成員國(guó)經(jīng)濟(jì)總量不及中國(guó)一個(gè)省,美媒反思:G7還有存在意義嗎?

成員國(guó)經(jīng)濟(jì)總量不及中國(guó)一個(gè)省,美媒反思:G7還有存在意義嗎?

讓心靈得以棲息
2026-06-16 07:11:41
太離譜!老師用學(xué)校水洗私家車(chē),市民拍照舉報(bào),反遭網(wǎng)友集體怒斥

太離譜!老師用學(xué)校水洗私家車(chē),市民拍照舉報(bào),反遭網(wǎng)友集體怒斥

譚談社會(huì)
2026-06-15 21:13:48
只看人口總量,就無(wú)法解釋“8億人口限制生,14億人口鼓勵(lì)生”

只看人口總量,就無(wú)法解釋“8億人口限制生,14億人口鼓勵(lì)生”

何亞福
2026-05-25 19:46:53
國(guó)際足聯(lián)主席因凡蒂諾賽后走進(jìn)伊朗隊(duì)更衣室,“你們比一切困難都更強(qiáng)大”

國(guó)際足聯(lián)主席因凡蒂諾賽后走進(jìn)伊朗隊(duì)更衣室,“你們比一切困難都更強(qiáng)大”

上觀新聞
2026-06-16 15:54:33
《狠家伙》是奔著票房冠軍去的,王寶強(qiáng)或成票房最高古惑仔導(dǎo)演

《狠家伙》是奔著票房冠軍去的,王寶強(qiáng)或成票房最高古惑仔導(dǎo)演

娛樂(lè)圈筆娛君
2026-06-16 14:03:00
央視怒批,目不識(shí)丁,洋相百出,絕望文盲再翻車(chē),馮遠(yuǎn)征又說(shuō)對(duì)了

央視怒批,目不識(shí)丁,洋相百出,絕望文盲再翻車(chē),馮遠(yuǎn)征又說(shuō)對(duì)了

墨印齋
2026-05-29 13:20:21
百姓躺平擺爛,食稅群體怎么辦?

百姓躺平擺爛,食稅群體怎么辦?

律法刑道
2026-06-03 09:30:48
金價(jià)上下亂跳!一金店老板娘1150元高位囤金割肉虧“1.5套房”,現(xiàn)在又滿倉(cāng)囤了1公斤多;有人“炒短線”,金條買(mǎi)了5天就賣(mài)掉

金價(jià)上下亂跳!一金店老板娘1150元高位囤金割肉虧“1.5套房”,現(xiàn)在又滿倉(cāng)囤了1公斤多;有人“炒短線”,金條買(mǎi)了5天就賣(mài)掉

每日經(jīng)濟(jì)新聞
2026-06-16 19:57:18
雷軍被罵東施效顰!都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車(chē)

雷軍被罵東施效顰!都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車(chē)

譚談社會(huì)
2026-06-16 18:34:43
2026-06-17 04:00:49
胡說(shuō)成理 incentive-icons
胡說(shuō)成理
一個(gè)記錄胡喆和他的朋友們,關(guān)于智能時(shí)代和智能時(shí)代的生意邏輯的小天地。
227文章數(shù) 30關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權(quán)

頭條要聞

四川警方私扣酒商159瓶茅臺(tái) 酒放庫(kù)房3年有的已成空瓶

頭條要聞

四川警方私扣酒商159瓶茅臺(tái) 酒放庫(kù)房3年有的已成空瓶

體育要聞

身價(jià)5萬(wàn)的門(mén)將,擋住了12億歐元的狂轟濫炸

娛樂(lè)要聞

吳文忻葬禮:2個(gè)女兒在靈堂內(nèi)茫然失措

財(cái)經(jīng)要聞

從123美元到62美元 白銀價(jià)格上演過(guò)山車(chē)

汽車(chē)要聞

三車(chē)齊發(fā) 零跑全新C10/C11/C16上市12.58萬(wàn)元起

態(tài)度原創(chuàng)

家居
健康
親子
房產(chǎn)
公開(kāi)課

家居要聞

綠意盎然 自然之境

粽子一次吃多少不傷胃?專家講解

親子要聞

童裝巨頭轉(zhuǎn)型背后:一代人有一代人品牌,育兒觀正重塑市場(chǎng)

房產(chǎn)要聞

最新房?jī)r(jià):海口、三亞;新房、二手房全線下跌!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版