網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不聯(lián)網(wǎng)的AI，殺瘋了...

2026-02-24 13:59:10　來(lái)源: 思哲與創(chuàng)富

浙江舉報(bào)

分享至

最近科技圈和資本市場(chǎng)同時(shí)被一個(gè)叫做chatjimmy.ai的新物種刷屏了，初次徹底震驚了我。

在沒(méi)有英偉達(dá)高性能AI芯片的加持，這家硅谷初創(chuàng)公司Taalas就讓旗下大模型跑出了每秒1.5萬(wàn)到1.7萬(wàn)個(gè)Token。

這是什么概念？傳統(tǒng)的大模型每秒是跑一到兩千的Token，速度是它的1/10不到，

人話說(shuō)就是，你把一道極其復(fù)雜的數(shù)學(xué)題發(fā)過(guò)去，傳統(tǒng)的AI模型還擱那一個(gè)勁思考呢，而它下一秒就羅列了好幾種解法給你看：

這個(gè)升級(jí)幅度，就好比是從算盤(pán)升級(jí)到計(jì)算器，又是一個(gè)跨越式的進(jìn)步。

那這個(gè)技術(shù)邏輯是怎么實(shí)現(xiàn)的呢？

最大的不同就是它把大模型的幾十億參數(shù)直接刻入硅片里面，

過(guò)去的芯片算力很強(qiáng)，但大模型和芯片之間數(shù)據(jù)需要傳輸，所以要借助HBM（顯存）來(lái)搬運(yùn)，甚至可以說(shuō)90%的電量和時(shí)間都浪費(fèi)在了路上，

好比一個(gè)天才面對(duì)一個(gè)復(fù)雜問(wèn)題，一秒鐘就給出了答案，但寄郵件卻耗費(fèi)了大量的時(shí)間。

而現(xiàn)在大模型就內(nèi)嵌在芯片自身，它直接拋棄了昂貴的HBM顯存，數(shù)據(jù)不需要搬運(yùn)了，因?yàn)椤坝?jì)算即存儲(chǔ)，存儲(chǔ)即計(jì)算”，于是一下就節(jié)省出大量的資源。

這就和淘寶出來(lái)后，直接對(duì)接工廠發(fā)貨，省去了實(shí)體店、中間商、庫(kù)存一樣。

那問(wèn)題來(lái)了，如果要把大模型繪制在芯片上，模型豈不是被定死，那一旦老的模型失效要迭代，芯片豈不是就廢了？

這也是過(guò)去大家都不敢這么搞的原因，因?yàn)槟Ｐ偷炝耍覍ｉT繪制一個(gè)大模型芯片的成本也很高，動(dòng)輒上億美金。

但如今隨著Transformer語(yǔ)言的普及，大語(yǔ)言模型越來(lái)越成熟，那么這種商業(yè)路徑成了可能。

而這次Taalas就是做了一個(gè)全自動(dòng)的硅片編譯器，可以實(shí)現(xiàn)自動(dòng)給芯片電路編碼，從而大幅提高效率降低成本。

效率方面，Taalas宣稱把“大模型”轉(zhuǎn)化為“定制芯片”的周期，可以從過(guò)去的一年降低到兩個(gè)月。

成本方面，由于它拋棄了昂貴的HBM芯片，加上GPU用的普遍是H100芯片，如果換到大模型專用芯片上，只需要使用價(jià)格僅為1/20的6nm芯片就可以搞定運(yùn)算。

這種情況即便是出了新的更強(qiáng)大模型，它也可以直接報(bào)廢掉，換一個(gè)新的芯片就完事。

另外，估計(jì)有人也會(huì)好奇，這種綁定芯片的大模型，會(huì)不會(huì)因?yàn)闆](méi)法更新迭代，導(dǎo)致知識(shí)永遠(yuǎn)停留在出廠那一天？

實(shí)際上大模型刻入芯片，只是模型本身的迭代不能進(jìn)行了，就好比一個(gè)IQ180的人不能繼續(xù)進(jìn)化到IQ200，但它的邏輯推理能力，知識(shí)檢索能力依舊頂級(jí)。

而且刻入芯片之后，訪問(wèn)大模型雖然不需要聯(lián)網(wǎng)了，但它本身依然是具有聯(lián)網(wǎng)能力的，依然可以找到最新的信息去學(xué)習(xí)，分析并且解決。

這就導(dǎo)致面對(duì)緊急突發(fā)狀況的時(shí)候，它的響應(yīng)速度遠(yuǎn)超過(guò)去的大模型，有更好的使用場(chǎng)景。

1、智能駕駛領(lǐng)域，當(dāng)汽車在馬路上突發(fā)緊急事件，有些復(fù)雜的問(wèn)題根本無(wú)法解決~

比如前面臨時(shí)修路了，原本的實(shí)線被磨掉了，交警拿著指揮棒示意你逆行繞過(guò)障礙物，傳統(tǒng)的自動(dòng)駕駛芯片擅長(zhǎng)的是快速識(shí)別圖像，但對(duì)這種需要快速邏輯推理的場(chǎng)景是無(wú)能無(wú)力的。

這種情況它根本等不起把數(shù)據(jù)打包傳給阿里云、亞馬遜等云端大模型來(lái)反饋結(jié)果，它需要的是和人類一樣，低于1毫秒的“本能邏輯推理反射”。

2、高頻量化領(lǐng)域，可以在宏觀對(duì)沖金融里開(kāi)“外掛”

在處理宏觀新聞、財(cái)報(bào)、非農(nóng)數(shù)據(jù)時(shí)，美聯(lián)儲(chǔ)鮑威爾的講話文稿剛一發(fā)布，芯片就能以17000Token/秒的速度，在零點(diǎn)幾毫秒內(nèi)瞬間“吞下”幾萬(wàn)字的報(bào)告，立刻得出“鷹派/鴿派”的定性，并轉(zhuǎn)化為做多/做空大宗商品或股指期貨的信號(hào)。

3、軍工領(lǐng)域，這種無(wú)需聯(lián)網(wǎng)、固化在物理硬件里的高智商芯片，是武器系統(tǒng)唯一的最佳選擇。

哪怕是處在斷網(wǎng)的“信息孤島”，它還是能憑著出廠時(shí)被賦予的龐大參數(shù)，獨(dú)立進(jìn)行極速的戰(zhàn)術(shù)分析和保密決策。

...................

當(dāng)然，我們也要關(guān)注這個(gè)背后長(zhǎng)遠(yuǎn)看一些潛在的利空，

最近一年，以三星、美光，SK海力士為首的三大HBM存儲(chǔ)巨頭股價(jià)狂飆，底層邏輯都靠一個(gè)支撐：“AI的盡頭是算力，算力的盡頭是HBM”。

如果chatjimmy.ai這種“無(wú)HBM化”的芯片普及，甚至形成燎原之勢(shì)，對(duì)這三大巨頭絕對(duì)不僅僅是“有影響”，而是巨大的估值邏輯破壞。

另一方面，以前云計(jì)算借助AI推理全面收取過(guò)路費(fèi)的模式，也可能會(huì)被打上一個(gè)問(wèn)號(hào)。

畢竟如果人人的手機(jī)、汽車都有這種AI大模型芯片，絕大多數(shù)日常問(wèn)題在本地0.1秒就免費(fèi)解決了。

真正需要傳到云端、花錢去求ChatGPT或Gemini這種復(fù)雜模型來(lái)解答的流量，可能連20%都不到。

不過(guò)對(duì)于資金布局在這些方向的人來(lái)說(shuō)，明白危機(jī)的同時(shí)，也別太過(guò)于焦慮了。

因?yàn)槎唐趤?lái)說(shuō)它能寫(xiě)入的模型水平還是有限的，也就是目前僅限幾十億參數(shù)的初中生智商水平，距離真正頂級(jí)，動(dòng)輒上百萬(wàn)億參數(shù)模型還為之尚遠(yuǎn)。

也就是它五到十年內(nèi)的使用場(chǎng)景更多還只是在一些特定的領(lǐng)域，尤其是對(duì)于一些對(duì)“斷網(wǎng)、低延遲、絕對(duì)隱私”有極端要求的垂直領(lǐng)域——比如我前面提到的智能駕駛、軍工系統(tǒng)、或者是金融量化高頻交易。

但拉長(zhǎng)來(lái)看，技術(shù)進(jìn)步的速度確實(shí)是難以估量的，誰(shuí)又知道哪天這些頂級(jí)模型寫(xiě)入芯片之后，每個(gè)人的設(shè)備終端都擁有了頂級(jí)離線AI，世界又會(huì)演變成什么夸張的模樣。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.