最近科技圈和資本市場(chǎng)同時(shí)被一個(gè)叫做chatjimmy.ai的新物種刷屏了,初次徹底震驚了我。
在沒(méi)有英偉達(dá)高性能AI芯片的加持,這家硅谷初創(chuàng)公司Taalas就讓旗下大模型跑出了每秒1.5萬(wàn)到1.7萬(wàn)個(gè)Token。
這是什么概念?傳統(tǒng)的大模型每秒是跑一到兩千的Token,速度是它的1/10不到,
人話說(shuō)就是,你把一道極其復(fù)雜的數(shù)學(xué)題發(fā)過(guò)去,傳統(tǒng)的AI模型還擱那一個(gè)勁思考呢,而它下一秒就羅列了好幾種解法給你看:
![]()
這個(gè)升級(jí)幅度,就好比是從算盤(pán)升級(jí)到計(jì)算器, 又是一個(gè)跨越式的進(jìn)步。
那這個(gè)技術(shù)邏輯是怎么實(shí)現(xiàn)的呢?
最大的不同就是它把大模型的幾十億參數(shù)直接刻入硅片里面,
過(guò)去的芯片算力很強(qiáng),但大模型和芯片之間數(shù)據(jù)需要傳輸,所以要借助HBM(顯存)來(lái)搬運(yùn),甚至可以說(shuō)90%的電量和時(shí)間都浪費(fèi)在了路上,
好比一個(gè)天才面對(duì)一個(gè)復(fù)雜問(wèn)題,一秒鐘就給出了答案,但寄郵件卻耗費(fèi)了大量的時(shí)間。
而現(xiàn)在大模型就內(nèi)嵌在芯片自身,它直接拋棄了昂貴的HBM顯存,數(shù)據(jù)不需要搬運(yùn)了,因?yàn)椤坝?jì)算即存儲(chǔ),存儲(chǔ)即計(jì)算”,于是一下就節(jié)省出大量的資源。
這就和淘寶出來(lái)后,直接對(duì)接工廠發(fā)貨,省去了實(shí)體店、中間商、庫(kù)存一樣。
那問(wèn)題來(lái)了,如果要把大模型繪制在芯片上,模型豈不是被定死,那一旦老的模型失效要迭代,芯片豈不是就廢了?
這也是過(guò)去大家都不敢這么搞的原因,因?yàn)槟P偷炝耍覍iT繪制一個(gè)大模型芯片的成本也很高,動(dòng)輒上億美金。
但如今隨著Transformer語(yǔ)言的普及,大語(yǔ)言模型越來(lái)越成熟,那么這種商業(yè)路徑成了可能。
而這次Taalas就是做了一個(gè)全自動(dòng)的硅片編譯器,可以實(shí)現(xiàn)自動(dòng)給芯片電路編碼,從而大幅提高效率降低成本。
效率方面,Taalas宣稱把“大模型”轉(zhuǎn)化為“定制芯片”的周期,可以從過(guò)去的一年降低到兩個(gè)月。
成本方面,由于它拋棄了昂貴的HBM芯片,加上GPU用的普遍是H100芯片,如果換到大模型專用芯片上,只需要使用價(jià)格僅為1/20的6nm芯片就可以搞定運(yùn)算。
這種情況即便是出了新的更強(qiáng)大模型,它也可以直接報(bào)廢掉,換一個(gè)新的芯片就完事。
另外,估計(jì)有人也會(huì)好奇,這種綁定芯片的大模型,會(huì)不會(huì)因?yàn)闆](méi)法更新迭代,導(dǎo)致知識(shí)永遠(yuǎn)停留在出廠那一天?
實(shí)際上大模型刻入芯片,只是模型本身的迭代不能進(jìn)行了,就好比一個(gè)IQ180的人不能繼續(xù)進(jìn)化到IQ200,但它的邏輯推理能力,知識(shí)檢索能力依舊頂級(jí)。
而且刻入芯片之后,訪問(wèn)大模型雖然不需要聯(lián)網(wǎng)了,但它本身依然是具有聯(lián)網(wǎng)能力的,依然可以找到最新的信息去學(xué)習(xí),分析并且解決。
這就導(dǎo)致面對(duì)緊急突發(fā)狀況的時(shí)候,它的響應(yīng)速度遠(yuǎn)超過(guò)去的大模型,有更好的使用場(chǎng)景。
1、智能駕駛領(lǐng)域,當(dāng)汽車在馬路上突發(fā)緊急事件,有些復(fù)雜的問(wèn)題根本無(wú)法解決~
比如前面臨時(shí)修路了,原本的實(shí)線被磨掉了,交警拿著指揮棒示意你逆行繞過(guò)障礙物,傳統(tǒng)的自動(dòng)駕駛芯片擅長(zhǎng)的是快速識(shí)別圖像,但對(duì)這種需要快速邏輯推理的場(chǎng)景是無(wú)能無(wú)力的。
這種情況它根本等不起把數(shù)據(jù)打包傳給阿里云、亞馬遜等云端大模型來(lái)反饋結(jié)果,它需要的是和人類一樣,低于1毫秒的“本能邏輯推理反射”。
2、高頻量化領(lǐng)域,可以在宏觀對(duì)沖金融里開(kāi)“外掛”
在處理宏觀新聞、財(cái)報(bào)、非農(nóng)數(shù)據(jù)時(shí),美聯(lián)儲(chǔ)鮑威爾的講話文稿剛一發(fā)布,芯片就能以17000Token/秒的速度,在零點(diǎn)幾毫秒內(nèi)瞬間“吞下”幾萬(wàn)字的報(bào)告,立刻得出“鷹派/鴿派”的定性,并轉(zhuǎn)化為做多/做空大宗商品或股指期貨的信號(hào)。
3、軍工領(lǐng)域,這種無(wú)需聯(lián)網(wǎng)、固化在物理硬件里的高智商芯片,是武器系統(tǒng)唯一的最佳選擇。
哪怕是處在斷網(wǎng)的“信息孤島”,它還是能憑著出廠時(shí)被賦予的龐大參數(shù),獨(dú)立進(jìn)行極速的戰(zhàn)術(shù)分析和保密決策。
...................
當(dāng)然,我們也要關(guān)注這個(gè)背后長(zhǎng)遠(yuǎn)看一些潛在的利空,
最近一年,以三星、美光,SK海力士為首的三大HBM存儲(chǔ)巨頭股價(jià)狂飆,底層邏輯都靠一個(gè)支撐:“AI的盡頭是算力,算力的盡頭是HBM”。
如果chatjimmy.ai這種“無(wú)HBM化”的芯片普及,甚至形成燎原之勢(shì),對(duì)這三大巨頭絕對(duì)不僅僅是“有影響”,而是巨大的估值邏輯破壞。
另一方面,以前云計(jì)算借助AI推理全面收取過(guò)路費(fèi)的模式,也可能會(huì)被打上一個(gè)問(wèn)號(hào)。
畢竟如果人人的手機(jī)、汽車都有這種AI大模型芯片,絕大多數(shù)日常問(wèn)題在本地0.1秒就免費(fèi)解決了。
真正需要傳到云端、花錢去求ChatGPT或Gemini這種復(fù)雜模型來(lái)解答的流量,可能連20%都不到。
不過(guò)對(duì)于資金布局在這些方向的人來(lái)說(shuō),明白危機(jī)的同時(shí),也別太過(guò)于焦慮了。
因?yàn)槎唐趤?lái)說(shuō)它能寫(xiě)入的模型水平還是有限的,也就是目前僅限幾十億參數(shù)的初中生智商水平,距離真正頂級(jí),動(dòng)輒上百萬(wàn)億參數(shù)模型還為之尚遠(yuǎn)。
也就是它五到十年內(nèi)的使用場(chǎng)景更多還只是在一些特定的領(lǐng)域,尤其是對(duì)于一些對(duì)“斷網(wǎng)、低延遲、絕對(duì)隱私”有極端要求的垂直領(lǐng)域——比如我前面提到的智能駕駛、軍工系統(tǒng)、或者是金融量化高頻交易。
但拉長(zhǎng)來(lái)看,技術(shù)進(jìn)步的速度確實(shí)是難以估量的,誰(shuí)又知道哪天這些頂級(jí)模型寫(xiě)入芯片之后,每個(gè)人的設(shè)備終端都擁有了頂級(jí)離線AI,世界又會(huì)演變成什么夸張的模樣。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.