亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24人團隊硬剛英偉達!AMD前高管夢之隊出手,新芯片每秒17000個token

0
分享至

造芯片的還有高手?

剛剛推出的一款最新芯片,直接沖上硅谷熱榜。

峰值推理速度高達每秒17000個token

什么概念呢?當(dāng)前公認最強的Cerebras,速度約為2000 token/s。

速度直接快10倍,同時成本驟減20倍、功耗降低10倍。

這就意味著,LLM真正來到了亞毫秒級的即時響應(yīng)速度。實機效果be like:

但這塊一夜之間刷屏硅谷的芯片,并非出自英偉達、AMD之手,而是一家成立僅兩年、團隊僅有24人的初創(chuàng)公司——Taalas。


芯片代號HC1,也是公司的首款產(chǎn)品。

不同于所有競爭對手,Taalas選擇了迄今為止最極端的技術(shù)方案——

模型不再加載到內(nèi)存里,而是直接刻在硅片上。換言之,芯片即模型。

結(jié)果顯而易見,Taalas撬動了芯片算力護城河:H100買不到,試試HC1又何妨?

速度快10倍,功耗降至10分之一

HC1目前搭載Llama 3.1 8B模型,用戶每秒最高可生成17000 token/s,遠高于主流GPU/ASIC。


其中,在同一模型下Cerebras接近每秒2000個token,SambaNova約為每秒900個token,Groq約為每秒600個,英偉達Blackwell架構(gòu)的B200為每秒350個。

具體來說,HC1采用臺積電N6工藝,面積為815mm2,體積小巧而且開源,單顆芯片即可滿足8B模型需求。

每顆芯片典型功耗僅為250W,一個服務(wù)器如果同時裝配10顆HC1,功耗也才2.5kW,可以直接使用常規(guī)空氣冷卻機架部署。

那么是如何做到這么大的性能飛躍的呢?

首先HC1借鑒了2000年代初期的結(jié)構(gòu)化ASIC芯片理念。結(jié)構(gòu)化ASIC芯片采用門陣列和固化IP,然后僅通過改變互連層就能使芯片適應(yīng)特定的工作負載。

這樣下來,結(jié)構(gòu)化ASIC芯片不僅比全定制ASIC更便宜,也比FPGA性能更優(yōu)。


HC1則采用類似思路,不改變底層電路,只通過調(diào)整兩層掩模,就能低成本快速做出專用AI推理芯片。

它放棄了大多數(shù)可編程功能,將模型連同權(quán)重一起通過基于掩模ROM的調(diào)用架構(gòu)存儲在芯片上,并保留一個可編程SRAM,用于保存微調(diào)后的權(quán)重(如LoRA)和KV緩存。其余則全部通過掩模ROM固化執(zhí)行。

這一策略能在設(shè)計成本相對可控的前提下,實現(xiàn)模型到芯片的快速轉(zhuǎn)化,將芯片生產(chǎn)周期從原先的六個月縮短到兩個月。

而如此激進的量化方式勢必會影響性能,研究團隊也意識到了這一點,所以可以通過LaRA適配器進行重新訓(xùn)練,以及可配置的上下文窗口,讓芯片的最低限度靈活性得以保留。

換句話說,就是將一個完整大模型通過物理硬連線進芯片中,省去了傳統(tǒng)存算分離的成本,用靈活性換取極致的速度和效率。


除了Llama 3.1,Taalas也嘗試將其它模型集成到HC1上,例如對DeepSeekR1-671B的多芯片解決方案。

將SRAM部分拆分到單獨的芯片上,然后可以將每片HC1的存儲密度提高到約20位參數(shù),總計需要30個定制HC1。

整體處理速度可達到每用戶每秒12000個token,如果考慮到30顆芯片成本為每百萬token是7.6美分,那么該方案成本也不到同等吞吐量的GPU方案的一半。

假設(shè)GPU更新周期為四年,而HC1每年都需要重新更換,總成本也仍然具備優(yōu)勢。

AMD前高管夢之隊

其背后的公司Taalas成立于兩年前,由AMD前集成電路設(shè)計總監(jiān)Ljubi?a Baji?、AMD/ATI/Altera前技術(shù)經(jīng)理和工程師Leila Baji?、AMD前ASIC設(shè)計總監(jiān)Drago Ignjatovi?共同創(chuàng)立,堪稱AMD前高管夢之隊。

其中,Ljubi?a Baji?不僅曾在AMD和英偉達擔(dān)任高級職位,負責(zé)高性能GPU研發(fā)設(shè)計,還是Tenstorrent的創(chuàng)始人兼首任CEO。

新公司致力于開發(fā)專為AI推理和訓(xùn)練設(shè)計的全新架構(gòu),強調(diào)分層設(shè)計和晶格網(wǎng)絡(luò),能夠讓芯片像大腦一樣根據(jù)任務(wù)需求動態(tài)處理數(shù)據(jù)。

在2020年,芯片教父Jim Keller也強勢加入Tenstorrent,并接任CEO一職,而Ljubi?a Baji?轉(zhuǎn)任首席技術(shù)官CTO,專注于產(chǎn)品研發(fā)。


隨后,他又創(chuàng)立了Taalas,試圖通過類似硅基編譯器的方式,直接將AI模型轉(zhuǎn)化為硅芯片。

于是首戰(zhàn)告捷,一個僅有24名成員的團隊,產(chǎn)品投入僅3000萬美元,就創(chuàng)造出比通用AI芯片高出幾個數(shù)量級的能效比。

目前Taalas已籌集2億美元投資,預(yù)計將在春季基于HC1發(fā)布第二代變體,將集成一款中等規(guī)模的推理大模型。

隨后預(yù)計將在冬季部署上線HC2,HC2密度更高、運行速度也會更快。

不過對于HC1,網(wǎng)友們的評價卻是兩極分化。

一方面,網(wǎng)友認為HC1的超低延遲將有益于推動具身智能等領(lǐng)域發(fā)展。


另一方面,也有網(wǎng)友實測過后發(fā)現(xiàn),HC1高速推理的背后,卻是糟糕的推理深度:


以及對于迭代周期相當(dāng)迅速的大模型來說,HC1的硬編碼可能會使芯片很容易過時。

這也是為什么當(dāng)前芯片廠商都在普遍推出通用型芯片的原因之一。


參考鏈接:
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

文章來源:量子位。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
外觀非常驚艷 全新一代寶馬6系有望回歸

外觀非常驚艷 全新一代寶馬6系有望回歸

車質(zhì)網(wǎng)
2026-04-20 10:06:04
為啥網(wǎng)上的東北人和現(xiàn)實中的差別很大?網(wǎng)友:好爽義氣嘴皮子賊溜

為啥網(wǎng)上的東北人和現(xiàn)實中的差別很大?網(wǎng)友:好爽義氣嘴皮子賊溜

帶你感受人間冷暖
2026-03-27 00:22:36
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細說職場
2026-04-07 11:32:47
金像獎紅毯全記錄:章子怡短發(fā)封神,古天樂驚現(xiàn)回春顏

金像獎紅毯全記錄:章子怡短發(fā)封神,古天樂驚現(xiàn)回春顏

愛寫作的洋洋
2026-04-20 08:33:28
丈夫駐邊20年不回家,我?guī)е⒆忧Ю锾接H,部隊:他壓根沒入伍

丈夫駐邊20年不回家,我?guī)е⒆忧Ю锾接H,部隊:他壓根沒入伍

紅豆講堂
2025-10-14 16:22:44
朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

番外行
2026-04-16 08:25:40
突發(fā)!張軍缺席 2026 湯尤杯,不隨隊出征丹麥,真實原因終于曝光

突發(fā)!張軍缺席 2026 湯尤杯,不隨隊出征丹麥,真實原因終于曝光

小蘭看體育
2026-04-20 09:22:16
公公住在我家,每月給我4500,我趕走他后接來我媽,半月后我哭了

公公住在我家,每月給我4500,我趕走他后接來我媽,半月后我哭了

熱心市民小黃
2026-04-20 03:06:45
土皇帝?許家印18大喜好曝光:只喝恒大冰泉+吃進口水果 最愛遼參

土皇帝?許家印18大喜好曝光:只喝恒大冰泉+吃進口水果 最愛遼參

念洲
2026-04-20 11:34:37
一場1-2爆出大冷門,皇馬棄將爆發(fā):傳射建功,大巴黎主場淪陷

一場1-2爆出大冷門,皇馬棄將爆發(fā):傳射建功,大巴黎主場淪陷

足球狗說
2026-04-20 07:10:43
關(guān)曉彤已連續(xù)兩年未在零點給鹿晗送上生日祝福

關(guān)曉彤已連續(xù)兩年未在零點給鹿晗送上生日祝福

魯中晨報
2026-04-20 09:12:36
實錘!富力董事長被限制出境,曾“逼”王健林低價出售酒店

實錘!富力董事長被限制出境,曾“逼”王健林低價出售酒店

帥真商業(yè)
2026-03-14 20:12:15
香港一工地近百人追討欠薪,結(jié)果網(wǎng)友們卻樂了

香港一工地近百人追討欠薪,結(jié)果網(wǎng)友們卻樂了

映射生活的身影
2026-04-19 09:55:59
張本兄妹改名風(fēng)波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

張本兄妹改名風(fēng)波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

云舟史策
2026-04-20 07:11:06
成本5億積壓7年,院線都沒上直接免費網(wǎng)播,這電影就是個笑話!

成本5億積壓7年,院線都沒上直接免費網(wǎng)播,這電影就是個笑話!

觀察鑒娛
2026-04-18 11:57:49
大同又爆大瓜!女子被酒店曝光偷情記錄,數(shù)萬人去圍觀出軌名場面

大同又爆大瓜!女子被酒店曝光偷情記錄,數(shù)萬人去圍觀出軌名場面

社會日日鮮
2026-04-20 12:31:59
美藍色起源發(fā)射任務(wù)受挫 搭載衛(wèi)星未入預(yù)定軌道

美藍色起源發(fā)射任務(wù)受挫 搭載衛(wèi)星未入預(yù)定軌道

財聯(lián)社
2026-04-20 10:12:24
80歲大媽的明智養(yǎng)老:不雇保姆不去養(yǎng)老院,而是花錢請兒媳養(yǎng)老

80歲大媽的明智養(yǎng)老:不雇保姆不去養(yǎng)老院,而是花錢請兒媳養(yǎng)老

熱心柚子姐姐
2026-04-19 11:53:25
里程碑,丁俊暉在世錦賽打出第100桿破百,成為歷史第8人

里程碑,丁俊暉在世錦賽打出第100桿破百,成為歷史第8人

懂球帝
2026-04-19 22:57:04
打7000萬美元給送盒飯給老人的機構(gòu),然后一聲不吭! 離開貝佐斯后,她一直在各種悄悄送錢....

打7000萬美元給送盒飯給老人的機構(gòu),然后一聲不吭! 離開貝佐斯后,她一直在各種悄悄送錢....

英國那些事兒
2026-04-19 23:07:22
2026-04-20 13:31:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5482文章數(shù) 64624關(guān)注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

游戲
親子
健康
本地
公開課

異世界自動化模擬經(jīng)營游戲《退休勇者當(dāng)廠長》現(xiàn)已正式上架Steam

親子要聞

女孩兒學(xué)壞,多半栽在初中

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版