亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

把8B模型塞進iPhone,這家公司讓AI速度起飛,功耗省掉80%

0
分享至

當(dāng)整個 AI 行業(yè)還在比拼參數(shù)規(guī)模、堆算力時,有家初創(chuàng)在相反的方向發(fā)力:把模型壓縮到只剩 1 比特。

當(dāng)?shù)貢r間 3 月 31 日,美國 AI 初創(chuàng)公司 PrismML 發(fā)布了一款旗艦?zāi)P?1-bit Bonsai 8B。該模式使用 Google TPU v4 進行訓(xùn)練,在接近同等性能的前提下,可將模型權(quán)重壓縮至單個比特(原生 1 比特架構(gòu))。

多項智能基準(zhǔn)測試結(jié)果顯示,與傳統(tǒng) FP16 8B 模型相比,該模型在高保真推理和語音理解能力相當(dāng)?shù)那疤嵯拢瑑?nèi)存占用從 16GB 降至 1.15GB,推理速度提升 8 倍,能效提升 4-5 倍。在現(xiàn)有硬件平臺上,該模型還能將能耗降低 75% 到 80%。也就是說,該技術(shù)以更少的資源完成了相同的工作,并有效降低了能耗成本。

值得關(guān)注的是,該公司在三種主流平臺跑通了這款模型。根據(jù)技術(shù)報告,Bonsai 8B 可通過 MLX 或 Metal 接口在 Apple 設(shè)備(Mac、iPhone、iPad),也可基于 llama.cpp CUDA 在 NVIDIA GPU ,還可以通過 MLXSwift 或 OpenCL 路徑在移動端上運行。

該技術(shù)有望催生新的 AI 系統(tǒng):既能在邊緣高效運行,又能在云端經(jīng)濟高效擴展。讓 AI 直接在手機、筆記本電腦等消費電子設(shè)備本地運行,并有望進一步拓展至數(shù)據(jù)中心。有助于減少對云的依賴,而是基于該模型直接在設(shè)備上執(zhí)行的復(fù)雜 AI 應(yīng)用程序,進而解鎖機器人、可穿戴設(shè)備和個人計算應(yīng)用程序等邊緣場景。

“人工智能的未來有望不再取決于誰能建造最大的數(shù)據(jù)中心,而是取決于誰能以單位能源和成本提供最大的智能?!痹摴就顿Y人、Khosla Ventures 創(chuàng)始人 Vinod Khosla 表示。


(來源:資料圖)

PrismML 是在加州理工學(xué)院團隊技術(shù)支持下衍生而來。目前,該公司已通過種子輪融資和 SAFE 融資籌集 1,625 萬美元,投資者包括 Khosla Ventures、Cerberus Capital 和加州理工學(xué)院。

該公司聯(lián)合創(chuàng)始人兼 CEO、加州理工學(xué)院教授 Babak Hassibi 稱,該技術(shù)是一種能夠適應(yīng)各種硬件環(huán)境,并“在單位能耗和成本下釋放更高智能密度”的數(shù)學(xué)突破。


圖丨1-bit Bonsai 8B 的技術(shù)報告(來源:PrismML)

隨著 AI 模型規(guī)模和計算量的提升,部署高級智能技術(shù)越來越需要龐大的數(shù)據(jù)中心基礎(chǔ)設(shè)施。但由于延遲、硬件和隱私等方面的限制,實時、本地化的 AI 體驗仍面臨嚴(yán)峻的挑戰(zhàn)。

PrismML 指出了一個容易忽略的事實:在端側(cè)推理場景下,真正“卡脖子”的是內(nèi)存帶寬而非算力。該公司的關(guān)鍵優(yōu)勢在于,通過數(shù)年時間研發(fā)了壓縮神經(jīng)網(wǎng)絡(luò)所需的數(shù)學(xué)理論來應(yīng)對這一挑戰(zhàn)。

與傳統(tǒng)的 FP16 架構(gòu)不同,PrismML 創(chuàng)建了具有原生 1 比特結(jié)構(gòu)的模型。在不犧牲推理、編碼和通用知識能力的前提下,同時壓縮計算復(fù)雜度與內(nèi)存占用。


(來源:PrismML)

根據(jù) PrismML 發(fā)布的技術(shù)報告,他們將智能密度定義為模型智能與規(guī)模的比值(以比特為單位測量,或等效地以 GB 為單位)。按此標(biāo)準(zhǔn)衡量,1-bit Bonsai 8B 的智能密度得分達 1.06/GB。在參數(shù)數(shù)量相近的模型中,最接近的 Qwen3 8B 得分僅 0.10/GB。


(來源:PrismML)

在 MMLU-Redux 知識測試、MuSR 多步推理、GSM8K 數(shù)學(xué)解題、HumanEval+代碼生成、IFEval 指令遵循和 BFCLv3 工具調(diào)用六個維度的測試中,1-bit Bonsai 8B 的平均得分達 70.5 分,與 Qwen 3 8B 的 79.3 分差距不到 9 分,但其內(nèi)存占用僅為 1.15 GB,比同類產(chǎn)品小約 12-14 倍。這正是智能密度的核心所在:不僅具有高性能,而且以更易于部署的方式提供性能支持。

研究人員在不同設(shè)備上進行了吞吐量數(shù)據(jù)對比。在 M4 Pro Mac 上,Bonsai 8B 的運行速度可達每秒 136 token;在 RTX 4090 上,可達每秒 440 token;在 iPhone 17 Pro Max 上,其運行速度約每秒 44 token。這些性能表現(xiàn)指向了一個與依賴云端的 AI 截然不同的可能性:其所帶來的體驗,可能會速度更快、更直接、更易用。

這種優(yōu)勢在處理長周期智能體工作負載時更加明顯。在上面視頻的演示中,研究團隊模擬了 50 個工單匯總和分配任務(wù)。結(jié)果顯示,在相同時間窗口內(nèi),Bonsai 8B 能夠完成所有 50 個工單,而標(biāo)準(zhǔn)的 FP 16 8B 模型在同一時間段內(nèi)只能完成 6 個。

對于需要持續(xù)進行多步驟推理的智能體而言,更高的吞吐量和更低的內(nèi)存占用不僅能提升系統(tǒng)速度,還有利于擴展智能體實際完成的工作量。


圖丨各種硬件平臺的能耗對比(來源:PrismML)

從模型效率來看,Bonsai 8B 的能耗也具有優(yōu)勢,而這一點與經(jīng)濟效益直接相關(guān)。數(shù)據(jù)結(jié)果顯示,其遠低于 FP 16 版本,能效大約提升 4-5 倍。在 M4 Pro 上,其能耗為 0.074 毫瓦時/token,而在 iPhone 17 Pro Max 上,其能耗僅為 0.068 毫瓦時/token。


(來源:PrismML)

為進一步展示技術(shù)的擴展性,PrismML 還同步推出了兩款更小的型號:Bonsai 4B 和 Bonsai 1.7B,內(nèi)存占用分別是 0.5GB 和 0.24GB。研究人員選取了從 1.2GB(Qwen3 0.6B)到 16.4GB(Qwen3 8B)的 20 款主流模型。從與同量級競品對比結(jié)果來看,PrismML 的三款模型在“智能密度”指標(biāo)上具有優(yōu)勢。

該公司承認技術(shù)當(dāng)前仍具有局限性:一方面,這些結(jié)果仍是在通用硬件和軟件優(yōu)化的前提下實現(xiàn);另一方面,移動端的能耗數(shù)據(jù)來自電池耗電速率的間接估算。


如果適配專門為 1 比特模型設(shè)計的硬件,有可能減少對復(fù)雜數(shù)學(xué)乘法的需求。在此前提下 PrismML 預(yù)測,未來硬件只需執(zhí)行簡單的加減運算,有望進一步將性能和能效提升 1 個數(shù)量級。

總體來說,這種“以小博大”的新范式,正在打破算力和設(shè)備之間的物理邊界:以往需要權(quán)衡取舍的場景,例如企業(yè)級本地部署、隱私敏感場景、間歇性連接環(huán)境、成本受限的 GPU 服務(wù)等,未來有望通過同一套方案覆蓋。

參考資料:

https://github.com/PrismML-Eng/Bonsai-demo/blob/main/1-bit-bonsai-8b-whitepaper.pdf

https://prismml.com/news/prismml-launches-worlds-first-1-bit-ai-model

https://prismml.com/news/bonsai-8b

https://www.wsj.com/cio-journal/caltech-researchers-claim-radical-compression-of-high-fidelity-ai-models-e66f31c9?mod=tech_feat1_ai_pos1

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
熱那亞公交車上演“活春宮”!女司機出言勸阻,反遭乘客當(dāng)眾掌摑

熱那亞公交車上演“活春宮”!女司機出言勸阻,反遭乘客當(dāng)眾掌摑

意大利華人網(wǎng)0039
2026-04-16 00:10:01
蘋果放出狠話:只要打開這個開關(guān),目前全球無人能黑進你的 iPhone

蘋果放出狠話:只要打開這個開關(guān),目前全球無人能黑進你的 iPhone

小兔子發(fā)現(xiàn)大事情
2026-04-13 14:13:39
接下來的廣州,地鐵、燃氣、水費都要漲價?

接下來的廣州,地鐵、燃氣、水費都要漲價?

南沙部落
2026-04-15 09:53:21
狐貍尾巴藏不住!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

狐貍尾巴藏不??!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

小椰的奶奶
2026-04-14 13:29:01
張繼科一天連上兩次熱搜!復(fù)出德國打傳奇杯,卻被曝出公司出事了

張繼科一天連上兩次熱搜!復(fù)出德國打傳奇杯,卻被曝出公司出事了

東方不敗然多多
2026-04-16 00:13:42
雷軍發(fā)文:小米電池安全測試1230項,超國標(biāo)要求25倍!網(wǎng)友:諾貝爾數(shù)學(xué)獎必須頒發(fā)給雷總

雷軍發(fā)文:小米電池安全測試1230項,超國標(biāo)要求25倍!網(wǎng)友:諾貝爾數(shù)學(xué)獎必須頒發(fā)給雷總

大白聊IT
2026-04-16 00:06:13
拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場反擊戰(zhàn)可不敗晉級

拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場反擊戰(zhàn)可不敗晉級

智道足球
2026-04-15 12:45:14
黃燦燦自曝為了防止《浪姐》惡意剪輯,每天都會梳不一樣的頭發(fā)

黃燦燦自曝為了防止《浪姐》惡意剪輯,每天都會梳不一樣的頭發(fā)

韓小娛
2026-04-13 16:42:00
日本地下偶像見面會竟然“0人到場”,女團們哭了的照片惹人心疼后人氣暴漲

日本地下偶像見面會竟然“0人到場”,女團們哭了的照片惹人心疼后人氣暴漲

日本物語
2026-04-15 20:57:13
何超蕸去世僅1天,內(nèi)部員工再爆大瓜,有位長期伴侶僅冰山一角

何超蕸去世僅1天,內(nèi)部員工再爆大瓜,有位長期伴侶僅冰山一角

以茶帶書
2026-04-15 15:05:34
斯波直言三球該被驅(qū)逐!鮑爾準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

斯波直言三球該被驅(qū)逐!鮑爾準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

顏小白的籃球夢
2026-04-15 11:00:09
隨著遼寧取勝、山東輸球,CBA亂了:廣東北京爭四強,遼寧沖前八

隨著遼寧取勝、山東輸球,CBA亂了:廣東北京爭四強,遼寧沖前八

中國籃壇快訊
2026-04-16 00:02:16
廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

詭譎怪談
2025-03-25 16:22:55
別搶石油了!美高官急呼特朗普大誤判,中國砸千億布局科技已超車

別搶石油了!美高官急呼特朗普大誤判,中國砸千億布局科技已超車

詩酒趁的年華
2026-04-15 08:29:50
事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

削桐作琴
2026-04-15 15:37:47
效仿張本智和!松島輝空豪言要戰(zhàn)勝中國隊奪冠 兩名隊友都笑了

效仿張本智和!松島輝空豪言要戰(zhàn)勝中國隊奪冠 兩名隊友都笑了

念洲
2026-04-15 15:32:56
安妮和梅姨回應(yīng)“審美降級”的差評,懟得我啞口無言

安妮和梅姨回應(yīng)“審美降級”的差評,懟得我啞口無言

gogoboi
2026-04-14 23:28:21
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動物奇奇怪怪
2026-04-15 13:19:42
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

閱讀第一
2026-04-15 08:34:45
錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

夏末moent
2026-03-21 20:01:15
2026-04-16 00:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16580文章數(shù) 514879關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

游戲
健康
手機
本地
公開課

萍萍、浩浩媽新作眾籌超原目標(biāo)2500%!想沖的人太多

干細胞抗衰4大誤區(qū),90%的人都中招

手機要聞

一加Ace6至尊版再次被確認:魔改天璣9500+165Hz屏,本月發(fā)布!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版