亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24小時90次實驗,全程AI寫代碼,他獨自復現(xiàn)蘋果三年前的論文成果

0
分享至

內(nèi)存墻是計算機體系結(jié)構(gòu)中的一個經(jīng)典瓶頸,簡單來說,就是處理器的運算速度飛快,但內(nèi)存的容量和傳輸速度卻遠遠跟不上需求。

尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數(shù)的巨型模型,即使經(jīng)過 4 比特壓縮,其體積也高達 209 GB,是頂級消費級筆記本內(nèi)存容量的 4 倍以上。在傳統(tǒng)的推理模式下,這意味著你必須擁有數(shù)張價值不菲的專業(yè)顯卡集群才能勉強運行。

近日,來自美國最大的醫(yī)療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺副總裁丹·伍茲(Dan Woods)完成了一項看似不可能的挑戰(zhàn):他運行了一個名為 Flash-MoE的項目,成功在一臺僅有 48GB 內(nèi)存的 MacBook Pro 上離線運行了擁有 3,970 億參數(shù)的 Qwen3.5-397B,運行速度達到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


圖 | 伍茲(來源:社交媒體 X)

對伍茲而言,在本地設(shè)備上運行頂級規(guī)模的大模型,是他多年來的愿望。早在三年前,蘋果就發(fā)布過一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過從閃存流式傳輸權(quán)重,運行超出內(nèi)存容量的大模型完全可行。他一直期待這一天的到來,但即便蘋果的硬件架構(gòu)似乎為這一技術(shù)量身定制,官方卻始終沒有推出對應(yīng)的落地方案。

伍茲深知,編寫底層 Metal 著色器、Objective-C 推理引擎以及復雜的 I/O 優(yōu)化并不在自己的專業(yè)領(lǐng)域內(nèi)。但隨著 Claude Opus 4.6 的進化和 Claude Code 智能體化工程的成熟,時機終于來了。

他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動研究”模式的變體,讓 Claude 在 24 小時內(nèi)運行了 90 個實驗,以確定最佳推理策略、量化方法和架構(gòu)選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線及全部測試代碼,沒有一行是由他親手編寫的,全部出自 Claude 之手。

在相關(guān)論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


(來源:GitHub)

在傳統(tǒng)的稠密模型中,每生成一個字,模型中的每一個參數(shù)都必須參與計算。Qwen3.5-397B 是一款極具代表性的超大規(guī)?;旌蠈<夷P停∕oE)。這類模型并非所有參數(shù)同時工作,而是被拆分成為數(shù)百個“專家”模塊,每個 Token 只激活少數(shù)專家,其余模塊均處于閑置,天生具備極高的權(quán)重稀疏性。Qwen3.5-397B,總參數(shù)量為 3,970 億,但每個 token 僅激活 17B 參數(shù)。

Qwen3.5-397B 擁有 512 個專家,但在處理每個 Token 時,默認只會激活 10 個專家。伍茲進一步發(fā)現(xiàn),即使只激活 4 個專家,模型的邏輯推理、數(shù)學和編程能力依然保持卓越,而一旦激活數(shù)量少于 3 個,模型輸出會直接崩潰。這意味著在任何一個計算瞬間,只有不到 2% 的專家權(quán)重是真正需要的。

因此,伍茲的想法是:如果能把這部分需要的權(quán)重從高速 NVMe 固態(tài)硬盤(SSD)快速傳輸?shù)絻?nèi)存/顯卡,就不用把整個模型塞進內(nèi)存,相當于讓固態(tài)硬盤成為模型的“外部內(nèi)存”,流式給模型供能。

蘋果 M3 Max 的統(tǒng)一內(nèi)存架構(gòu)(CPU、GPU、SSD 共享一個地址空間,內(nèi)存帶寬達 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎(chǔ),能在模型計算的時間內(nèi),把需要的專家權(quán)重傳過來。


(來源:GitHub)

為了實現(xiàn)這一想法,伍茲做了一些創(chuàng)新改進。

首先是給模型權(quán)重“瘦身”,在原有 4 比特量化的基礎(chǔ)上,對專家權(quán)重做 2 比特二次量化,單個專家大小從 7.08MB 降至 3.93MB,總存儲需求從 209GB 降到 120GB,數(shù)據(jù)傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質(zhì)量幾乎沒有損失。

其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達 17.5 GB/s。伍茲利用這一特性,開發(fā)了一套基于 C 語言和 Metal 指令集的管線,核心路徑上完全沒有 Python,也沒有使用任何現(xiàn)成的 ML 框架,把計算分成三個命令緩沖區(qū),讓 CPU 準備下一層的同時,GPU 在算當前層,實現(xiàn)重疊執(zhí)行,減少等待。

最令人意外的是緩存策略的反常識優(yōu)化。研究人員最初為提升速度搭建了 9.8GB 的應(yīng)用層緩存,結(jié)果卻發(fā)現(xiàn)速度不升反降。深入研究后發(fā)現(xiàn),蘋果硅芯片的硬件內(nèi)存壓縮器會因這類 GPU 可見緩存瘋狂工作,每秒數(shù)萬次的解壓縮消耗了大量 CPU 資源和內(nèi)存帶寬,反而擠占了數(shù)據(jù)傳輸和計算的資源。最終研究人員果斷刪掉所有應(yīng)用層緩存,讓 macOS 系統(tǒng)的頁緩存完全接管,這一調(diào)整直接讓模型運行速度提升 38%,解壓縮操作幾乎降至零。

一系列優(yōu)化下來,這款 3,970 億參數(shù)的大模型在 48GB 內(nèi)存的筆記本上,僅占用 6.5GB 內(nèi)存就能穩(wěn)定運行,每層計算耗時僅 2.9 毫秒,其中固態(tài)硬盤的數(shù)據(jù)傳輸是最大瓶頸,占比近 50%。經(jīng)測試,模型在 2 比特量化下的輸出質(zhì)量與 4 比特幾乎無差別,能正確完成數(shù)字因式分解、編寫規(guī)范 Python 代碼、用通俗類比解釋科學概念等任務(wù),完全達到實用標準。

伍茲指出,當前系統(tǒng)僅受限于 SSD 帶寬,理論吞吐量底線可達 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋果 SSD 帶寬每代約 20% 的穩(wěn)步增長,預計在未來 2 到 3 代硬件更迭內(nèi),在個人筆記本上以 10 tokens/秒以上速度運行 4,000 億參數(shù)模型將成為常態(tài)。

他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專家權(quán)重為主導的 MoE 模型。

1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
東體:加布里埃爾已經(jīng)返回巴西,梅倫多一直在跟隊訓練

東體:加布里埃爾已經(jīng)返回巴西,梅倫多一直在跟隊訓練

懂球帝
2026-04-15 12:14:32
深圳嚴查停車場違法收費,曝光5起案例告誡經(jīng)營者自查自糾

深圳嚴查停車場違法收費,曝光5起案例告誡經(jīng)營者自查自糾

南方都市報
2026-04-14 19:08:19
初中要努力到什么程度,中考才能上710分?

初中要努力到什么程度,中考才能上710分?

好爸育兒
2026-04-15 14:44:54
王健林:每天新增2000萬債務(wù),他還能撐多久?

王健林:每天新增2000萬債務(wù),他還能撐多久?

流蘇晚晴
2026-04-15 18:33:13
雷陣雨+陣雨!局地中雨!今晚起,河北大范圍降水來襲→

雷陣雨+陣雨!局地中雨!今晚起,河北大范圍降水來襲→

魯中晨報
2026-04-15 14:20:08
李想炮轟東風日產(chǎn)后續(xù):工信部約談雙方!

李想炮轟東風日產(chǎn)后續(xù):工信部約談雙方!

鞭牛士
2026-04-14 19:03:11
CBA一夜爆2冷!衛(wèi)冕冠軍又翻車 山東送遼寧溫暖,3-9名亂成一鍋粥

CBA一夜爆2冷!衛(wèi)冕冠軍又翻車 山東送遼寧溫暖,3-9名亂成一鍋粥

后仰大風車
2026-04-15 22:43:33
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
成年人的無奈,全在這部劇里:好好的老實人,被房貸和好友逼上絕路

成年人的無奈,全在這部劇里:好好的老實人,被房貸和好友逼上絕路

塵網(wǎng)羈鳥
2026-04-14 20:06:10
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
爆增60% ,沙特給了中國!

爆增60% ,沙特給了中國!

近史博覽
2026-04-15 07:40:10
田亮葉一茜祝賀森碟成年,18歲寫真酷似母親

田亮葉一茜祝賀森碟成年,18歲寫真酷似母親

暖心萌阿菇?jīng)?/span>
2026-04-15 19:23:16
爸爸夢到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
被抓后家中查出20噸黃金?秘密移民國外?趙本山身上的謠言太離譜

被抓后家中查出20噸黃金?秘密移民國外?趙本山身上的謠言太離譜

涵豆說娛
2026-03-25 11:05:38
iPhone Fold外觀曝光:橫向闊折疊設(shè)計,看齊華為Pura X Max

iPhone Fold外觀曝光:橫向闊折疊設(shè)計,看齊華為Pura X Max

PChome電腦之家
2026-04-15 16:10:27
張成剛:大量網(wǎng)約車司機可能會“逃避”新規(guī)來確保收入

張成剛:大量網(wǎng)約車司機可能會“逃避”新規(guī)來確保收入

經(jīng)濟觀察報
2026-04-13 15:37:06
1500km!理想官宣:新車55.98萬元

1500km!理想官宣:新車55.98萬元

手機評測室
2026-04-13 11:50:43
絕殺不中!杰倫·格林:出手機會還不錯,我本該多消耗點時間

絕殺不中!杰倫·格林:出手機會還不錯,我本該多消耗點時間

林子說事
2026-04-15 19:28:38
事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

事實證明,面館只是表象,離婚多年的文章,終于找到了自己翻身路

削桐作琴
2026-04-15 15:37:47
誰能當中國第五個直轄市?有3個城市希望最大,你認為誰能當選?

誰能當中國第五個直轄市?有3個城市希望最大,你認為誰能當選?

聽風喃
2026-04-15 05:52:24
2026-04-16 00:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16580文章數(shù) 514879關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

家居
藝術(shù)
游戲
本地
公開課

家居要聞

簡而不減 暖居之道

藝術(shù)要聞

看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動不已!

萍萍、浩浩媽新作眾籌超原目標2500%!想沖的人太多

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版