亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

三星研究院發(fā)布手機(jī)端側(cè)大模型MeKi:基于Memory的LLM擴(kuò)展新范式,支持旗艦手機(jī)端側(cè)部署

0
分享至


三星發(fā)布MeKi,用手機(jī)ROM擴(kuò)容大模型,性能媲美更大模型。

隨著三星最新一代旗艦手機(jī) Samsung Galaxy S26 的正式發(fā)布,移動(dòng)端AI體驗(yàn)迎來了質(zhì)的飛躍。新機(jī)集成了多種創(chuàng)新AI功能以及多款A(yù)I智能體。這些AI應(yīng)用極大地豐富了用戶的日常體驗(yàn),也標(biāo)志著智能手機(jī)正逐步轉(zhuǎn)型為高度智能化的個(gè)人助理平臺(tái)。然而,支撐這些復(fù)雜功能的背后,是對(duì)端側(cè)大模型性能與效率的極致追求。

最近,三星研究院在上月發(fā)布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側(cè)大模型架構(gòu),提出一種全新的大模型擴(kuò)展思路——通過存儲(chǔ)空間來擴(kuò)展模型容量、提升LLM的性能,而非依賴激活參數(shù)量和計(jì)算量的提升,這種新范式為在邊緣設(shè)備部署高性能LLM提供了新的解決方案。

與傳統(tǒng)的部署方式不同,MeKi架構(gòu)巧妙地利用了手機(jī)上豐富的ROM存儲(chǔ)空間,而非僅僅受限于RAM。在移動(dòng)端 SoC 上,從ROM進(jìn)行查找讀取的操作相對(duì)廉價(jià)且能效高,且ROM帶寬在大模型推理期間通常處于閑置狀態(tài),MeKi利用這一特性將ROM轉(zhuǎn)化為模型知識(shí)的擴(kuò)展存儲(chǔ)庫,從而緩解了內(nèi)存(RAM)的壓力。這種設(shè)計(jì)在不增加計(jì)算量(FLOPs)和推理時(shí)延的前提下,實(shí)現(xiàn)了模型容量與性能的顯著提升。

文章地址:https://www.arxiv.org/pdf/2602.03359

項(xiàng)目主頁:https://github.com/ningding-o/MeKi


01


核心痛點(diǎn):邊緣部署的計(jì)算與內(nèi)存困境

當(dāng)前大模型的主流擴(kuò)展路徑(增大參數(shù)量、提升推理時(shí)計(jì)算量)在數(shù)據(jù)中心表現(xiàn)優(yōu)異,但在智能手機(jī)等邊緣設(shè)備上面臨致命瓶頸:

- 稠密模型參數(shù)量增加會(huì)導(dǎo)致浮點(diǎn)運(yùn)算(FLOPs)激增,帶來不可接受的延遲和功耗;

- 混合專家(MoE)架構(gòu)雖通過稀疏激活降低單token計(jì)算量,但頻繁加載離散專家權(quán)重會(huì)造成嚴(yán)重的內(nèi)存訪問延遲,成為邊緣設(shè)備的主要性能瓶頸;

- 邊緣設(shè)備的RAM和NPU資源有限,而ROM帶寬在推理過程中大量閑置,現(xiàn)有方案未充分利用這一資源優(yōu)勢。

據(jù)此,研究團(tuán)隊(duì)提出了本文的核心動(dòng)機(jī):能否在不增加推理延遲和計(jì)算量的前提下,通過利用存儲(chǔ)空間實(shí)現(xiàn)模型容量的有效擴(kuò)展?


02


MeKi:將存儲(chǔ)內(nèi)容注入推理過程的LLM架構(gòu)

MeKi(Memory-based Expert Knowledge Injection)通過"存儲(chǔ)替代計(jì)算"的設(shè)計(jì)思路,實(shí)現(xiàn)模型容量與計(jì)算成本的解耦,其核心架構(gòu)包含三大關(guān)鍵組件:

1. token級(jí)專家知識(shí):靜態(tài)與動(dòng)態(tài)知識(shí)融合

MeKi為每個(gè)Transformer層配備專屬的知識(shí)庫,將其視為token級(jí)專家的集合,用來存儲(chǔ)在預(yù)訓(xùn)練階段學(xué)習(xí)到的語義知識(shí)。每個(gè)token的專家向量由兩部分融合而成:

- 靜態(tài)知識(shí):通過token ID從一個(gè)靜態(tài)的詞嵌入矩陣中直接查詢,存儲(chǔ)基礎(chǔ)語義知識(shí);

- 動(dòng)態(tài)知識(shí):在訓(xùn)練階段通過非線性投影從全局詞嵌入中合成特定的特征向量,增強(qiáng)表示能力;

兩者經(jīng)過歸一化處理后,由逐層可學(xué)習(xí)的系數(shù)進(jìn)行加權(quán)調(diào)節(jié),形成最終的專家知識(shí)向量。

模型每層所用的專家知識(shí)庫的大小為 ,為了控制ROM空間的占用,我們控制知識(shí)向量的維度 遠(yuǎn)小于模型的hidden size ( )。

2. 低秩門控融合:高效的知識(shí)注入機(jī)制

為了將專家知識(shí)高效率的注入到Transformer的前向傳播過程中,MeKi采用了一種低秩空間下的加法門控融合策略:

首先利用低秩線性投影和激活函數(shù)利用輸入FFN模塊的token hidden state來生成與上下文相關(guān)的低維門控信號(hào)(維度為 ),門控信號(hào)與檢索到的專家知識(shí)向量相加,從而實(shí)現(xiàn)了hidden state與知識(shí)的動(dòng)態(tài)融合;融合后的embedding(維度為 )經(jīng)過升維的線性投影被映射回模型維度( ),最終通過殘差連接融入主數(shù)據(jù)流。

該設(shè)計(jì)使得MeKi模塊可以與FFN模塊并行運(yùn)行,實(shí)現(xiàn)模型容量的隱式擴(kuò)展,且低秩空間下的融合操作擁有很少的FLOPs開銷,幾乎不會(huì)增加額外計(jì)算量。

3. 重參數(shù)化策略:訓(xùn)練復(fù)雜度與推理效率的平衡

為解決訓(xùn)練階段的計(jì)算復(fù)雜與推理階段需要高效部署的矛盾,MeKi提出使用重參數(shù)化技術(shù)來進(jìn)一步降低推理階段的FLOPs開銷。

在訓(xùn)練階段,MeKi保留動(dòng)態(tài)的非線性投影等復(fù)雜結(jié)構(gòu),最大化模型的表征學(xué)習(xí)能力;部署之前,將MeKi模塊中的動(dòng)態(tài)投影和歸一化層等操作進(jìn)行預(yù)先計(jì)算、并融合成為統(tǒng)一的靜態(tài)查找表,形成緊湊的ROM存儲(chǔ)結(jié)構(gòu);在推理時(shí),MeKi僅需通過token ID進(jìn)行查找,其I/O過程以及輕量級(jí)特征融合可以實(shí)現(xiàn)幾乎零延遲的極低額外開銷。

03


實(shí)驗(yàn)驗(yàn)證:端側(cè)性能與推理效率的雙重突破

研究團(tuán)隊(duì)在基于Qualcomm Snapdragon 8 Elite的安卓移動(dòng)平臺(tái)上,對(duì)激活參數(shù)量為0.6B、1.7B、4B三個(gè)規(guī)模的MeKi模型進(jìn)行了全面驗(yàn)證,核心結(jié)果如下:

1.性能對(duì)標(biāo)更大參數(shù)量的模型:MeKi-1.7B模型在10個(gè)下游基準(zhǔn)測試中平均得分59.7,與4B稠密模型(60.5)性能相當(dāng);

2.推理效率保持最優(yōu)水平:MeKi通過將知識(shí)權(quán)重卸載到ROM空間,保持與同參數(shù)量稠密模型一致的推理速度:MeKi-1.7B模型在端側(cè)的解碼速度達(dá)13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;


3.極低的ROM帶寬需求:重參數(shù)化之后的推理階段僅需少量的內(nèi)存查找操作,對(duì)于28層的Transformer模型,每個(gè)token所需的ROM數(shù)據(jù)傳輸量僅為14KB,完全適配移動(dòng)設(shè)備的存儲(chǔ)帶寬。

4.超越同期其他基于存儲(chǔ)的LLM架構(gòu): MeKi-1.7B在10項(xiàng)下游任務(wù)上的平均得分為59.7,與DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM擴(kuò)展方案相比,分別超出了2.7和1.8個(gè)百分點(diǎn),驗(yàn)證了本方法在融合ROM知識(shí)的機(jī)制上的優(yōu)越性。


04


關(guān)鍵洞察:架構(gòu)設(shè)計(jì)消融分析

研究團(tuán)隊(duì)通過一系列的消融實(shí)驗(yàn)進(jìn)一步揭示了MeKi架構(gòu)性能優(yōu)勢的核心來源:

?靜態(tài)知識(shí)+動(dòng)態(tài)知識(shí)的融合:作者在0.6B參數(shù)量的模型上實(shí)驗(yàn)了兩種知識(shí)來源的協(xié)同作用,與只使用單一知識(shí)來源的變體相比,兩種知識(shí)互補(bǔ)之后分別提升了0.7和0.8個(gè)點(diǎn),驗(yàn)證了知識(shí)互補(bǔ)的價(jià)值;


?最優(yōu)的知識(shí)注入位置:作者實(shí)驗(yàn)了將MeKi模塊插入到模型中的不同位置上,其中MeKi與FFN并行的部署方式效果最佳,較其他位置(例如與Attention并行、放在FFN之后)平均提升0.4-0.8個(gè)百分點(diǎn);



?最優(yōu)的融合方式:在對(duì)token 的hidden state和ROM專家知識(shí)進(jìn)行融合時(shí),作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略,其中相加后Sigmoid方案的Training Loss最低,實(shí)驗(yàn)得到的模型性能最優(yōu);



?知識(shí)庫容量的擴(kuò)展定律:作者通過實(shí)驗(yàn)證明了MeKi架構(gòu)的模型性能會(huì)隨著ROM中存儲(chǔ)的知識(shí)容量呈對(duì)數(shù)線性增長,通過改變預(yù)訓(xùn)練階段的知識(shí)向量維度( )即可調(diào)整模型的知識(shí)容量。為了實(shí)現(xiàn)性能與存儲(chǔ)成本的平衡,作者將MeKi-0.6B模型的 設(shè)置為128,MeKi-1.7B模型的 設(shè)置為256。


05


總結(jié)與展望

MeKi架構(gòu)打破了"性能提升依賴計(jì)算量增加"的傳統(tǒng)認(rèn)知,通過"ROM替代RAM"的內(nèi)存化擴(kuò)展范式,首次實(shí)現(xiàn)了邊緣設(shè)備上"零延遲開銷+大模型性能"的雙重目標(biāo)。,為智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等邊緣場景部署高性能LLM提供了全新思路。

對(duì)于深度集成AI功能的手機(jī)產(chǎn)品,MeKi架構(gòu)意味著用戶可以運(yùn)行性能更強(qiáng)大的本地大模型,在保護(hù)隱私的前提下,享受更精準(zhǔn)的智能體服務(wù)和更流暢的影像處理體驗(yàn),而無需擔(dān)心網(wǎng)絡(luò)延遲導(dǎo)致的體驗(yàn)割裂,這手機(jī)真正地成為了懂知識(shí)、懂場景的“私人口袋專家”。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
普京時(shí)代進(jìn)入倒計(jì)時(shí),中國必須警惕俄羅斯政策突變

普京時(shí)代進(jìn)入倒計(jì)時(shí),中國必須警惕俄羅斯政策突變

阿七說史
2026-04-18 15:47:09
貝森特通告全球,將對(duì)中方二級(jí)制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對(duì)中方二級(jí)制裁,話音剛落,中國被曝美債余額

青煙小先生
2026-04-18 11:39:56
秦嵐首度公開父母過世,一個(gè)人辦追悼會(huì)不哭,和魏大勛不婚不育

秦嵐首度公開父母過世,一個(gè)人辦追悼會(huì)不哭,和魏大勛不婚不育

椰黃娛樂
2026-04-18 13:41:46
表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報(bào)貪腐

表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報(bào)貪腐

胡侃社會(huì)百態(tài)
2026-04-18 12:06:59
中東,突發(fā)大消息!伊朗革命衛(wèi)隊(duì)向油輪開火!伊朗最高領(lǐng)袖發(fā)聲

中東,突發(fā)大消息!伊朗革命衛(wèi)隊(duì)向油輪開火!伊朗最高領(lǐng)袖發(fā)聲

證券時(shí)報(bào)e公司
2026-04-18 20:38:43
以色列發(fā)動(dòng)大規(guī)模空襲

以色列發(fā)動(dòng)大規(guī)模空襲

中國經(jīng)濟(jì)網(wǎng)
2026-04-17 17:46:03
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
恒大集團(tuán)許家印被抓捕全過程

恒大集團(tuán)許家印被抓捕全過程

新浪財(cái)經(jīng)
2026-04-18 20:05:24
悲哀!幾個(gè)女同事想郊游沒人愿去,吐槽現(xiàn)在男生太精,不好拿捏了

悲哀!幾個(gè)女同事想郊游沒人愿去,吐槽現(xiàn)在男生太精,不好拿捏了

火山詩話
2026-04-18 07:26:36
罕見!北約30國駐布魯塞爾大使集體訪日

罕見!北約30國駐布魯塞爾大使集體訪日

參考消息
2026-04-18 17:59:50
特朗普又定下最后期限

特朗普又定下最后期限

大象新聞
2026-04-18 15:55:19
特朗普:美伊正對(duì)話 “今天結(jié)束前會(huì)有消息”

特朗普:美伊正對(duì)話 “今天結(jié)束前會(huì)有消息”

新華社
2026-04-18 21:52:13
剛剛,跳水!霍爾木茲,再生變數(shù)!

剛剛,跳水!霍爾木茲,再生變數(shù)!

中國基金報(bào)
2026-04-18 18:19:35
ESPN分析奪冠概率:雷霆43%斷層領(lǐng)先,馬刺18%第二,活塞第三

ESPN分析奪冠概率:雷霆43%斷層領(lǐng)先,馬刺18%第二,活塞第三

懂球帝
2026-04-19 01:04:25
嚴(yán)打來了!5月1日起8類行為會(huì)入刑,退休老人要注意

嚴(yán)打來了!5月1日起8類行為會(huì)入刑,退休老人要注意

小談食刻美食
2026-04-18 09:44:44
在醫(yī)療領(lǐng)域搞新型隱性腐敗,武漢大學(xué)中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

在醫(yī)療領(lǐng)域搞新型隱性腐敗,武漢大學(xué)中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

大風(fēng)新聞
2026-04-18 11:25:25
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會(huì)第一個(gè)翻臉

共工之錨
2026-04-18 23:54:42
一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀(jì)檢這道關(guān)

一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀(jì)檢這道關(guān)

周哥一影視
2026-04-17 19:29:59
缺德到這種程度,已經(jīng)沒有半點(diǎn)“人性”了

缺德到這種程度,已經(jīng)沒有半點(diǎn)“人性”了

胖胖說他不胖
2026-04-17 09:25:19
滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

奇思妙想草葉君
2026-04-18 02:30:58
2026-04-19 01:40:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

數(shù)碼要聞

Q1存儲(chǔ)價(jià)格暴漲:DDR與SSD翻番 PC廠商陷入搶貨大戰(zhàn)

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

旅游
家居
數(shù)碼
本地
藝術(shù)

旅游要聞

云南昆明游客踩在鮮花上拍照,把電動(dòng)車扔進(jìn)滇池:建議拉入黑名單

家居要聞

法式線條 時(shí)光靜淌

數(shù)碼要聞

華為版的科技春晚來了!Pura 90/Pura X Max下周發(fā):陣容豪華

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

波蘭美女奧拉·卡茲馬雷克,絕美風(fēng)情讓人驚艷!

無障礙瀏覽 進(jìn)入關(guān)懷版