網易首頁 > 網易號 > 正文申請入駐

Agent化的OS：拼的不是AI，是底盤

2026-05-27 18:12:19　來源: 鈦媒體APP

北京舉報

分享至

文 | 云涌AI ，作者 | 黃云皓

一Google I/O 2026之后：四大端側OS步入Agent時代

2026年5月12日，Google舉辦了Android Show｜I/O Edition發布會，這是5月19日I/O大會之前的Android專場。Android生態總裁Sameer Samat給這場發布會定調：Android要從操作系統轉化成一套智能系統。承接這條主線的，就是Gemini Intelligence——Android系統層的一套主動式AI能力。

2026年Android Show｜I/O Edition發布會海報
來源：Android Heaadlines

與去年Gemini Nano+AICore的組合相比，這次Google讓Agent跨App與上下文的能力進一步嵌入OS層：跨App任務自動化（訂餐、采購、下單）、表單自動填充、網頁摘要、自定義小組件，依次寫進系統級能力清單。Google同時把用戶顯性控制（explicit user control）、全面數據保護（comprehensive data protection）、運營透明（operational transparency）列為產品三原則。

一周后的5月19日I/O主題演講上，Google CEO Sundar Pichai沿這條主線開場：

Welcome to the agentic Gemini era（歡迎進入Agent化的Gemini時代）

投身端側OS Agent化浪潮，Google算不上起跑早。

Microsoft在2024年5月的Build 2024上推出Copilot+PC（搭載40+ TOPS NPU的新一代Windows 11機型品類），基于端側小模型Phi Silica、屏幕Agent能力Click to Do、系統級活動記憶Recall三項能力將Agent能力嵌入OS系統。

2024年6月的WWDC24上，Apple就已正式公布“Apple Intelligence”，Apple當時給它的定位就是“personal intelligence system”（個人智能系統），后續陸續上線了一些AI輔助功能，只不過由于自家大模型難產、Siri“弱智”等問題，Apple Intelligence的核心Agent能力一直未能面世。

華為則在2025年6月HDC 2025上發布HarmonyOS 6與鴻蒙智能體框架（HMAF），隨后小藝智能體廣場上線了80多個智能體。

端側OS Agent化的大趨勢已經同時出現在Android、iOS、HarmonyOS、Windows等主流操作系統上。

發布會展示的只是功能，OS廠商真正要拼的，是支撐OS Agent可靠運行、實際解決問題的三層能力底：系統級AI Runtime、可控芯片、端云模型矩陣。

二.發布會之下：撐起OS Agent的三層底盤系統級AI Runtime：端側智能的調度中樞

Runtime是端側模型在操作系統里運行的推理引擎與系統服務。往下，它直接對接NPU與系統資源調度；往上，它以穩定API把推理能力暴露給所有App。它把端側模型變成了“OS層的共享智能”：跨App共享模型權重、統一調度算力與內存、承載Agent所需的工具調用、引導生成、上下文與權限對接。它決定了OS Agent究竟是App里的一個聊天按鈕，還是操作系統上能執行系統級操作的常駐服務。

Android體系內最完整的樣本是Google AICore。2023年12月，AICore作為Android 14的系統服務（system service）上線；2025年8月，Gemini Nano通過ML Kit GenAI APIs對開發者開放。從系統服務底座到面向App的穩定API，AICore走了近兩年，不斷打磨。

其他OS廠商走的是同一條路，節奏不同。Apple在WWDC25把Foundation Models框架開放給開發者，框架自帶@Generable裝飾器、工具調用、引導生成（guided generation）與有狀態會話（stateful session），背后接的是約3B參數的端側基礎模型，加上私密云端計算提供云端支持。Microsoft把端側AI框架Foundry on Windows與Phi Silica裝進Windows 11，以Windows ML作為底層推理后端。華為在HDC 2025發布Agent Framework Kit（鴻蒙智能體框架，HMAF），把意圖體系與Agent協作協議一起開放。

Android AICore 作為系統服務，調度 Gemini Nano 在硬件加速器上推理
來源：Android Developers

可控芯片：軟硬協同的支點

Google在Android Show｜I/O Edition上為Gemini Intelligence設置明確的硬件門檻：完整功能集首發僅面向Pixel 10系列與Galaxy S26系列等少數最新旗艦，去年的機型均不在列。這指向一個簡單事實：AI模型還在快速演進，軟件對硬件持續提出新要求。可控芯片是承接這些要求的底盤，可控程度決定OS廠商為端側OS Agent做軟硬適配的空間。

Apple是軟硬一體路線的典范。iOS與macOS從一開始就與A系列、M系列芯片同代演進，Core ML則把CPU、GPU、ANE的調度統一封裝到框架層。這條路線在LLM時代繼續延伸。Apple Machine Learning Research給出過一組實測：按Core ML的優化路徑把Llama 3.1 8B Instruct部署到M1 Max上，本地解碼速度可達約33 tokens/s。《Apple Intelligence Foundation Language Models》技術報告也披露，Apple為自家芯片做了KV cache共享與2-bit量化感知訓練等架構級優化，才得以成功把約3B的端側基礎模型通過Foundation Models框架開放給開發者。這種深度，只有把芯片握在自己手里才做得出——這正是可控芯片之于OS廠商的價值：它決定了軟硬協同的深度，也提高了端側OS Agent的體驗上限。

進入AI時代，Google也在做同一件事——從Pixel 6起走自研Tensor SoC路線，最新的Tensor G5把TPU性能最高提升60%、CPU平均提升34%，作為首款完整運行最新一代Gemini Nano的SoC在Pixel 10落地。當然，Tensor G5也有短板：Android Central實測顯示其內存配置（RAM容量）仍是AI性能瓶頸、Geekbench AI跑分輸給驍龍8 Elite；Macworld的Geekbench 6實測中，G5的單核與多核分數都低于A18 Pro。Google還在追趕，但自研Tensor加端側Gemini的協同路線已經成形。

華為麒麟搭配達芬奇NPU與盤古端側模型，是另一條與Apple、Google并行的可控芯片路徑。小米落地了玄戒O1，是朝可控芯片方向走出的新進者。

端云模型矩陣：Agent的智力源泉

端云模型矩陣是終端設備的“智力”源泉：云端模型撐起復雜任務的能力天花板，端側模型托起日常運行的下限——延遲、續航、隱私、穩定性都壓在端側這一頭。兩端缺一不可，差別在與OS的耦合深度。端側模型要嵌入每一臺終端設備的OS、與本機NPU深度耦合，在OS里承擔雙重身份：往下，它是Runtime的本地推理后端；往上，它通過Runtime的框架與SDK作為系統級API向App開放。

自研在云端、端側都有意義，只是端側的回報更顯性。云端模型外采也能撐起能力天花板，自研的優勢則主要體現在路由控制權、商業條款、模型迭代節奏。端側不同。端側模型嵌入到每一臺設備的OS與NPU之中，自研的回報直接體現在產品性能上：KV cache共享、為某代芯片專門設計的2-bit量化感知訓練、Per-Layer Embedding（源自Gemma 3n，按層從快速存儲增量加載嵌入參數）等等，這些都得是模型與硬件同步設計才方便實現；與此同時，協同節奏也不可再受第三方硬件廠商制約。

Tensor G5的TPU算力較上一代G4最高提升60%，但Gemini Nano在G5上的提升遠不止于此——據Google官方與Jon Peddie Research整理，本地處理速度達上一代的2.6倍、能耗降至原先的一半、token窗口從12,000擴到32,000（相當于一次性消化約百張截圖）。這些顯著超出的性能表現，源自Gemini Nano v3采用的Matryoshka Transformer彈性推理架構，疊加與Tensor G5 TPU的協同優化。

Gemini Nano on Tensor G5較上一代的性能躍遷
來源：Google/Jon Peddie Research，云涌AI制圖

端側模型這一層，各主流OS廠商手里握著的都是自家牌：Google的Gemini Nano、Apple約3B參數的端側基礎模型、Microsoft的Phi Silica、華為的盤古端側模型。自研，是這一層的默認選項。

三.三層之間：協同越深，差異化空間越大

三層能力底盤自下而上耦合：可控芯片→端側/云端模型→Runtime→Agent。可控芯片決定端側模型可達到的推理效率與功耗，端側模型決定Runtime可調度的本地智能，Runtime決定Agent作為系統服務跨App執行的可靠性。三者協同越深，OS廠商在端側Agent上的產品體驗差異化越大，護城河也越厚。

三層在同一套軟硬件中咬合得越深，OS Agent 的產品能力也越會涌現出單層做不到的差異。

響應延遲與功耗。Gemini Nano在Tensor G5上拿到的2.6倍處理速度與能耗減半，依靠的是模型架構、芯片設計、Runtime調度三層在同代軟硬設計里相互適配，這種量級的改善才會涌現。
隱私與可信。涉及隱私數據的常用任務由端側模型就地完成，復雜請求再交給云端——這是現階段OS Agent對待用戶數據的合理默認姿態。三層耦合決定這種“端側優先、云端兜底”能否真正落地：NPU與端側模型深度適配，是仍處于發展期的端側模型肩負起日常高頻推理的關鍵路徑；模型為NPU做量化壓縮與KV cache共享；Runtime按任務復雜度在端側與云端之間路由。三層任一不到位，“端側優先”就只能是營銷話術。
系統級上下文。OS廠商把跨App和OS層用戶數據（語義索引、屏幕感知、長期記憶）重組成系統級個人語境提供給Agent，是Agent真正“理解用戶”的前提，也是OS Agent不同于單一應用級Agent的核心特征。落地依賴三層咬合：Runtime持有跨App索引與權限，端側模型常駐負責理解推理，NPU提供本地高效算力。Apple的Core Spotlight在終端建立語義索引，App通過App Intents把動作與數據接入系統，Agent將通過Personal Context獲取語境（Apple已宣布該能力將隨未來軟件更新上線）；Android側AppFunctions走的是同一條路徑。
作為系統服務的可靠性。OS Agent要被當作系統級服務調用，就得在不聯網、低電量、熱降頻等現實場景下保持可用。端側模型常駐設備，讓Agent離開網絡也能工作；高度軟硬優化的NPU承擔低功耗推理；Runtime在設備資源緊張時按可用性回退調度（切到更輕量的模型，或把請求路由到云端）。三層任一缺位，OS Agent就撐不起系統服務的形態，只能退回App級聊天按鈕。

Apple Intelligence呈現了完整的協同范式：Apple Silicon、約3B端側基礎模型、Foundation Models 框架自下而上咬合，端側處理常用場景，復雜請求轉入私密云端計算。Google是另一種形態。Tensor G5作為首款完整運行最新一代Gemini Nano的SoC在Pixel 10落地，由AICore統一調度，讓Magic Cue、Pixel Screenshots等系統級Agent功能可以不依賴云端默認開啟。華為是國內構筑三層協同的典范：麒麟、達芬奇 NPU、盤古端側、HMAF 四件全部自有，自下而上耦合成完整的三層底盤。

端側OS Agent三層底盤咬合機制
來源：云涌AI

四.底盤之上：長期護城河的其他關鍵變量

三層協同筑起護城河的核心。底盤之上還有眾多變量影響OS Agent時代的產品競爭力，包括Agent與App的交互能力、隱私保護等。

OS Agent與App的交互，處于OS廠商和App廠商博弈的最前線。眼下兩條路徑并行。一條是識屏與自動化，包括Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等。OS Agent靠讀屏幕、點按鈕介入App，單次任務可行，但每次調用都缺乏結構化信息，多步動作難以穩定搭建工作流。另一條是API深度集成，包括Google AppFunctions、Apple App Intents、華為Intents Kit等。App把核心動作以結構化接口暴露給系統，Agent調用穩定，也能搭建多步工作流。API路徑能否鋪開，關鍵不在OS廠商，而在App廠商。把核心功能交給Agent調用，意味著用戶可能不再直接打開App，品牌曝光、廣告位、行為數據、付費入口都有被OS截走的風險。這將是用戶側終端流量分配權的核心爭奪點。

隱私保護，是端側系統的關鍵價值和底線。OS廠商在端側握有最深的系統級權限和最敏感的用戶數據，隱私既是本職立場，也是前兩件事長期推進的前置條件。Apple通過端側Secure Enclave獨立安全芯片與私有云計算PCC節點共享的同一套硬件級安全設計，構建了基于終端的隱私保護體系，這一產品策略讓“Privacy. That’s Apple.”成為Apple在全球高端市場的核心品牌標簽，進而贏得用戶信任。

Apple的“Privacy. That’s Apple.”標簽
來源：Apple官網

三層協同立起護城河的核心，底盤之上的這些長期變量則影響它能加固到多深。

五.不只是重做OS

端側OS Agent化趨勢下，系統級AI Runtime、可控芯片、端云模型矩陣這三層底盤越扎實，OS廠商在這場仗里的產品下限就越高、差異化空間也越大。把握住這一趨勢的OS廠商，才有機會推動端側入口流量分配權的重置，拿到更強的競爭位置。

這一趨勢不止于手機和PC。OS Agent的底層能力沿著各家已搭建的多設備生態向更多終端外溢，尤以IoT為盛。可控芯片向汽車SoC等場景下沉，華為已布局車規級麒麟芯片、小米澎湃OS走進自家車型；端側模型向眼鏡等新形態硬件輕量化遷移，Google與Samsung、Gentle Monster、Warby Parker聯合開發的Android XR智能眼鏡將在2026年秋季上市；Runtime與Agent的協同則借由各家已鋪設的“超級終端/分布式”框架擴展到設備群，例如華為的1+8+N與鴻蒙分布式軟總線、小米的“人車家全生態”與HyperConnect、Apple的Continuity、Google的Cross device SDK與跨設備服務。OS Agent這場仗，遠不限于手機和PC的勝負。

AICore打磨了近兩年；Apple的OS與Apple silicon系列芯片磨合了十幾年；Tensor一路改到G5，Pixel 10方能肩負Gemini Nano v3的重擔。這場仗的高下，從來不在發布會上的一兩個小時，而在一代代的芯片、模型與Runtime中磨出來的。

參考資料：

Gemini Intelligence brings proactive AI to Android｜Google Blog
I/O 2026: Welcome to the agentic Gemini era｜Google Blog
Phi Silica, small but mighty on-device SLM｜Windows Experience Blog
Apple Delays Siri Upgrade Indefinitely｜Bloomberg
HarmonyOS 6 開發者 Beta 啟動新聞稿（HDC 2025）｜華為
The latest Gemini Nano with on-device ML Kit GenAI APIs｜Android Developers Blog
Foundation Models framework documentation｜Apple Developer
鴻蒙智能體框架白皮書｜華為開發者
On-Device Llama 3.1 with Core ML｜Apple Machine Learning Research
Apple Intelligence Foundation Language Models Tech Report 2025｜Apple Machine Learning Research
Google Tensor G5: Benchmarks and everything you need to know｜Android Central
Google’s new M5 SoC（Tensor G5 詳解·Matryoshka Transformer）｜Jon Peddie Research
Private Cloud Compute: A new frontier for AI privacy in the cloud｜Apple Security Engineering
Overview of AppFunctions｜Android Developers
App Intents｜Apple Developer
Intents Kit 簡介（HarmonyOS）｜華為開發者
The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14｜Macworld
Gemma 3n model overview｜Google AI for Developers

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.