文 | 云涌AI ,作者 | 黃云皓一Google I/O 2026之后:四大端側OS步入Agent時代
2026年5月12日,Google舉辦了Android Show|I/O Edition發布會,這是5月19日I/O大會之前的Android專場。Android生態總裁Sameer Samat給這場發布會定調:Android要從操作系統轉化成一套智能系統。承接這條主線的,就是Gemini Intelligence——Android系統層的一套主動式AI能力。
![]()
2026年Android Show|I/O Edition發布會海報
來源:Android Heaadlines
與去年Gemini Nano+AICore的組合相比,這次Google讓Agent跨App與上下文的能力進一步嵌入OS層:跨App任務自動化(訂餐、采購、下單)、表單自動填充、網頁摘要、自定義小組件,依次寫進系統級能力清單。Google同時把用戶顯性控制(explicit user control)、全面數據保護(comprehensive data protection)、運營透明(operational transparency)列為產品三原則。
一周后的5月19日I/O主題演講上,Google CEO Sundar Pichai沿這條主線開場:
Welcome to the agentic Gemini era(歡迎進入Agent化的Gemini時代)
投身端側OS Agent化浪潮,Google算不上起跑早。
Microsoft在2024年5月的Build 2024上推出Copilot+PC(搭載40+ TOPS NPU的新一代Windows 11機型品類),基于端側小模型Phi Silica、屏幕Agent能力Click to Do、系統級活動記憶Recall三項能力將Agent能力嵌入OS系統。
2024年6月的WWDC24上,Apple就已正式公布“Apple Intelligence”,Apple當時給它的定位就是“personal intelligence system”(個人智能系統),后續陸續上線了一些AI輔助功能,只不過由于自家大模型難產、Siri“弱智”等問題,Apple Intelligence的核心Agent能力一直未能面世。
華為則在2025年6月HDC 2025上發布HarmonyOS 6與鴻蒙智能體框架(HMAF),隨后小藝智能體廣場上線了80多個智能體。
端側OS Agent化的大趨勢已經同時出現在Android、iOS、HarmonyOS、Windows等主流操作系統上。
發布會展示的只是功能,OS廠商真正要拼的,是支撐OS Agent可靠運行、實際解決問題的三層能力底:系統級AI Runtime、可控芯片、端云模型矩陣。
二.發布會之下:撐起OS Agent的三層底盤系統級AI Runtime:端側智能的調度中樞
Runtime是端側模型在操作系統里運行的推理引擎與系統服務。往下,它直接對接NPU與系統資源調度;往上,它以穩定API把推理能力暴露給所有App。它把端側模型變成了“OS層的共享智能”:跨App共享模型權重、統一調度算力與內存、承載Agent所需的工具調用、引導生成、上下文與權限對接。它決定了OS Agent究竟是App里的一個聊天按鈕,還是操作系統上能執行系統級操作的常駐服務。
Android體系內最完整的樣本是Google AICore。2023年12月,AICore作為Android 14的系統服務(system service)上線;2025年8月,Gemini Nano通過ML Kit GenAI APIs對開發者開放。從系統服務底座到面向App的穩定API,AICore走了近兩年,不斷打磨。
其他OS廠商走的是同一條路,節奏不同。Apple在WWDC25把Foundation Models框架開放給開發者,框架自帶@Generable裝飾器、工具調用、引導生成(guided generation)與有狀態會話(stateful session),背后接的是約3B參數的端側基礎模型,加上私密云端計算提供云端支持。Microsoft把端側AI框架Foundry on Windows與Phi Silica裝進Windows 11,以Windows ML作為底層推理后端。華為在HDC 2025發布Agent Framework Kit(鴻蒙智能體框架,HMAF),把意圖體系與Agent協作協議一起開放。
![]()
Android AICore 作為系統服務,調度 Gemini Nano 在硬件加速器上推理
來源:Android Developers
可控芯片:軟硬協同的支點
Google在Android Show|I/O Edition上為Gemini Intelligence設置明確的硬件門檻:完整功能集首發僅面向Pixel 10系列與Galaxy S26系列等少數最新旗艦,去年的機型均不在列。這指向一個簡單事實:AI模型還在快速演進,軟件對硬件持續提出新要求。可控芯片是承接這些要求的底盤,可控程度決定OS廠商為端側OS Agent做軟硬適配的空間。
Apple是軟硬一體路線的典范。iOS與macOS從一開始就與A系列、M系列芯片同代演進,Core ML則把CPU、GPU、ANE的調度統一封裝到框架層。這條路線在LLM時代繼續延伸。Apple Machine Learning Research給出過一組實測:按Core ML的優化路徑把Llama 3.1 8B Instruct部署到M1 Max上,本地解碼速度可達約33 tokens/s。《Apple Intelligence Foundation Language Models》技術報告也披露,Apple為自家芯片做了KV cache共享與2-bit量化感知訓練等架構級優化,才得以成功把約3B的端側基礎模型通過Foundation Models框架開放給開發者。這種深度,只有把芯片握在自己手里才做得出——這正是可控芯片之于OS廠商的價值:它決定了軟硬協同的深度,也提高了端側OS Agent的體驗上限。
進入AI時代,Google也在做同一件事——從Pixel 6起走自研Tensor SoC路線,最新的Tensor G5把TPU性能最高提升60%、CPU平均提升34%,作為首款完整運行最新一代Gemini Nano的SoC在Pixel 10落地。當然,Tensor G5也有短板:Android Central實測顯示其內存配置(RAM容量)仍是AI性能瓶頸、Geekbench AI跑分輸給驍龍8 Elite;Macworld的Geekbench 6實測中,G5的單核與多核分數都低于A18 Pro。Google還在追趕,但自研Tensor加端側Gemini的協同路線已經成形。
華為麒麟搭配達芬奇NPU與盤古端側模型,是另一條與Apple、Google并行的可控芯片路徑。小米落地了玄戒O1,是朝可控芯片方向走出的新進者。
端云模型矩陣:Agent的智力源泉
端云模型矩陣是終端設備的“智力”源泉:云端模型撐起復雜任務的能力天花板,端側模型托起日常運行的下限——延遲、續航、隱私、穩定性都壓在端側這一頭。兩端缺一不可,差別在與OS的耦合深度。端側模型要嵌入每一臺終端設備的OS、與本機NPU深度耦合,在OS里承擔雙重身份:往下,它是Runtime的本地推理后端;往上,它通過Runtime的框架與SDK作為系統級API向App開放。
自研在云端、端側都有意義,只是端側的回報更顯性。云端模型外采也能撐起能力天花板,自研的優勢則主要體現在路由控制權、商業條款、模型迭代節奏。端側不同。端側模型嵌入到每一臺設備的OS與NPU之中,自研的回報直接體現在產品性能上:KV cache共享、為某代芯片專門設計的2-bit量化感知訓練、Per-Layer Embedding(源自Gemma 3n,按層從快速存儲增量加載嵌入參數)等等,這些都得是模型與硬件同步設計才方便實現;與此同時,協同節奏也不可再受第三方硬件廠商制約。
Tensor G5的TPU算力較上一代G4最高提升60%,但Gemini Nano在G5上的提升遠不止于此——據Google官方與Jon Peddie Research整理,本地處理速度達上一代的2.6倍、能耗降至原先的一半、token窗口從12,000擴到32,000(相當于一次性消化約百張截圖)。這些顯著超出的性能表現,源自Gemini Nano v3采用的Matryoshka Transformer彈性推理架構,疊加與Tensor G5 TPU的協同優化。
![]()
Gemini Nano on Tensor G5較上一代的性能躍遷
來源:Google/Jon Peddie Research,云涌AI制圖
端側模型這一層,各主流OS廠商手里握著的都是自家牌:Google的Gemini Nano、Apple約3B參數的端側基礎模型、Microsoft的Phi Silica、華為的盤古端側模型。自研,是這一層的默認選項。
三.三層之間:協同越深,差異化空間越大
三層能力底盤自下而上耦合:可控芯片→端側/云端模型→Runtime→Agent。可控芯片決定端側模型可達到的推理效率與功耗,端側模型決定Runtime可調度的本地智能,Runtime決定Agent作為系統服務跨App執行的可靠性。三者協同越深,OS廠商在端側Agent上的產品體驗差異化越大,護城河也越厚。
三層在同一套軟硬件中咬合得越深,OS Agent 的產品能力也越會涌現出單層做不到的差異。
- 響應延遲與功耗。Gemini Nano在Tensor G5上拿到的2.6倍處理速度與能耗減半,依靠的是模型架構、芯片設計、Runtime調度三層在同代軟硬設計里相互適配,這種量級的改善才會涌現。
- 隱私與可信。涉及隱私數據的常用任務由端側模型就地完成,復雜請求再交給云端——這是現階段OS Agent對待用戶數據的合理默認姿態。三層耦合決定這種“端側優先、云端兜底”能否真正落地:NPU與端側模型深度適配,是仍處于發展期的端側模型肩負起日常高頻推理的關鍵路徑;模型為NPU做量化壓縮與KV cache共享;Runtime按任務復雜度在端側與云端之間路由。三層任一不到位,“端側優先”就只能是營銷話術。
- 系統級上下文。OS廠商把跨App和OS層用戶數據(語義索引、屏幕感知、長期記憶)重組成系統級個人語境提供給Agent,是Agent真正“理解用戶”的前提,也是OS Agent不同于單一應用級Agent的核心特征。落地依賴三層咬合:Runtime持有跨App索引與權限,端側模型常駐負責理解推理,NPU提供本地高效算力。Apple的Core Spotlight在終端建立語義索引,App通過App Intents把動作與數據接入系統,Agent將通過Personal Context獲取語境(Apple已宣布該能力將隨未來軟件更新上線);Android側AppFunctions走的是同一條路徑。
- 作為系統服務的可靠性。OS Agent要被當作系統級服務調用,就得在不聯網、低電量、熱降頻等現實場景下保持可用。端側模型常駐設備,讓Agent離開網絡也能工作;高度軟硬優化的NPU承擔低功耗推理;Runtime在設備資源緊張時按可用性回退調度(切到更輕量的模型,或把請求路由到云端)。三層任一缺位,OS Agent就撐不起系統服務的形態,只能退回App級聊天按鈕。
Apple Intelligence呈現了完整的協同范式:Apple Silicon、約3B端側基礎模型、Foundation Models 框架自下而上咬合,端側處理常用場景,復雜請求轉入私密云端計算。Google是另一種形態。Tensor G5作為首款完整運行最新一代Gemini Nano的SoC在Pixel 10落地,由AICore統一調度,讓Magic Cue、Pixel Screenshots等系統級Agent功能可以不依賴云端默認開啟。華為是國內構筑三層協同的典范:麒麟、達芬奇 NPU、盤古端側、HMAF 四件全部自有,自下而上耦合成完整的三層底盤。
![]()
端側OS Agent三層底盤咬合機制
來源:云涌AI
四.底盤之上:長期護城河的其他關鍵變量
三層協同筑起護城河的核心。底盤之上還有眾多變量影響OS Agent時代的產品競爭力,包括Agent與App的交互能力、隱私保護等。
OS Agent與App的交互,處于OS廠商和App廠商博弈的最前線。眼下兩條路徑并行。一條是識屏與自動化,包括Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等。OS Agent靠讀屏幕、點按鈕介入App,單次任務可行,但每次調用都缺乏結構化信息,多步動作難以穩定搭建工作流。另一條是API深度集成,包括Google AppFunctions、Apple App Intents、華為Intents Kit等。App把核心動作以結構化接口暴露給系統,Agent調用穩定,也能搭建多步工作流。API路徑能否鋪開,關鍵不在OS廠商,而在App廠商。把核心功能交給Agent調用,意味著用戶可能不再直接打開App,品牌曝光、廣告位、行為數據、付費入口都有被OS截走的風險。這將是用戶側終端流量分配權的核心爭奪點。
隱私保護,是端側系統的關鍵價值和底線。OS廠商在端側握有最深的系統級權限和最敏感的用戶數據,隱私既是本職立場,也是前兩件事長期推進的前置條件。Apple通過端側Secure Enclave獨立安全芯片與私有云計算PCC節點共享的同一套硬件級安全設計,構建了基于終端的隱私保護體系,這一產品策略讓“Privacy. That’s Apple.”成為Apple在全球高端市場的核心品牌標簽,進而贏得用戶信任。
![]()
Apple的“Privacy. That’s Apple.”標簽
來源:Apple官網
三層協同立起護城河的核心,底盤之上的這些長期變量則影響它能加固到多深。
五.不只是重做OS
端側OS Agent化趨勢下,系統級AI Runtime、可控芯片、端云模型矩陣這三層底盤越扎實,OS廠商在這場仗里的產品下限就越高、差異化空間也越大。把握住這一趨勢的OS廠商,才有機會推動端側入口流量分配權的重置,拿到更強的競爭位置。
這一趨勢不止于手機和PC。OS Agent的底層能力沿著各家已搭建的多設備生態向更多終端外溢,尤以IoT為盛。可控芯片向汽車SoC等場景下沉,華為已布局車規級麒麟芯片、小米澎湃OS走進自家車型;端側模型向眼鏡等新形態硬件輕量化遷移,Google與Samsung、Gentle Monster、Warby Parker聯合開發的Android XR智能眼鏡將在2026年秋季上市;Runtime與Agent的協同則借由各家已鋪設的“超級終端/分布式”框架擴展到設備群,例如華為的1+8+N與鴻蒙分布式軟總線、小米的“人車家全生態”與HyperConnect、Apple的Continuity、Google的Cross device SDK與跨設備服務。OS Agent這場仗,遠不限于手機和PC的勝負。
AICore打磨了近兩年;Apple的OS與Apple silicon系列芯片磨合了十幾年;Tensor一路改到G5,Pixel 10方能肩負Gemini Nano v3的重擔。這場仗的高下,從來不在發布會上的一兩個小時,而在一代代的芯片、模型與Runtime中磨出來的。
參考資料:
- Gemini Intelligence brings proactive AI to Android|Google Blog
- I/O 2026: Welcome to the agentic Gemini era|Google Blog
- Phi Silica, small but mighty on-device SLM|Windows Experience Blog
- Apple Delays Siri Upgrade Indefinitely|Bloomberg
- HarmonyOS 6 開發者 Beta 啟動新聞稿(HDC 2025)|華為
- The latest Gemini Nano with on-device ML Kit GenAI APIs|Android Developers Blog
- Foundation Models framework documentation|Apple Developer
- 鴻蒙智能體框架白皮書|華為開發者
- On-Device Llama 3.1 with Core ML|Apple Machine Learning Research
- Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research
- Google Tensor G5: Benchmarks and everything you need to know|Android Central
- Google’s new M5 SoC(Tensor G5 詳解·Matryoshka Transformer)|Jon Peddie Research
- Private Cloud Compute: A new frontier for AI privacy in the cloud|Apple Security Engineering
- Overview of AppFunctions|Android Developers
- App Intents|Apple Developer
- Intents Kit 簡介(HarmonyOS)|華為開發者
- The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14|Macworld
- Gemma 3n model overview|Google AI for Developers
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.