網易首頁 > 網易號 > 正文申請入駐

封神！商湯絕影Sage實測94%，讓座艙從“聽懂”到“說到做到”

2026-04-22 12:33:30　來源: 出行范

北京舉報

分享至

隨著AI智能體上車越來越普遍，智能座艙也陷入新的困境：想要實現復雜的智能體能力，比如多步規劃、設備聯動，就必須依賴云端大模型，但云端調用不僅有明顯的延遲（高速行駛時可能錯過關鍵指令響應），還會產生高昂的Token成本，長期使用下來對車企和用戶都是一筆不小的負擔。

而如果堅守端側，受限于車載設備的算力和存儲，模型只能做簡單的指令響應，比如“打開空調”“播放音樂”，無法處理復雜的復合指令，更談不上主動服務。

這種兩難，讓智能座艙陷入了“看似智能，實則笨拙”的尷尬。商湯絕影最新發布的端側多模態智能體基座大模型Sage，有望打破這一困局。

據介紹，Sage 采用 MoE 架構，總參數量為 32B，激活參數僅 3B ，是行業內首款在車端實現復雜智能體能力的基座大模型，目前已在英偉達 Orin X 端側平臺實現部署。

在國際權威Agent評測基準PinchBench上，Sage以94%的最佳任務完成率，力壓Claude-Opus-4.6、GPT-5.4、Google-Gemini-3等一眾國際主流云側、端側大模型。

在北京車展期間，商湯絕影將正式推出搭載Sage端側多模態智能體基座大模型的Sage Box，為汽車邁入超級智能體時代筑牢核心根基。在AI全面進入智能體時代的今天，Sage的發布不僅是商湯絕影的一次技術突破，更可能改寫整個端側大模型與智能座艙的發展格局。端側智能的未來，不是參數的堆砌，而是效率與能力的極致平衡。

實測封神，小參數干贏大模型

評判一個智能體模型的實力，不能只看宣傳，要看實打實的評測。而PinchBench，正是當前最能檢驗智能體真實能力的“試金石”。

可能有人對PinchBench不太熟悉，它并非某家大廠推出的“自賣自夸”型榜單，而是由Kilo AI團隊打造的開源評測基準，還得到了“龍蝦之父”Peter Steinberger的推薦。

與傳統評測不同，PinchBench不依賴固定的靜態題庫，而是隨著真實任務庫的擴充不斷迭代，覆蓋寫作、研究、編碼、日程管理、工具調用等23個真實工作場景，核心考察模型的多步推理、工具調用和任務閉環能力。

更關鍵的是，PinchBench的評測極其嚴格，不僅看任務成功率，還會綜合衡量速度和成本，單任務的Token消耗就可達數十萬量級，測試周期長、資源消耗高，因此能在這個榜單上拿到高分，足以證明模型在真實復雜場景中的穩定性和實用性。

Sage在這個榜單上的表現，堪稱“碾壓級”：94%的最佳任務完成率，超過了Claude-Opus-4.6（93.3%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）等一眾云側旗艦。

甚至比小米MiMo-v2-Pro高出6.6個百分點——要知道，小米MiMo-v2-Pro的激活參數高達42B，總參數超1T，而Sage的激活參數僅3B，所需激活算力僅為前者的1/14，顯存占用約為1/31。

這組數據背后，是Sage對行業慣性認知的顛覆。長期以來，行業內普遍認為“只有大參數量模型才能做好智能體任務”，但Sage用實際表現證明：端側智能的核心，不是參數大小，而是技術路線的合理性。

它采用MoE架構，總參數量32B，卻只激活3B參數，相當于“養了一支32人的團隊，每次只派3個核心成員干活”，既保證了能力，又極大降低了算力消耗，完美解決了端側算力不足的痛點。

更值得關注的是，Sage并非“偏科生”。在其他專業基準測試中，它同樣全面領先。在MMLU Pro（跨學科專業知識）測試中，Sage獲得76分，領先同級端側模型約10%，證明端側模型也能具備云端級的通用知識密度。

在GPQA Diamond（研究生級專業推理）測試中，77分的成績實現了33%的提升，凸顯了其復雜推理能力；而在針對座艙場景的Human Semantic Understanding測試中，91分的高分（提升32%），則體現了其對車載場景的深度適配。

最能體現其智能體能力的，是τ2-bench基準測試——這個榜單專門評估模型的工具調用和任務閉環能力，是區分“會聊天的模型”與“會辦事的智能體”的關鍵。Sage以80分的成績，比谷歌本月剛發布的Gemma 4（同量級端側旗艦）提升38%，接近翻倍領先，直接印證了它作為端側智能體基座的絕對優勢。

讓模型“學得省、做得對”，才是端側智能的核心

Sage能在小參數下實現高性能，背后離不開商湯絕影自研的兩大核心技術——SCOUT和ERL。這兩項技術一“攻”一“守”，一個讓模型“學得又快又省”，一個讓模型“做事不出錯”，共同構成了Sage的技術護城河。

先說說SCOUT（分級協同學習框架）。對于車載場景來說，很多任務都涉及空間規劃、設備聯動和多步決策，比如“導航到公司，避開早高峰，途中提醒我加油，到公司后自動發送‘已到崗’郵件”。如果讓大模型直接試錯學習這些復雜任務，不僅速度慢，還會消耗大量算力，成本高到難以承受。

SCOUT的思路很巧妙，相當于給大模型配了一組“偵察兵”——先派輕量小模型（比如小型MLPs）快速在任務中試錯，把所有走得通的路徑篩選出來，再把這些高價值的經驗喂給大模型學習，形成“小模型探路，大模型吸收”的學習機制。

這種方式不僅讓大模型能快速掌握真實用車場景的技能，還能節省約60%的GPU小時消耗，這項技術成果已上傳至arXiv（論文鏈接：https://arxiv.org/abs/2601.21754），得到了學術界的認可。

如果說SCOUT解決的是“學習效率”問題，那么ERL（可擦除強化學習）解決的就是“執行精度”問題。在真實用車場景中，用戶的復合指令往往需要多步推理和執行，只要其中一步出現錯誤，整個任務就會失敗——比如規劃路線時漏掉了“買早餐”，或者調節空調時誤觸了其他功能。

ERL技術就像給模型裝上了“自我糾錯”的能力，它能自動識別推理過程中的錯誤步驟，將錯誤內容擦除并重新生成，從源頭阻斷錯誤邏輯的擴散。這項已被機器學習頂級會議ICLR 2026收錄的技術（論文鏈接：https://arxiv.org/abs/2510.00861），讓Sage在復雜任務上的完成率提升了20%，徹底解決了車載模型“容易出錯”的痛點。

這兩項技術的核心價值，在于它們抓住了端側大模型的本質需求——不是追求“參數最大”，而是追求“效率最優”。

對于車企來說，算力成本和量產可行性是首要考慮的因素，SCOUT和ERL的組合，既降低了訓練和部署成本，又保證了任務執行的穩定性，這也是Sage能快速實現量產落地的關鍵。

Sage讓智能“落地生根”

對于普通用戶來說，再多的評測數據和技術名詞，都不如真實的用車體驗有說服力。Sage的真正厲害之處，在于它已經實現了量產部署，能把實驗室里的性能，轉化為用戶能實實在在感受到的便利。

目前，Sage已經在英偉達Orin X端側平臺實現部署，這意味著它能快速上車，適配絕大多數主流車載硬件。

在實際測試中，Sage的首字響應時間（TTFT）僅約0.5秒，單Token推理延遲（TPOT）低至0.03秒，生成吞吐達到80 tk/S，平均任務時長優于主流API模型——也就是說，你喊出指令后，幾乎沒有延遲，模型就能快速響應并執行。

具體到用車場景，Sage的表現堪稱“貼心伙伴”。它能一次性解析你的復合指令，自動聯動導航、空調、影音等車載系統，完成全流程任務閉環，不用你反復喚醒、反復指令。

更智能的是，它能結合傳感器對乘員狀態與路況的感知，還能主動提供兒童模式、智能路線調整等服務。

這背后，離不開商湯絕影在車載場景的深厚積累。作為中國智能座艙AI軟件的領頭羊，商湯絕影的座艙AI軟件市場份額已連續5年位列行業第一，截至2024年底，已與超30家國內外車企達成合作，覆蓋130余款車型，量產交付累計突破360萬輛。

而Sage的發布，更是將這種優勢進一步放大——它可接入OpenClaw、Hermes等主流Agent框架，為更多車企提供核心支撐，覆蓋出行、家庭等全場景。

在北京車展期間，商湯絕影還將推出搭載Sage的Sage Box，這意味著很快，我們就能在更多新車上體驗到這款“端側智能大腦”的實力，智能座艙也將正式從“基礎交互”向“高階艙駕融合智能體服務”跨越。

Sage的發布，給整個端側大模型行業帶來了一個重要啟示：端側智能的競爭，正在從“參數競賽”轉向“實用競賽”。

過去幾年，大模型行業陷入了“參數越大越好”的怪圈，動輒千億、萬億參數的模型層出不窮，但很多模型只能停留在實驗室里，無法實現量產落地，最終淪為“紙面實力”。

而Sage的成功，恰恰證明了“務實”才是端側大模型的核心競爭力——它不追求參數規模，而是聚焦用戶真實需求和車企量產痛點，用合理的技術路線，實現了能力、成本與可行性的平衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.