網易首頁 > 網易號 > 正文申請入駐

階躍發布Step 3.7 Flash：一款為「燒錢時代」準備的Agent模型

2026-05-29 16:42:38　來源: 機器之心Pro

河北舉報

分享至

編輯｜楊文、冷貓

今年 3 月份，奧特曼公開表示：

「我們看到這樣一個未來：智能將成為一種公用事業，就像電力或自來水一樣，人們會按表從我們這里購買它。」

https://x.com/Vivek4real_/status/2059058179955380493?s=20

這個未來來得比預想更快，也比預想更貴。

米哈游員工為了沖項目，搭了幾十個 Agent，一晚上燒掉 200 萬元 token。

https://x.com/wayen_ai/status/2058786389009854868?s=20

Uber 四個月燒光了 2026 年全年 AI 預算，微軟財大氣粗也扛不住 token 消耗，直接把 Claude Code 權限砍了。

就連英偉達副總裁都直言：「我們團隊用 AI 的花費比請真人還貴。現在 AI 的成本已經超過人類員工了。」

https://x.com/Vivek4real_/status/2058607634182537496?s=20

這背后有其結構性原因。

真實的 Agent 工作流和普通對話式任務不同，模型進入生產環境后，一個 Agent 任務動輒觸發數十次模型調用，搜索、工具調用、代碼執行、結果驗證…… 每一輪都在累積延遲，token 消耗呈指數級增長。

開發者的實踐已經驗證，在選擇 Agent 核心模型時，任務場景、響應速度和成本，與工具調用能力同等重要。盲目追求大參數量，在工程上并不可取

于是今年以來，Flash 模型集中爆發。

Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 頭部廠商幾乎同步押注輕量高效路線。

但在這場輕量模型競賽中，很多廠商的思路是削減參數、壓縮成本、犧牲部分能力。階躍星辰則不同，它不把 Flash 模型當旗艦平替，而是專門為 Agent 工作流重新設計一款模型。

繼 Step 3.5 Flash 后，階躍星辰最近又推出新一代高效率 Flash 開源模型 ——Step 3.7 Flash

該模型最大特點就是（模）、（速）、（用）、（錢）。總參數 196B，采用稀疏 MoE 架構，推理激活參數僅 11B，配備 1.88B ViT 視覺編碼器，推理速度最高 400 TPS，支持 256K 上下文。

作為一款面向真實 Agent 工作流設計的高效率模型，它具備原生多模態理解能力，并打通了搜索、工具調用、GUI 感知、代碼生成等完整 Agent Loop 執行能力。

從 benchmark 來看，Step 3.7 Flash 沒有明顯短板。在通用 Agent 能力上，ClawEval-1.1 以 67.1% 拿下參測模型第二，Toolathlon、GPDval、HLE w. Tool 三項也均處于領先梯隊；Agentic Coding 方向，SWE-PRO 達到 56.3、Terminal-Bench v2.1 達到 59.5；多模態方向則是 SimpleVQA（search）以 79.2 位居榜首，V*（python）以 95.3 排在第三。

柱狀圖中左一為 Step 3.7 Flash、左二為 Step 3.5 Flash（Multimodal 除外）

接下來，我們就將 Step 3.7 Flash 放進真實的工作場景測評下。

原生多模態：它能「看懂」任務現場嗎？

先來試試原生多模態能力。

為了壓縮成本削減參數，有些輕量模型最先被犧牲的往往是多模態能力。

而在真實任務里，大量輸入根本不是干凈的結構化文本，還包括 GUI 截圖、掃描文檔、網頁內容，Agent 要進入這些場景，視覺理解是繞不開的前提。

Step 3.7 Flash 新增多模圖像理解、識別、推理、感知，可處理復雜視覺信息，并在跨模態上下文中進行聯合推理。

比如讓它分析 Pinterest 界面帖子的設計特點，它不僅能識別 UI 元素，還能理解應用界面的內容結構、設計邏輯與信息組織方式。

再比如框選駕駛艙界面，讓它生成起飛操作說明。

模型需要同時識別大量專業儀表、按鈕與狀態信息，并理解「如何起飛」背后的操作邏輯，什么時候推油門、何時收起起落架等。

相比傳統多模態模型的描述畫面， Step 3.7 Flash 完成的是「環境感知 → 狀態理解 → 任務推理 → 操作指導」的完整閉環。

在處理視覺任務時，常規做法是把大量視覺常識和感知能力硬塞進模型權重，但對 11B 激活量級的 Flash 模型來說，這條路天然受限。階躍選擇在權重里只留最核心的推理引擎，把感知邊界推到推理階段動態解決。

具體而言，模型可在推理中途自主對圖像進行裁切、縮放和重讀，告別「一眼定生死」的單步感知局限，當任務超出自身視覺常識邊界時，還能主動發起檢索、交叉驗證。「重新看」和「去查證」在同一個推理循環內自主閉環，能力上限不再受任何單點工具約束。

Deep Research：快速檢索，結構化交付

在 Deep Research 測評中，我們讓 Step 3.7 Flash 圍繞「2026 年第一季度中國新能源汽車市場」這一主題，檢索 3-5 個高可信度來源，對比比亞迪、特斯拉、理想、小鵬四個品牌的市場表現，生成一份結構化調研簡報。

模型快速完成檢索和信息整合，從銷量數據、價格區間、主要優缺點以及購車建議等方面進行結構化輸出。

在 Step 3.7 Flash 的工作方式里，搜索真正進入了推理循環本身，不再是外掛的輔助工具。

它能在推理中途主動判斷「當前信息是否足夠」，不足則自主發起新一輪檢索，檢索回來再判斷是否可信，再決定下一步怎么做。這種「搜 - 理解 - 再搜 - 驗證 - 再推理」的循環，讓模型在任務執行過程中能持續錨定真實世界的信息。

多 Agent 并行：400 TPS 能承載多少并發？

下面這個場景則是多個 Agent 并行推理測試。

40 個不同身份的虛擬角色扮演產品評測團，對一個產品問題進行并行判斷，然后實時匯總它們對 5 個 MVP 方向的偏好。

這群虛擬專家可以同時分析，分工執行，最終給出更穩健、更可解釋的結果。

對于需要大量并發推理的 Agent 場景，模型推理速度直接決定整個工作流能跑多快、能承載多少并行任務。

此外，模型還能依托精準推理能力和豐富知識儲備，快速構建結構清晰、關聯明確的知識圖譜。

GUI 操控：從「理解界面」到「操作設備」

Step 3.7 Flash 在 GUI 理解能力不僅限于多模態識別和規劃，作為一個基座模型，已經具備實時操作設備的能力。

我們找來一臺安卓測試機，不做任何額外的模型微調或本地推理配置，直接以 Step 3.7 Flash 作為決策大腦，看它在真實手機上能做到什么程度。

注：本次測試采用小米手機，使用小米互聯服務「妙享桌面」同步至電腦錄屏，敏感信息馬賽克處理。

第一關：信息匯總。模型順利完成，基本流暢：

「幫我看看微博文娛熱搜上有哪些內容，總結一下給我」。

視頻開啟倍速

第二關：出行規劃。任務涉及多個條件判斷和跨 App 操作：

我明天早上 9 點要到「北京國貿大廈」開會。幫我查一下明天早上的天氣，如果下雨就幫我叫一個網約車（不用真的下單，截圖到確認頁面即可），如果不下雨就查一下地鐵路線。打車和查線路均使用百度地圖。最后，把天氣情況、出行方案和預計出發時間整理成文字輸入到筆記中。

視頻開啟倍速

Step 3.7 Flash 在復雜邏輯的 GUI 操作中表現游刃有余，甚至能理解地圖導航中查看地鐵線路的細節，最終成功從多個 App 采集信息，整理進備忘錄。

第三關：社媒 + 電商跨平臺任務

我想了解一下最近新出的降噪耳機。幫我在小紅書上搜「2026 降噪耳機推薦」，找 3 篇點贊超過 300 的筆記，提取每篇推薦的型號、價格區間和博主提到的優缺點，找到最合適的一款幫我在京東購買。

視頻開啟倍速

社交媒體內容多樣、電商平臺 UI 結構復雜、邏輯判斷難度高，但最終結果超出預期，全程只有電商平臺的安全驗證環節需要真人配合操作，其余一切流暢執行。

Agent 時代，Flash 模型不是旗艦版平替

過去，Flash 模型常被視為旗艦模型的「輕量替代品」，用在不那么重要的場景，或作為成本兜底選項。

這個認知正在被打破。

隨著推理、規劃、工具調用、長上下文和環境反饋能力持續增強，模型越來越多地承擔起任務拆解、工具選擇、執行反饋和結果修正等 Agent 核心環節。

Flash 模型由此成了專為高頻、多步驟、低延遲的 Agent 工作流優化的獨立品類。

當然，這里有一個關鍵前提，Flash 模型必須足夠「能干」，否則省下來的成本會以任務失敗率的代價償還回去。如何在壓縮推理成本的同時，不丟掉完成復雜任務的能力，才是 Flash 模型賽道真正的技術分水嶺。

階躍星辰正是沿著這條路線突破的。今年 2 月，Step 3.5 Flash 上線，主打在 Agent 場景實現「更快、更強、更穩」的執行效果，上線兩天登頂 OpenRouter Trending 榜，一個月后拿下 OpenClaw 調用量月榜全球第一。

在此基礎上，Step 3.7 Flash 進一步迭代，兼顧更多能力的協同效率，并在成本、穩定性與部署形態上進一步滿足長期運行的要求。

這正是 Agent 工作流的本質要求。拿著有限預算跑完整條任務鏈，誰能在每一步調用中少犯錯、少超時、少超支，誰才是生產環境的真正贏家。在這個維度上，最好的模型未必是單次推理能力最強的，但一定是能被持續調用、穩定運行、成本可控的

正如階躍星辰聯合創始人、CTO 朱亦博所言：「我們相信未來的大模型應用方式，不是一個超大尺寸的模型解決所有問題。人類社會有不同的任務，我們追求的是許多不同模型的矩陣，Agent 是解決任務的方式。」

而 Step 3.7 Flash 證明，Flash 模型不是旗艦的廉價替代品，它可以有自己的完整能力矩陣，「多快好省」地成為 Agent 時代的主力。

文中視頻鏈接：https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.