![]()
編輯|楊文、冷貓
今年 3 月份,奧特曼公開表示:
「我們看到這樣一個未來:智能將成為一種公用事業,就像電力或自來水一樣,人們會按表從我們這里購買它。」
![]()
https://x.com/Vivek4real_/status/2059058179955380493?s=20
這個未來來得比預想更快,也比預想更貴。
米哈游員工為了沖項目,搭了幾十個 Agent,一晚上燒掉 200 萬元 token。
![]()
https://x.com/wayen_ai/status/2058786389009854868?s=20
Uber 四個月燒光了 2026 年全年 AI 預算,微軟財大氣粗也扛不住 token 消耗,直接把 Claude Code 權限砍了。
就連英偉達副總裁都直言:「我們團隊用 AI 的花費比請真人還貴。現在 AI 的成本已經超過人類員工了。」
![]()
https://x.com/Vivek4real_/status/2058607634182537496?s=20
這背后有其結構性原因。
真實的 Agent 工作流和普通對話式任務不同,模型進入生產環境后,一個 Agent 任務動輒觸發數十次模型調用,搜索、工具調用、代碼執行、結果驗證…… 每一輪都在累積延遲,token 消耗呈指數級增長。
開發者的實踐已經驗證,在選擇 Agent 核心模型時,任務場景、響應速度和成本,與工具調用能力同等重要。盲目追求大參數量,在工程上并不可取
于是今年以來,Flash 模型集中爆發。
Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 頭部廠商幾乎同步押注輕量高效路線。
但在這場輕量模型競賽中,很多廠商的思路是削減參數、壓縮成本、犧牲部分能力。階躍星辰則不同,它不把 Flash 模型當旗艦平替,而是專門為 Agent 工作流重新設計一款模型。
繼 Step 3.5 Flash 后,階躍星辰最近又推出新一代高效率 Flash 開源模型 ——Step 3.7 Flash
該模型最大特點就是(模)、(速)、(用)、(錢)。總參數 196B,采用稀疏 MoE 架構,推理激活參數僅 11B,配備 1.88B ViT 視覺編碼器,推理速度最高 400 TPS,支持 256K 上下文。
作為一款面向真實 Agent 工作流設計的高效率模型,它具備原生多模態理解能力,并打通了搜索、工具調用、GUI 感知、代碼生成等完整 Agent Loop 執行能力。
從 benchmark 來看,Step 3.7 Flash 沒有明顯短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下參測模型第二,Toolathlon、GPDval、HLE w. Tool 三項也均處于領先梯隊;Agentic Coding 方向,SWE-PRO 達到 56.3、Terminal-Bench v2.1 達到 59.5;多模態方向則是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。
![]()
柱狀圖中左一為 Step 3.7 Flash、左二為 Step 3.5 Flash(Multimodal 除外)
接下來,我們就將 Step 3.7 Flash 放進真實的工作場景測評下。
原生多模態:它能「看懂」任務現場嗎?
先來試試原生多模態能力。
為了壓縮成本削減參數,有些輕量模型最先被犧牲的往往是多模態能力。
而在真實任務里,大量輸入根本不是干凈的結構化文本,還包括 GUI 截圖、掃描文檔、網頁內容,Agent 要進入這些場景,視覺理解是繞不開的前提。
Step 3.7 Flash 新增多模圖像理解、識別、推理、感知,可處理復雜視覺信息,并在跨模態上下文中進行聯合推理。
比如讓它分析 Pinterest 界面帖子的設計特點,它不僅能識別 UI 元素,還能理解應用界面的內容結構、設計邏輯與信息組織方式。
![]()
再比如框選駕駛艙界面,讓它生成起飛操作說明。
模型需要同時識別大量專業儀表、按鈕與狀態信息,并理解「如何起飛」背后的操作邏輯,什么時候推油門、何時收起起落架等。
相比傳統多模態模型的描述畫面, Step 3.7 Flash 完成的是「環境感知 → 狀態理解 → 任務推理 → 操作指導」的完整閉環。
![]()
在處理視覺任務時,常規做法是把大量視覺常識和感知能力硬塞進模型權重,但對 11B 激活量級的 Flash 模型來說,這條路天然受限。階躍選擇在權重里只留最核心的推理引擎,把感知邊界推到推理階段動態解決。
具體而言,模型可在推理中途自主對圖像進行裁切、縮放和重讀,告別「一眼定生死」的單步感知局限,當任務超出自身視覺常識邊界時,還能主動發起檢索、交叉驗證。「重新看」和「去查證」在同一個推理循環內自主閉環,能力上限不再受任何單點工具約束。
Deep Research:快速檢索,結構化交付
在 Deep Research 測評中,我們讓 Step 3.7 Flash 圍繞「2026 年第一季度中國新能源汽車市場」這一主題,檢索 3-5 個高可信度來源,對比比亞迪、特斯拉、理想、小鵬四個品牌的市場表現,生成一份結構化調研簡報。
模型快速完成檢索和信息整合,從銷量數據、價格區間、主要優缺點以及購車建議等方面進行結構化輸出。
![]()
在 Step 3.7 Flash 的工作方式里,搜索真正進入了推理循環本身,不再是外掛的輔助工具。
它能在推理中途主動判斷「當前信息是否足夠」,不足則自主發起新一輪檢索,檢索回來再判斷是否可信,再決定下一步怎么做。這種「搜 - 理解 - 再搜 - 驗證 - 再推理」的循環,讓模型在任務執行過程中能持續錨定真實世界的信息。
多 Agent 并行:400 TPS 能承載多少并發?
下面這個場景則是多個 Agent 并行推理測試。
40 個不同身份的虛擬角色扮演產品評測團,對一個產品問題進行并行判斷,然后實時匯總它們對 5 個 MVP 方向的偏好。
這群虛擬專家可以同時分析,分工執行,最終給出更穩健、更可解釋的結果。
![]()
對于需要大量并發推理的 Agent 場景,模型推理速度直接決定整個工作流能跑多快、能承載多少并行任務。
此外,模型還能依托精準推理能力和豐富知識儲備,快速構建結構清晰、關聯明確的知識圖譜。
![]()
GUI 操控:從「理解界面」到「操作設備」
Step 3.7 Flash 在 GUI 理解能力不僅限于多模態識別和規劃,作為一個基座模型,已經具備實時操作設備的能力。
我們找來一臺安卓測試機,不做任何額外的模型微調或本地推理配置,直接以 Step 3.7 Flash 作為決策大腦,看它在真實手機上能做到什么程度。
注:本次測試采用小米手機,使用小米互聯服務「妙享桌面」同步至電腦錄屏,敏感信息馬賽克處理。
第一關:信息匯總。模型順利完成,基本流暢:
「幫我看看微博文娛熱搜上有哪些內容,總結一下給我」。
![]()
視頻開啟倍速
第二關:出行規劃。任務涉及多個條件判斷和跨 App 操作:
我明天早上 9 點要到「北京國貿大廈」開會。幫我查一下明天早上的天氣, 如果下雨就幫我叫一個網約車(不用真的下單,截圖到確認頁面即可),如果不下雨就查一下地鐵路線。打車和查線路均使用百度地圖。最后,把天氣情況、出行方案和預計出發時間整理成文字輸入到筆記中。
![]()
視頻開啟倍速
Step 3.7 Flash 在復雜邏輯的 GUI 操作中表現游刃有余,甚至能理解地圖導航中查看地鐵線路的細節,最終成功從多個 App 采集信息,整理進備忘錄。
第三關:社媒 + 電商跨平臺任務
我想了解一下最近新出的降噪耳機。幫我在小紅書上搜「2026 降噪耳機推薦」,找 3 篇點贊超過 300 的筆記,提取每篇推薦的型號、價格區間和博主提到的優缺點,找到最合適的一款幫我在京東購買。
![]()
視頻開啟倍速
社交媒體內容多樣、電商平臺 UI 結構復雜、邏輯判斷難度高,但最終結果超出預期,全程只有電商平臺的安全驗證環節需要真人配合操作,其余一切流暢執行。
Agent 時代,Flash 模型不是旗艦版平替
過去,Flash 模型常被視為旗艦模型的「輕量替代品」,用在不那么重要的場景,或作為成本兜底選項。
這個認知正在被打破。
隨著推理、規劃、工具調用、長上下文和環境反饋能力持續增強,模型越來越多地承擔起任務拆解、工具選擇、執行反饋和結果修正等 Agent 核心環節。
Flash 模型由此成了專為高頻、多步驟、低延遲的 Agent 工作流優化的獨立品類。
當然,這里有一個關鍵前提,Flash 模型必須足夠「能干」,否則省下來的成本會以任務失敗率的代價償還回去。如何在壓縮推理成本的同時,不丟掉完成復雜任務的能力,才是 Flash 模型賽道真正的技術分水嶺。
階躍星辰正是沿著這條路線突破的。今年 2 月,Step 3.5 Flash 上線,主打在 Agent 場景實現「更快、更強、更穩」的執行效果,上線兩天登頂 OpenRouter Trending 榜,一個月后拿下 OpenClaw 調用量月榜全球第一。
在此基礎上,Step 3.7 Flash 進一步迭代,兼顧更多能力的協同效率,并在成本、穩定性與部署形態上進一步滿足長期運行的要求。
這正是 Agent 工作流的本質要求。拿著有限預算跑完整條任務鏈,誰能在每一步調用中少犯錯、少超時、少超支,誰才是生產環境的真正贏家。在這個維度上,最好的模型未必是單次推理能力最強的,但一定是能被持續調用、穩定運行、成本可控的
正如階躍星辰聯合創始人、CTO 朱亦博所言:「我們相信未來的大模型應用方式,不是一個超大尺寸的模型解決所有問題。人類社會有不同的任務,我們追求的是許多不同模型的矩陣,Agent 是解決任務的方式。」
而 Step 3.7 Flash 證明,Flash 模型不是旗艦的廉價替代品,它可以有自己的完整能力矩陣,「多快好省」地成為 Agent 時代的主力。
文中視頻鏈接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.