无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

階躍發布Step 3.7 Flash:一款為「燒錢時代」準備的Agent模型

0
分享至



編輯|楊文、冷貓

今年 3 月份,奧特曼公開表示:

「我們看到這樣一個未來:智能將成為一種公用事業,就像電力或自來水一樣,人們會按表從我們這里購買它。」



https://x.com/Vivek4real_/status/2059058179955380493?s=20

這個未來來得比預想更快,也比預想更貴。

米哈游員工為了沖項目,搭了幾十個 Agent,一晚上燒掉 200 萬元 token。



https://x.com/wayen_ai/status/2058786389009854868?s=20

Uber 四個月燒光了 2026 年全年 AI 預算,微軟財大氣粗也扛不住 token 消耗,直接把 Claude Code 權限砍了。

就連英偉達副總裁都直言:「我們團隊用 AI 的花費比請真人還貴。現在 AI 的成本已經超過人類員工了。」



https://x.com/Vivek4real_/status/2058607634182537496?s=20

這背后有其結構性原因。

真實的 Agent 工作流和普通對話式任務不同,模型進入生產環境后,一個 Agent 任務動輒觸發數十次模型調用,搜索、工具調用、代碼執行、結果驗證…… 每一輪都在累積延遲,token 消耗呈指數級增長。

開發者的實踐已經驗證,在選擇 Agent 核心模型時,任務場景、響應速度和成本,與工具調用能力同等重要。盲目追求大參數量,在工程上并不可取

于是今年以來,Flash 模型集中爆發。

Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 頭部廠商幾乎同步押注輕量高效路線。

但在這場輕量模型競賽中,很多廠商的思路是削減參數、壓縮成本、犧牲部分能力。階躍星辰則不同,它不把 Flash 模型當旗艦平替,而是專門為 Agent 工作流重新設計一款模型。

繼 Step 3.5 Flash 后,階躍星辰最近又推出新一代高效率 Flash 開源模型 ——Step 3.7 Flash

該模型最大特點就是(模)、(速)、(用)、(錢)。總參數 196B,采用稀疏 MoE 架構,推理激活參數僅 11B,配備 1.88B ViT 視覺編碼器,推理速度最高 400 TPS,支持 256K 上下文。

作為一款面向真實 Agent 工作流設計的高效率模型,它具備原生多模態理解能力,并打通了搜索、工具調用、GUI 感知、代碼生成等完整 Agent Loop 執行能力。

從 benchmark 來看,Step 3.7 Flash 沒有明顯短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下參測模型第二,Toolathlon、GPDval、HLE w. Tool 三項也均處于領先梯隊;Agentic Coding 方向,SWE-PRO 達到 56.3、Terminal-Bench v2.1 達到 59.5;多模態方向則是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。



柱狀圖中左一為 Step 3.7 Flash、左二為 Step 3.5 Flash(Multimodal 除外)

接下來,我們就將 Step 3.7 Flash 放進真實的工作場景測評下。

原生多模態:它能「看懂」任務現場嗎?

先來試試原生多模態能力。

為了壓縮成本削減參數,有些輕量模型最先被犧牲的往往是多模態能力。

而在真實任務里,大量輸入根本不是干凈的結構化文本,還包括 GUI 截圖、掃描文檔、網頁內容,Agent 要進入這些場景,視覺理解是繞不開的前提。

Step 3.7 Flash 新增多模圖像理解、識別、推理、感知,可處理復雜視覺信息,并在跨模態上下文中進行聯合推理。

比如讓它分析 Pinterest 界面帖子的設計特點,它不僅能識別 UI 元素,還能理解應用界面的內容結構、設計邏輯與信息組織方式。



再比如框選駕駛艙界面,讓它生成起飛操作說明。

模型需要同時識別大量專業儀表、按鈕與狀態信息,并理解「如何起飛」背后的操作邏輯,什么時候推油門、何時收起起落架等。

相比傳統多模態模型的描述畫面, Step 3.7 Flash 完成的是「環境感知 → 狀態理解 → 任務推理 → 操作指導」的完整閉環。



在處理視覺任務時,常規做法是把大量視覺常識和感知能力硬塞進模型權重,但對 11B 激活量級的 Flash 模型來說,這條路天然受限。階躍選擇在權重里只留最核心的推理引擎,把感知邊界推到推理階段動態解決。

具體而言,模型可在推理中途自主對圖像進行裁切、縮放和重讀,告別「一眼定生死」的單步感知局限,當任務超出自身視覺常識邊界時,還能主動發起檢索、交叉驗證。「重新看」和「去查證」在同一個推理循環內自主閉環,能力上限不再受任何單點工具約束。

Deep Research:快速檢索,結構化交付

在 Deep Research 測評中,我們讓 Step 3.7 Flash 圍繞「2026 年第一季度中國新能源汽車市場」這一主題,檢索 3-5 個高可信度來源,對比比亞迪、特斯拉、理想、小鵬四個品牌的市場表現,生成一份結構化調研簡報。

模型快速完成檢索和信息整合,從銷量數據、價格區間、主要優缺點以及購車建議等方面進行結構化輸出。



在 Step 3.7 Flash 的工作方式里,搜索真正進入了推理循環本身,不再是外掛的輔助工具。

它能在推理中途主動判斷「當前信息是否足夠」,不足則自主發起新一輪檢索,檢索回來再判斷是否可信,再決定下一步怎么做。這種「搜 - 理解 - 再搜 - 驗證 - 再推理」的循環,讓模型在任務執行過程中能持續錨定真實世界的信息。

多 Agent 并行:400 TPS 能承載多少并發?

下面這個場景則是多個 Agent 并行推理測試。

40 個不同身份的虛擬角色扮演產品評測團,對一個產品問題進行并行判斷,然后實時匯總它們對 5 個 MVP 方向的偏好。

這群虛擬專家可以同時分析,分工執行,最終給出更穩健、更可解釋的結果。



對于需要大量并發推理的 Agent 場景,模型推理速度直接決定整個工作流能跑多快、能承載多少并行任務。

此外,模型還能依托精準推理能力和豐富知識儲備,快速構建結構清晰、關聯明確的知識圖譜。



GUI 操控:從「理解界面」到「操作設備」

Step 3.7 Flash 在 GUI 理解能力不僅限于多模態識別和規劃,作為一個基座模型,已經具備實時操作設備的能力。

我們找來一臺安卓測試機,不做任何額外的模型微調或本地推理配置,直接以 Step 3.7 Flash 作為決策大腦,看它在真實手機上能做到什么程度。

注:本次測試采用小米手機,使用小米互聯服務「妙享桌面」同步至電腦錄屏,敏感信息馬賽克處理。

第一關:信息匯總。模型順利完成,基本流暢:

「幫我看看微博文娛熱搜上有哪些內容,總結一下給我」。



視頻開啟倍速

第二關:出行規劃。任務涉及多個條件判斷和跨 App 操作:

我明天早上 9 點要到「北京國貿大廈」開會。幫我查一下明天早上的天氣, 如果下雨就幫我叫一個網約車(不用真的下單,截圖到確認頁面即可),如果不下雨就查一下地鐵路線。打車和查線路均使用百度地圖。最后,把天氣情況、出行方案和預計出發時間整理成文字輸入到筆記中。



視頻開啟倍速

Step 3.7 Flash 在復雜邏輯的 GUI 操作中表現游刃有余,甚至能理解地圖導航中查看地鐵線路的細節,最終成功從多個 App 采集信息,整理進備忘錄。

第三關:社媒 + 電商跨平臺任務

我想了解一下最近新出的降噪耳機。幫我在小紅書上搜「2026 降噪耳機推薦」,找 3 篇點贊超過 300 的筆記,提取每篇推薦的型號、價格區間和博主提到的優缺點,找到最合適的一款幫我在京東購買。



視頻開啟倍速

社交媒體內容多樣、電商平臺 UI 結構復雜、邏輯判斷難度高,但最終結果超出預期,全程只有電商平臺的安全驗證環節需要真人配合操作,其余一切流暢執行。

Agent 時代,Flash 模型不是旗艦版平替

過去,Flash 模型常被視為旗艦模型的「輕量替代品」,用在不那么重要的場景,或作為成本兜底選項。

這個認知正在被打破。

隨著推理、規劃、工具調用、長上下文和環境反饋能力持續增強,模型越來越多地承擔起任務拆解、工具選擇、執行反饋和結果修正等 Agent 核心環節。

Flash 模型由此成了專為高頻、多步驟、低延遲的 Agent 工作流優化的獨立品類。

當然,這里有一個關鍵前提,Flash 模型必須足夠「能干」,否則省下來的成本會以任務失敗率的代價償還回去。如何在壓縮推理成本的同時,不丟掉完成復雜任務的能力,才是 Flash 模型賽道真正的技術分水嶺。

階躍星辰正是沿著這條路線突破的。今年 2 月,Step 3.5 Flash 上線,主打在 Agent 場景實現「更快、更強、更穩」的執行效果,上線兩天登頂 OpenRouter Trending 榜,一個月后拿下 OpenClaw 調用量月榜全球第一。

在此基礎上,Step 3.7 Flash 進一步迭代,兼顧更多能力的協同效率,并在成本、穩定性與部署形態上進一步滿足長期運行的要求。

這正是 Agent 工作流的本質要求。拿著有限預算跑完整條任務鏈,誰能在每一步調用中少犯錯、少超時、少超支,誰才是生產環境的真正贏家。在這個維度上,最好的模型未必是單次推理能力最強的,但一定是能被持續調用、穩定運行、成本可控的

正如階躍星辰聯合創始人、CTO 朱亦博所言:「我們相信未來的大模型應用方式,不是一個超大尺寸的模型解決所有問題。人類社會有不同的任務,我們追求的是許多不同模型的矩陣,Agent 是解決任務的方式。」

而 Step 3.7 Flash 證明,Flash 模型不是旗艦的廉價替代品,它可以有自己的完整能力矩陣,「多快好省」地成為 Agent 時代的主力。

文中視頻鏈接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

旅游
教育
親子
時尚
藝術

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

美回巔峰的她們,帶火的這些爆款真的好用嗎

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

無障礙瀏覽 進入關懷版