網易首頁 > 網易號 > 正文申請入駐

階躍發布 Step 3.7 Flash：為生產級場景打造高效率 Agent 模型

2026-05-29 11:13:35　來源: 雷峰網

北京舉報

分享至

5月29日，基礎大模型創業公司階躍星辰（StepFun）發布并開源 Step 3.7 Flash 模型。這是一款專為生產級 Agent 打造的Flash 模型，官方稱其致力于在速度、成本、可靠執行和復雜任務處理能力之間實現更好平衡。

當前，Agent 正在從演示階段快速走向真實的企業生產環境，這對基礎模型競爭提出了全新要求：不只是追求峰值智能，而要追求能夠在應用場景實現規模化的高效智能。這意味著模型不僅要回答問題，更要理解復雜輸入、主動搜索信息、穩定調用工具，并在多輪長程任務中保持執行一致性。

根據階躍星辰官方公眾號介紹，Step 3.7 Flash 采用稀疏 MoE 架構，總參數 196B+1.8B（ViT）、激活參數僅 11B ，最高生成速度可達 400 Tokens/s，特別適合高頻、多輪的 Agent 應用場景，能顯著提升任務完成效率。值得關注的是，模型針對生產級 Agent 場景需求優化了關鍵能力：原生多模態理解與執行、聯網與視覺搜索增強、高可靠工具調用與編排及 Agent 生態兼容優化。

Step 3.7 Flash 能夠直接處理 UI 界面、圖表、文檔、圖片以及各類應用界面，并將復雜視覺信息轉化為結構化結果和可執行任務，并在信息不確定時主動發起搜索進行交叉驗證；而在生產級 Agent 最核心的工具調用可靠性上，Step 3.7 Flash 進行了針對性優化，可在長程多輪工作流中穩定調用 API、瀏覽器、終端、Office 工具等，顯著降低跑偏和執行失敗風險。

圖為Step 3.7 基準測試結果

基準測試顯示，Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 等復雜視覺任務 Benchmark 上，展現出媲美更大規模旗艦模型的能力表現。而在考察多工具協同的 Toolathlon 上，這款模型的分值達到了 49.5%，并在考察真實環境下日常自主任務執行的 ClawEval-1.1 上達到了 67.1%；在橫跨 44 種職業的 GDPval 上達到了 45.8%；在 τ2-bench Telecom 的低、中、高三檔推理難度下通過率均達到 98% 以上。這意味著，它能在多輪 Agent 工作流中穩定調用 API、瀏覽器、終端、Office 和外部系統，保持任務軌跡一致，降低跑偏和執行失敗。

階躍還對主流 Agent 框架和工具調用協議進行了兼容優化，可穩定接入Claude Code、OpenClaw、Hermes Agent 等主流 Coding 與 Agent 工具，并支持云端部署與本地部署，降低開發者接入和工作流編排成本。

業內人士認為，隨著各行各業加速推進 Agent 落地，Step 3.7 Flash 的設計理念也反映出 Flash 類模型的角色轉變：從單純的輕量替代品，逐步成為支撐生產級 Agent 規模化落地的基礎設施。今年2月，階躍開源了該系列上一個版本模型 Step 3.5 Flash，同樣主打極速、高效地完成 Agent 場景任務，上線一個月即登頂 OpenRouter 平臺 OpenClaw 調用量月榜全球第一。

階躍表示，后續將圍繞 Step 3.7 Flash 推出生態共建計劃和生態伙伴限時體驗活動，與開發者一起探索 Agent 效率的評估方式、工程實踐和生產化路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.