5月29日,基礎大模型創業公司階躍星辰(StepFun)發布并開源 Step 3.7 Flash 模型。這是一款專為生產級 Agent 打造的Flash 模型,官方稱其致力于在速度、成本、可靠執行和復雜任務處理能力之間實現更好平衡。
當前,Agent 正在從演示階段快速走向真實的企業生產環境,這對基礎模型競爭提出了全新要求:不只是追求峰值智能,而要追求能夠在應用場景實現規模化的高效智能。這意味著模型不僅要回答問題,更要理解復雜輸入、主動搜索信息、穩定調用工具,并在多輪長程任務中保持執行一致性。
根據階躍星辰官方公眾號介紹,Step 3.7 Flash 采用稀疏 MoE 架構,總參數 196B+1.8B(ViT)、激活參數僅 11B ,最高生成速度可達 400 Tokens/s,特別適合高頻、多輪的 Agent 應用場景,能顯著提升任務完成效率。值得關注的是,模型針對生產級 Agent 場景需求優化了關鍵能力:原生多模態理解與執行、聯網與視覺搜索增強、高可靠工具調用與編排及 Agent 生態兼容優化。
Step 3.7 Flash 能夠直接處理 UI 界面、圖表、文檔、圖片以及各類應用界面,并將復雜視覺信息轉化為結構化結果和可執行任務,并在信息不確定時主動發起搜索進行交叉驗證;而在生產級 Agent 最核心的工具調用可靠性上,Step 3.7 Flash 進行了針對性優化,可在長程多輪工作流中穩定調用 API、瀏覽器、終端、Office 工具等,顯著降低跑偏和執行失敗風險。
![]()
圖為Step 3.7 基準測試結果
基準測試顯示,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 等復雜視覺任務 Benchmark 上,展現出媲美更大規模旗艦模型的能力表現。而在考察多工具協同的 Toolathlon 上,這款模型的分值達到了 49.5%,并在考察真實環境下日常自主任務執行的 ClawEval-1.1 上達到了 67.1%;在橫跨 44 種職業的 GDPval 上達到了 45.8%;在 τ2-bench Telecom 的低、中、高三檔推理難度下通過率均達到 98% 以上。這意味著,它能在多輪 Agent 工作流中穩定調用 API、瀏覽器、終端、Office 和外部系統,保持任務軌跡一致,降低跑偏和執行失敗。
階躍還對主流 Agent 框架和工具調用協議進行了兼容優化,可穩定接入Claude Code、OpenClaw、Hermes Agent 等主流 Coding 與 Agent 工具,并支持云端部署與本地部署,降低開發者接入和工作流編排成本。
業內人士認為,隨著各行各業加速推進 Agent 落地,Step 3.7 Flash 的設計理念也反映出 Flash 類模型的角色轉變:從單純的輕量替代品,逐步成為支撐生產級 Agent 規模化落地的基礎設施。今年2月,階躍開源了該系列上一個版本模型 Step 3.5 Flash,同樣主打極速、高效地完成 Agent 場景任務,上線一個月即登頂 OpenRouter 平臺 OpenClaw 調用量月榜全球第一。
階躍表示,后續將圍繞 Step 3.7 Flash 推出生態共建計劃和生態伙伴限時體驗活動,與開發者一起探索 Agent 效率的評估方式、工程實踐和生產化路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.