(文/陳濟深 編輯/張廣凱)
5月29日,基礎大模型創業公司階躍星辰(StepFun)發布并開源新一代Flash模型Step 3.7 Flash。這是一款專為生產級Agent打造的模型,官方稱其目標是在速度、成本、可靠執行和復雜任務處理能力之間取得更好的平衡。
隨著Agent從演示階段走向企業真實的生產環境,對基礎模型的要求也在發生變化。模型不僅要能回答問題,還要理解復雜輸入、主動搜索信息、穩定調用工具,并在多輪長程任務中保持執行的一致性。階躍星辰表示,模型能力的評價標準正從單純追求智能水平,轉向兼顧效率、可靠性與規模化部署能力,Step 3.7 Flash正是面向這一需求設計。
根據官方介紹,Step 3.7 Flash采用稀疏MoE架構,總參數為196B加上1.8B的ViT,每次推理激活參數約11B,最高生成速度可達每秒400個token,支持256k上下文,并提供低、中、高三檔推理級別,便于開發者在響應速度、token成本和能力之間按需平衡。較低的激活參數和較高的生成速度,使其適合高頻、多輪的Agent調用場景。
在能力上,模型針對生產級Agent的需求做了多項優化。它支持原生多模態理解,能夠直接處理UI界面、圖表、文檔、圖片以及各類應用界面,并將復雜的視覺信息轉化為結構化結果和可執行任務;在信息不確定時,還能主動發起聯網與視覺搜索進行交叉驗證。在生產級Agent最看重的工具調用可靠性上,Step 3.7 Flash做了針對性優化,可在長程多輪工作流中穩定調用API、瀏覽器、終端、Office工具等,降低跑偏和執行失敗的風險。
官方公布的基準測試顯示,Step 3.7 Flash在SimpleVQA (with Tool)、V* (with Python)等復雜視覺任務上的表現接近規模更大的旗艦模型;在考察多工具協同的Toolathlon上得分49.5%,在考察真實環境下日常自主任務執行的ClawEval-1.1上達到67.1%,在橫跨44種職業的GDPval上達到45.8%,在τ2-bench Telecom的低、中、高三檔推理難度下通過率均超過98%。
![]()
階躍還對主流Agent框架和工具調用協議做了兼容優化,可穩定接入Claude Code、OpenClaw、Hermes Agent、KiloCode、RooCode、OpenCode等主流Coding與Agent工具,并支持MCP、Skills等協議,云端部署與本地部署均可使用,以降低開發者的接入和工作流編排成本。觀察者網實測階躍模型發現,輸入"做一份美伊局勢的分析PPT"這樣一句話,系統便并行生成了四個不同風格、不同配色的版本,每個版本都是六到八頁的完整成稿,單個版本的生成耗時在數十秒量級,直觀體現了高生成速度在批量、連續出活場景下的作用。
![]()
這是階躍在Flash系列上的延續。今年2月開源的上一代Step 3.5 Flash,將預訓練權重、中訓練權重以及配套的Steptron訓練框架全鏈路開源,上線一個月即登頂OpenRouter平臺OpenClaw(被開發者稱作"小龍蝦")調用量月榜全球第一,在HuggingFace上的下載量超過30萬。
面向Agent的高效模型正在成為各廠商競爭的新焦點。本月19日的Google I/O上,谷歌發布Gemini 3.5 Flash,稱其在編程和Agent基準上超過上一代旗艦Gemini 3.1 Pro,輸出速度為同級前沿模型的四倍。與谷歌Gemini 3.5 Flash、Anthropic Claude Haiku等走閉源API路線的同類模型不同,階躍將Step 3.7 Flash連同模型權重一并開源,開發者可以自行部署和調整。業內人士認為,Flash類模型的角色正在轉變,從單純的輕量替代品,逐步成為支撐生產級Agent規模化落地的基礎設施。
階躍星辰表示,后續將圍繞Step 3.7 Flash推出生態共建計劃和生態伙伴限時體驗活動,與開發者共同探索Agent效率的評估方式、工程實踐和生產化路徑。
公開資料顯示,階躍星辰成立于2023年,CEO為姜大昕,董事長為曠視科技聯合創始人印奇。印奇去年加入后,公司將戰略錨定在"AI+終端"上,收入采取端側按License收費、云側按消耗計費的模式。其模型已作為系統級能力預裝進OPPO、榮耀等手機廠商的設備,總裝機量超過4200萬臺,目前公司正推進港股上市。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.