網易首頁 > 網易號 > 正文申請入駐

一手實測Step 3.7 Flash：目前最快的開源模型

2026-05-30 16:26:31　來源: 沃垠AI

四川舉報

分享至

大家好，我是冷逸。

兄弟們，我發現了一個神仙模型。

先考你一道題：既然全宇宙都在膨脹，那我變胖是不是符合宇宙規律？

嗯……你是不是要先想一下？在你想的時候，模型已經推理并回答出來了。

是的，就2秒（純API調用）。

官方說，它的輸出速度能拉到400 Token/s。

而且，它還原生支持視覺理解，圖片、視頻都能看懂。要知道，即使到現在，國內支持視覺理解的模型總共就沒幾款。

那它一定很貴吧？

并不。訂閱Step Plan最低只要38元/月。API直連，輸入（緩存命中）0.27 元，緩存未命中是1.35元，輸出是8.1元。

單看這個價格，好像并不比DeepSeek v4 Flash（輸入1元/輸出2元）便宜。但如果你橫向對比多模態+超高速這個組合，它的性價比就非常有優勢了。

對了，它還開源。

這就是昨天發布的Step 3.7 Flash，原生支持視覺理解，為Agent做了全面優化，超快速度，256k上下文，總參數198B（激活11B）。

一手實測

這是它的benchmark得分。

簡單說就是：

對比GPT和Claude還有些差距，但Gemini還是能超一超的；
對比DeepSeek各有勝出；
對比上一代模型，大幅提升；
以及速度上，遙遙領先……因為大多數模型都在100 TPS以下。

比如Artificial Analysis這個速度榜單，之前最快的是GPT-5.3，也只有130多。

而Step 3.7 Flash能沖到400 TPS，也不知道用了什么魔法。。

我實測可以拉到330+TPS

下面我們實測幾個Case，帶你直觀感受一下。

1）視覺編程任務

第一個任務：測試視覺理解+編程能力。

我沒告訴它是什么橋，讓它自己理解，然后設計一個3D模型。

One shot直出，效果還不錯。

而且它識別出了這是舊金山的金門大橋。

但也u1s1，這前端能力和頂級模型k2.6和glm5.1比還有差距。

2）視覺理解任務

我隨便在某軟件里截了張圖，畫了個框，問它：我如果要模糊處理，應該怎么操作？

這張圖里的信息極多，但是模型還是一眼認出這是Photoshop界面，并告訴我具體操作步驟。

關鍵是，全程只用6秒，這輸出速度快得嚇人。

于是我在想：只要速度足夠快，是不是可以有實時渲染的新交互產品誕生？AI游戲產品會不會加速到來？

來看幾個官方案例。

用戶上傳一張飛機駕駛艙圖片，輸入“如何起飛”的指令，模型會以【秒級反應】在圖片中尋找如何起飛的關鍵操作按鈕，并生成分步驟教程。

又比如這個瀏覽網頁的場景。

用戶輸入“這些設計有什么有趣之處”的指令后，模型會自動框選界面、識別信息、理解圖片設計，最終生成專業分析。

注意，它不是其他視覺模型經常測的“給一張圖，一次性給結果”的那種，而是分步驟、近乎實時地生成，給用戶講解畫面內容。

這套交互，玩法非常多。

比如，老師PPT全屏講課，講到哪里，模型就自動在哪里畫線或圈出來。

你可能會說：PPT自帶的畫筆功能就能做到啊，干嘛多此一舉？

純AI演示畫面，不代表真實情況

但我想反問：那個畫筆功能，你是不是得一直用鼠標操作？而老師上課，不可能一直坐在電腦前。她手里可能同時拿著課本和粉筆，甚至正準備敲打瞌睡的你。

又比如，把它接到AI眼鏡里，可視之處都可以實時渲染。

對了，好像階躍的多模態模型一直就跟車企有深度合作。這場景，一下子就通了。

3）Agent長程任務

還是我們的老Case：

提示詞：聯網搜索、調研Step 3.7 Flash模型的關鍵信息，盡量從權威信源獲取信息。先給我創建一份2000字的word調研報告（含pdf版）。然后調用guizang-ppt skill做一份10頁的PPT，頁面高級審美。

這個任務涉及聯網搜索+word生成+轉PDF+skill調用+Coding開發力，還包括頁面上線前測試的chrome-devtools-mcp，特別考驗模型的長程任務能力。

Ps：我發覺這個模型特別適合干測試。之前用Claude Code做測試，很多模型調用chrome-devtools-mcp只是走個過場，但Step 3.7 Flash會一環一環真正檢查——因為它有視覺理解能力，而且速度極快。

所以干測試得心應手。

來看下最終產物。

先是word報告。

然后是PPT。

全部one shot直出，整體都還不錯。

4）推理任務

最后，測一個稍微帶推理能力的3D編程任務。

提示詞：Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.

功能做得挺多，UI也很好看。

但是推理能力不太夠，導致one shot出來的建模和運算路徑都是錯的。

可能，這版模型在3D方面沒有做針對性訓練，所以表現比較一般。

整個體驗下來，Step 3.7 Flash的核心優勢非常清晰：

多模態理解
極快速度（400 TPS）

要知道，在同級別開源模型中，絕大多數都不具備多模態能力。更別說400 TPS的極致速度，很多模型能上100就不錯了。

當然，實話實說，它的Coding能力距離頂尖模型還有差距。

但是他快啊，而且有多模態。

開源方面，它在HuggingFace上放了BF16、FP8、NVFP4、GGUF四種權重，支持vLLM、SGLang、llama.cpp、Hugging Face Transformers等主流推理框架，豐儉由人。

API同時兼容OpenAI和Anthropic兩套協議，像Claude Code、Codex、OpenClaw、Hermes、Cursor、Cline、Kilo Code、Open Code都可以用。

現在階躍星辰開放平臺已經可以體驗，支持Step Plan。

Model Page：

https://static.stepfun.com/blog/step-3.7-flash

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.