大家好,我是冷逸。
兄弟們,我發現了一個神仙模型。
先考你一道題:既然全宇宙都在膨脹,那我變胖是不是符合宇宙規律?
嗯……你是不是要先想一下?在你想的時候,模型已經推理并回答出來了。
![]()
是的,就2秒(純API調用)。
![]()
官方說,它的輸出速度能拉到400 Token/s。
而且,它還原生支持視覺理解,圖片、視頻都能看懂。要知道,即使到現在,國內支持視覺理解的模型總共就沒幾款。
那它一定很貴吧?
并不。訂閱Step Plan最低只要38元/月。API直連,輸入(緩存命中)0.27 元,緩存未命中是1.35元,輸出是8.1元。
![]()
單看這個價格,好像并不比DeepSeek v4 Flash(輸入1元/輸出2元)便宜。但如果你橫向對比多模態+超高速這個組合,它的性價比就非常有優勢了。
對了,它還開源。
這就是昨天發布的Step 3.7 Flash,原生支持視覺理解,為Agent做了全面優化,超快速度,256k上下文,總參數198B(激活11B)。
![]()
一手實測
這是它的benchmark得分。
![]()
簡單說就是:
對比GPT和Claude還有些差距,但Gemini還是能超一超的;
對比DeepSeek各有勝出;
對比上一代模型,大幅提升;
以及速度上,遙遙領先……因為大多數模型都在100 TPS以下。
比如Artificial Analysis這個速度榜單,之前最快的是GPT-5.3,也只有130多。
![]()
而Step 3.7 Flash能沖到400 TPS,也不知道用了什么魔法。。
![]()
我實測可以拉到330+TPS
下面我們實測幾個Case,帶你直觀感受一下。
1)視覺編程任務
第一個任務:測試視覺理解+編程能力。
我沒告訴它是什么橋,讓它自己理解,然后設計一個3D模型。
![]()
One shot直出,效果還不錯。
![]()
而且它識別出了這是舊金山的金門大橋。
但也u1s1,這前端能力和頂級模型k2.6和glm5.1比還有差距。
2)視覺理解任務
我隨便在某軟件里截了張圖,畫了個框,問它:我如果要模糊處理,應該怎么操作?
![]()
這張圖里的信息極多,但是模型還是一眼認出這是Photoshop界面,并告訴我具體操作步驟。
![]()
關鍵是,全程只用6秒,這輸出速度快得嚇人。
于是我在想:只要速度足夠快,是不是可以有實時渲染的新交互產品誕生?AI游戲產品會不會加速到來?
來看幾個官方案例。
用戶上傳一張飛機駕駛艙圖片,輸入“如何起飛”的指令,模型會以【秒級反應】在圖片中尋找如何起飛的關鍵操作按鈕,并生成分步驟教程。
又比如這個瀏覽網頁的場景。
用戶輸入“這些設計有什么有趣之處”的指令后,模型會自動框選界面、識別信息、理解圖片設計,最終生成專業分析。
注意,它不是其他視覺模型經常測的“給一張圖,一次性給結果”的那種,而是分步驟、近乎實時地生成,給用戶講解畫面內容。
這套交互,玩法非常多。
比如,老師PPT全屏講課,講到哪里,模型就自動在哪里畫線或圈出來。
你可能會說:PPT自帶的畫筆功能就能做到啊,干嘛多此一舉?
![]()
純AI演示畫面,不代表真實情況
但我想反問:那個畫筆功能,你是不是得一直用鼠標操作?而老師上課,不可能一直坐在電腦前。她手里可能同時拿著課本和粉筆,甚至正準備敲打瞌睡的你。
又比如,把它接到AI眼鏡里,可視之處都可以實時渲染。
對了,好像階躍的多模態模型一直就跟車企有深度合作。這場景,一下子就通了。
3)Agent長程任務
還是我們的老Case:
提示詞:聯網搜索、調研Step 3.7 Flash模型的關鍵信息,盡量從權威信源獲取信息。先給我創建一份2000字的word調研報告(含pdf版)。然后調用guizang-ppt skill做一份10頁的PPT,頁面高級審美。
這個任務涉及聯網搜索+word生成+轉PDF+skill調用+Coding開發力,還包括頁面上線前測試的chrome-devtools-mcp,特別考驗模型的長程任務能力。
Ps:我發覺這個模型特別適合干測試。之前用Claude Code做測試,很多模型調用chrome-devtools-mcp只是走個過場,但Step 3.7 Flash會一環一環真正檢查——因為它有視覺理解能力,而且速度極快。
![]()
所以干測試得心應手。
來看下最終產物。
先是word報告。
![]()
然后是PPT。
![]()
全部one shot直出,整體都還不錯。
4)推理任務
最后,測一個稍微帶推理能力的3D編程任務。
提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
功能做得挺多,UI也很好看。
但是推理能力不太夠,導致one shot出來的建模和運算路徑都是錯的。
![]()
可能,這版模型在3D方面沒有做針對性訓練,所以表現比較一般。
![]()
整個體驗下來,Step 3.7 Flash的核心優勢非常清晰:
多模態理解
極快速度(400 TPS)
要知道,在同級別開源模型中,絕大多數都不具備多模態能力。更別說400 TPS的極致速度,很多模型能上100就不錯了。
當然,實話實說,它的Coding能力距離頂尖模型還有差距。
但是他快啊,而且有多模態。
開源方面,它在HuggingFace上放了BF16、FP8、NVFP4、GGUF四種權重,支持vLLM、SGLang、llama.cpp、Hugging Face Transformers等主流推理框架,豐儉由人。
![]()
API同時兼容OpenAI和Anthropic兩套協議,像Claude Code、Codex、OpenClaw、Hermes、Cursor、Cline、Kilo Code、Open Code都可以用。
現在階躍星辰開放平臺已經可以體驗,支持Step Plan。
Model Page:
https://static.stepfun.com/blog/step-3.7-flash
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.