无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Flash模型,階躍Step 3.7 Flash更懂Agent

0
分享至


最近一直在想一個問題。

AI模型的能力,到底該怎么衡量。

看榜單分數,看推理速度,看價格,還是說看案例效果?

數了數,過去一年差不多測過80多個模型,從閉源旗艦,到開源小尺寸,我稍微有了點類似手感的東西。

但說實話,數據指標和真實使用之間,存在一個巨大的預期偏差。

有一個大模型玩家,很低調,但是技術實力和產出效果,卻是悄悄達到了有驚喜的程度。

這個模型是什么情況呢?

不賣關子了,就是階躍星辰的Step 3.7 Flash,定位是「面向生產級Agent的高效率Flash模型」。

乍一看,說實話,概念有點繞,場景還不少。


模型官網:https://static.stepfun.com/blog/step-3.7-flash/

這幾天,高頻用了一下,跑了幾個真實場景任務,好像想明白了一件事:

我們可能一直都把Flash類模型的方向想錯了。

真正Agent友好的高效率模型,其價值,正在凸顯。

01一張龍珠截圖,變成多模態互動游戲

直接帶大家看看模型效果。

我先扔給Step 3.7 Flash的,是一張七龍珠Z的人物劇照。

畫質還算清晰,圖上有悟空、貝吉塔、悟飯、短笛、弗利薩、特蘭克斯等十幾個人物,站位分散,人物關系復雜。


我寫了個簡單的提示詞:識別這些角色,畫出人物關系圖譜,再做一個互動問答游戲的網頁,讓用戶能測試自己對龍珠人物關系的了解。

輪到Step 3.7 Flash表演了:它先是處理了視覺輸入。

是在推理過程中直接分析了圖片,沒有單獨調用OCR或檢測模塊。

一分多鐘后,挺快的,它輸出每個角色的名字和位置。

基于圖片視覺信息,結合自己對龍珠系列的知識,構建了一個角色關系圖。

它還輸出了一份結構化數據:悟空和悟飯是父子,貝吉塔和特蘭克斯是父子,短笛是悟飯的師父,弗利薩與所有人為敵。

這些關系,原本提供的圖片里都沒有,模型是靠搜索和推理,串聯起來的。


不同人物角色,用顏色頭像來表示,可以隨意鼠標拖拽、分組,是可以連線交互的那種。

說實話,互動網頁的效果,比預想稍差。

理想狀態是,每個頭像都是人物的真實照片,不要搞名字簡寫,跟一堆MM豆似的。

我心里想象的,是下面這個樣子


不過倒也情有可原,我拿Opus 4.7也沒法一步到位,實現像生圖片這么好的HTML效果。

接著,我追加了一句指令,稍微降了難度,讓它設計成包含人物角色圖的游戲化交互面板。

模型響應很快,判斷出有些關系需要核實,主動發起了聯網搜索。

特蘭克斯和布瑪的母子關系要不要納入圖譜?畫面中的特蘭克斯來自哪個時間線?

它搜了龍珠人物介紹,找到多個來源,交叉驗證后決定把布瑪加入圖譜,并在后續問答里標注時間線差異。

最后一步是代碼生成。

模型基于整理好的關系數據,輸出了一份完整的HTML文件。


左邊是人物和名字,名字節點代表人,不同顏色的連線區分敵對、盟友、血緣。

右邊是問答游戲,隨機抽題,實時計分。380行代碼,第一遍就能跑。

我保存成.html文件,瀏覽器打開,圖譜正常渲染,游戲正常運作。

這次效果基本符合預期了。


還多了一個折疊面板的說明文檔,教你如何修改數據源。這個模型它自己加的,挺有意思。

對比另一個主流大廠的Flash模型,同樣輸入,它只只給我了一個靜態網頁。視覺理解和后續任務之間,卡殼了。

能感覺到,Step 3.7 Flash是把多模態、搜索、代碼生成,串成了一條完整鏈路;

執行到最后一步,也沒忘了一開始讓干啥。

看執行過程,是比較有推理邏輯的;看結果,已經接近了一線Agent產品的表現。

02做弗蘭克個人網站,第一版就能用

這個任務比較偏coding、偏工程。

我的要求是:做AI異類弗蘭克的個人網站。

很具體的場景。

網站要包含個人簡介、代表作列表、過往經歷等等,風格要簡潔專業,適配移動端。

因為很了解我自己,也做過不止一版個人網站,測這個案例,搜索質量信息排列什么的,一眼就能看出好壞。


我把需求寫得很隨意,沒有給設計稿,只說科技簡潔風格,要有現代感。

Step 3.7 Flash開始規劃。

它先輸出了一份網站架構說明,包括頁面結構、導航菜單、內容區塊劃分。

然后生成完整代碼,HTML、CSS、JavaScript全在一個文件里。


我仔細看了代碼。響應式布局,手機和電腦上顯示都正常。

過往經歷區域,用了卡片設計,每張卡片有標題、簡短描述和標簽。

代碼里還有一個細節。

它自己加了一個暗色模式切換按鈕,用localStorage記住用戶偏好,可調顏色。

這個需求我完全沒有提,模型覺得個人網站應該有這個功能,自作主張加上了。挺有意思的。

我用另一個更大、更貴的國產模型,試了同樣的需求。


它也生成了代碼,效果也還不錯,就是部分元素在手機上會錯位。

視覺上,大家感覺哪個更好看?

細看了下,Step 3.7 Flash的代碼完成度,對比下來,是不差的,而且更快、更便宜。

雖然它參數小,但是在編程任務上做了專門優化,架構和用戶體驗細節上,應該也是打磨了。

第一遍給出的代碼,稍改文字內容,就能直接用。

對于開發者來說,省掉的有生成時間、調試返工的時間,還有錢。

03看視頻、看白板,它也能做分析

官方介紹里說多模態、視覺能力很強,能解決復雜問題。

那我得試試

傳了一段手機視頻,大約3秒,拍的是一個大疆pocket3。

錄屏畫面晃動,logo一閃而過。


我直接把視頻傳給Step 3.7 Flash,prompt說:這是什么產品、怎么用。

模型先定位關鍵幀。它找到了Logo、產品特征等等。

然后模型結合這些信息做推理。


這個過程只有一次API調用。

如果換傳統做法,我需要先抽幀,把關鍵幀截出來傳給視覺模型識別,再把識別結果喂給推理模型。

兩個模型之間還要寫代碼銜接。

Step 3.7 Flash把視覺理解和推理決策合并成了一步。

我還測了一個會議記錄場景。

拍一張白板照片,上面手寫著一些內容表達的思維方法,字跡潦草,還有不少箭頭和圈圈畫畫。


模型直接輸出了一份結構化的內容,信息梳理出來了,標注了要點和注意事項。


應該沒有單獨跑OCR,寫規則解析啥的,一次就出來結果了。

但是我還有點不滿意,想用更清晰的圖表,或者一頁PPT來呈現。


然后PPT有了:整體結構是很好的,就是有明顯的錯別字;

考慮到是潦草手寫識別,我自己都看不太清楚白板,能做到現在的程度,已經不錯了。

Step 3.7 Flash給我的感覺是,做它的工程團隊,真的在生產環境里,跑過Agent任務。

就像多模態,如果是實驗室測評向的就沒意思了,還是得和推理長在一起,成為可用的默認能力。

多環節、長鏈路的執行工作,最好也一次性做到位。

就感覺階躍模型團隊,先是很知道痛點在哪,然后才把這些痛點的解決方案,內置進了模型。

說到底,模型能力不是為了跑分好看,是為了真解決問題。

04Agent效率,大概是下一階段的戰場

跑完這些測試,我對Flash模型這件事,有了新的感受。

過去大家愛比峰值智能、都想要小紅花:誰的模型在benchmark上分數高、誰排第一,誰就有面子。

但那個模型封神榜邏輯,正在慢慢失效。

benchmark越來越飽和了,現實里任務的復雜度,又遠遠超出benchmark的覆蓋范圍。

下個階段的競爭,大概不會看誰在某個單項測試上多考兩分。

還是要看誰能以更高效的方式,完成實打實的生產級任務。


階躍星辰他們,把這個叫做「Agent效率」。

我覺得這個詞,抓得挺妙。

Agent效率,不是單一的指標,它是速度、智能、成本、任務完成率、開發體驗、可控性的綜合。

一個模型可能跑分不是最高,但如果它能在更少的輪次里完成一個復雜任務,能在更低延遲下支撐高頻調用,能讓開發者在一天內搭出一個可用的Agent,不再用花一周去調試各種模塊……

那它的實際價值,可能遠超一個跑分更高、用起來費勁的模型。

Step 3.7 Flash走的是「輕快小美」路線。

198B的MoE架構,約11B激活參數,最高生成速度400 TPS。


GitHub地址:https://github.com/stepfun-ai/Step-3.7-Flash

看著肯定不如那些大體量模型性感,但實際跑Agent任務的時候,速度快、效果不差。

而且它在編程和工程任務上的one-shot完成率也有明顯提升。

多輪調用下來,體感的順滑程度,是那些「重模型」給不了的;甚至襯的個別家,都有點「傻大笨粗」了。


我只覺得,模型不需要在所有維度上,都最強。

它只需要在一些關鍵維度上,足夠好,并且這些維度,恰好對上真實生產任務中很痛的痛點。

Step 3.7 Flash是一個讓我覺得,接上以后,能提供情緒價值的模型。

它不完美,但在那些真正決定Agent能否落地的維度上,它做了很多清醒的判斷和取舍。

有豐富的框架適配,能手機操作,干起活來輕盈不拖沓,還方便好上手。


Step 3.7 Flash的很多選擇,都在降低開發者的負擔,也在提升Agent效率。

這些都讓我覺得,Flash模型,不再只是旗艦模型的替代品了。

隨著Agent能力增強,真實任務,正在變得更加多輪、工具密集,也朝著上下文密集、搜索驅動、多模態去發展。

在更適合Agent的方向上,我覺得Step 3.7 Flash開了個好頭。

現在便宜,以后可能會漲價,建議早去玩。


點開不虧

https://static.stepfun.com/blog/step-3.7-flash/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月29號午評:三大指數集體下挫,大盤下周將走向何方?

5月29號午評:三大指數集體下挫,大盤下周將走向何方?

春江財富
2026-05-29 11:56:25
廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

新浪財經
2026-05-29 19:06:05
64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

澎湃新聞
2026-05-29 22:40:26
黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

商悟社
2026-05-29 12:21:03
上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

股經縱橫談
2026-05-29 21:30:48
向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

寒士之言本尊
2026-05-29 16:09:42
女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

九方魚論
2026-05-29 23:43:51
近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

時代周報
2026-05-29 16:00:39
竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

真理是我親戚
2026-05-29 22:50:35
沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

懂球帝
2026-05-29 10:33:41
封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

懂球帝
2026-05-29 22:41:06
第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

子芫伴你成長
2026-05-28 00:05:34
布倫特福德官方:內爾森租借期滿,回歸阿森納

布倫特福德官方:內爾森租借期滿,回歸阿森納

懂球帝
2026-05-29 21:47:09
三大指數重挫,滬指跌超1% 近4000家個股下跌

三大指數重挫,滬指跌超1% 近4000家個股下跌

財聞
2026-05-29 14:18:47
收評:創業板指跌2.11% 大消費板塊走強

收評:創業板指跌2.11% 大消費板塊走強

證券時報
2026-05-29 15:22:05
一群賭徒,比華爾街更早知道世界會發生什么

一群賭徒,比華爾街更早知道世界會發生什么

華爾街見聞官方
2026-05-29 10:06:41
最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

黯泉
2026-05-29 15:10:09
郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

以茶帶書
2026-05-29 15:26:31
你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

瀾歸序
2026-05-29 05:48:38
2026-05-30 00:20:49
AI異類 incentive-icons
AI異類
從硅谷到中關村,AI信息與測評
188文章數 8關注度
往期回顧 全部

科技要聞

Claude Opus 4.8凌晨突發上線

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

體育要聞

即使是文班亞馬,也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經要聞

近3個月跌超20% 黃金"猴市"下的眾生相

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

教育
親子
房產
時尚
健康

教育要聞

民辦小一報名系統操作指南:6步走完全流程,每一步按鈕位置都標好了

親子要聞

孫悟空“召喚”小英雄!深圳這所幼兒園“西游闖關”過六一

房產要聞

順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

推廣中獎名單-更新至2026年4月28日推廣

嘗試干細胞療法如何避免踩坑?

無障礙瀏覽 進入關懷版