金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
就在剛剛,又一個新版國產模型來了。
這次的主角是字節——Seed 2.1系列。
![]()
△火山引擎總裁,譚待
這個版本一共包含2個模型,分別是Doubao-Seed-2.1-Pro和Doubao-Seed-2.1-Turbo,并且API服務已全量上線火山方舟。
那么這個新模型到底什么水平?
火山引擎便放出了一個很直觀且有feel的案例:
![]()
視頻地址:
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg
視頻演示的是芯片設計行業里非常嚴謹的RTL環節,會細節到每個寄存器和信號線在每個時鐘周期里怎么流動都得說清楚。
這個工作量基本上得3-5名人類工程師花數周時間才能搞定。
而Seed 2.1 Pro圍繞一個16×16 PE的Tiny NPU Tile,連續運行近18個小時,經歷9輪迭代,最終完成了6個核心模塊、1303行RTL代碼!
再來看下榜單評分的表現。
以貼近真實終端編程環境的Terminal Bench 2.1為例,Seed 2.1 Pro已經做到了基本上能和Claude Opus 4.7持平;在科學計算代碼評測SciCode上,Seed 2.1 Pro甚至超過Opus 4.7和GPT-5.5。
![]()
并且像工具調用的MCP-Atlas評測,Seed 2.1 Pro同樣是超過了Opus 4.7和GPT-5.5。
在六月新鮮出爐的Agents’ Last Exam(ALE,覆蓋13個行業集群、1000多項高經濟價值真實任務)基準評測中,Seed 2.1 Pro已經處于當前參評模型的第一梯隊水平。
![]()
還有一個非常實在的亮點,那就是價格。
因為Seed 2.1 Pro在能力跟國外頭部AI做到比肩的同時,價格還僅僅是1/4(以Opus 4.6-4.8為例):
![]()
并且放眼國內玩家,Seed 2.1 Pro也是具備一定優勢:
每百萬Token輸入價格為6元、輸出價格為30元、緩存命中條件下只需要1.2元。
并且根據火山引擎總裁譚待的介紹,豆包日均Token的使用量已經突破180萬億!
![]()
那么把豆包最新模型丟到實實在在的工作環境,它的效果到底如何?
老規矩,一波實測走起~
把Seed 2.1 Pro扔進一天的工作流
先說下測試環境。
我們這次主要在OpenCode中調用Seed 2.1 Pro API完成。
![]()
也就是把它放進一個更接近Claude Code、Codex的開發者環境里,看它面對長Prompt、代碼生成、文件型交付和結構化報告時,能不能真正把任務跑下來。
第一個任務,我們直接上強度:
生成一個完整的3D房屋
我們給Seed 2.1 Pro的Prompt是這樣的:
請在當前目錄創建一個單文件WebGL2項目,只生成一個index.html,不要創建其它文件。 目標:實現一個可以在瀏覽器中直接運行的3D房屋展示,類似一個完整的郊區別墅/住宅模型。要求結構完整、體積可信、可交互導航,并且全部代碼都寫在index.html里。 硬性要求:1. 只允許一個index.html文件。2. 不允許使用Three.js、Babylon.js、React、Vue、外部CDN、圖片、字體、glTF模型或任何外部資源。3. 必須使用原生WebGL2。4. 瀏覽器打開index.html后即可運行。5. 頁面中必須有一個完整的3D房屋場景,而不是簡單盒子。6. 必須支持交互導航: - 鼠標左鍵拖拽旋轉視角; - 鼠標滾輪縮放; - WASD移動視角或平移; -R鍵重置視角。7. 代碼要有基本結構,不要堆成不可維護的一團。 房屋細節要求: - 主體房屋至少包含兩層體量; - 有多段坡屋頂,屋頂不能只是一個平板; - 有正門、門廊、臺階; - 有多個窗戶,窗戶要有窗框和玻璃材質; - 有車庫門; - 有煙囪; - 有草坪、車道、小路; - 有樹、灌木、路燈等簡單環境元素; - 有基礎光照、陰影感或明暗層次; - 有天空背景或漸變背景; - 整體風格偏溫暖、干凈、低多邊形但精致。 技術實現建議: - 自己寫WebGL2初始化、shader、矩陣變換、相機控制; - 封裝createBox、createRoof、createWindow、createDoor、createTree等函數; - 可以用立方體、三棱柱、簡單幾何體組合出房屋; - 使用簡單材質顏色和法線光照; - 盡量保證代碼可讀,必要處寫注釋。 交付要求:1. 創建并寫入index.html。2. 完成后告訴我如何在本地打開。3. 如果你認為某些功能風險較高,優先保證能穩定運行,再做視覺增強。
這類任務有意思的地方在于,它同時測了幾件事:
模型能不能理解復雜需求,能不能把3D圖形拆成可執行的幾何結構,能不能在沒有外部庫的情況下,把WebGL渲染、相機控制、光照、材質、交互都寫出來,以及能不能在OpenCode里根據結果繼續迭代。
![]()
在稍等片刻過后,一個3D房屋就誕生了:
![]()
但有一說一,第一版的效果還是比較簡陋,因此我們在上一輪的基礎上,繼續做優化。
我們再給到Seed 2.1 Pro這樣的Prompt:
當前index.html已經可以運行,但視覺效果比較簡陋。請不要重寫整個項目,而是在現有代碼基礎上增量優化。 任務目標:把當前原生WebGL2單文件3D房屋,從“簡陋盒子模型”升級成“完整郊區別墅展示Demo”。 嚴格限制: 1. 只能修改當前index.html。 2. 不要新增任何文件。 3. 不要引入Three.js、Babylon.js、外部CDN、圖片、字體、模型或任何外部資源。 4. 必須繼續使用原生WebGL2。 5. 不要破壞當前已經能運行的狀態。 6. 優先保持穩定運行,再增強視覺。 請重點優化以下內容: 一、房屋結構 - 當前房子如果太簡單,請拆成至少三個主體體塊:左側二層主體、中間入口體塊、右側車庫體塊。 - 屋頂要從單一屋頂升級為多段坡屋頂,包括主屋頂、入口小屋頂、車庫屋頂。 - 屋頂需要有屋檐、屋脊、邊緣線條,避免看起來像簡單三角塊。 - 增加煙囪,并讓煙囪位置合理。 二、正面細節 - 正門要更精致:門框、門把手、門上小窗、門前臺階。 - 增加門廊:兩根柱子、小屋檐、門前燈。 - 增加多個窗戶:每個窗戶需要窗框、橫豎分割線、玻璃顏色和輕微高光。 - 車庫門要有分格線和邊框,不要只是一個大色塊。 - 增加墻面裝飾線條,例如底部踢腳線、窗臺、檐口線。 三、庭院環境 - 增加前院草坪。 - 增加從車庫延伸出來的車道。 - 增加從正門到畫面前方的小路。 - 增加2棵樹、幾簇灌木、花箱、郵箱或長椅。 - 增加庭院燈,放在小路兩側或車道旁。 四、視覺效果 - 默認視角要正對房屋,略微俯視,能看到正門、車庫、屋頂和前院。 - 色彩改成溫暖、干凈、低多邊形但精致的風格。 - 增強光照方向感,讓屋頂和墻面有明暗層次。 - 背景用天空漸變,不要純黑或純白。 - 地面不要太空,加入遠處輕微起伏或簡單背景元素。 五、代碼要求 - 保留現有相機控制和交互。 - 盡量復用現有draw/create函數。 - 如果需要新增函數,請保持命名清晰,例如addHouseBody、addRoof、addWindow、addGarage、addTree、addShrub等。 - 修改完成后,請檢查明顯的JS語法錯誤、shader錯誤和WebGL2初始化錯誤。 完成后簡要告訴我: 1. 你主要增強了哪些視覺元素; 2. 本地如何運行; 3. 如果還有下一步優化,建議優化什么。
在優化的過程中,我們不難發現,Seed 2.1 Pro不會只一次性地去生成代碼,它會有一個逐行代碼再檢查的過程:
![]()
在第二輪優化之后,3D房屋的效果就變成了這樣:
![]()
在經過一次優化迭代之后,3D房屋的效果要比第一次更加柔和且細粒度了一些。
以此類推,再經過Seed Pro 2.1一次優化迭代之后(提出更加細節的Prompt),我們便得到了最終的成品:
![]()
直接生成一個可用的PPT
雖然這個任務看著像在用開發者工具里做PPT,但這也剛好能體現同一個API既能搞開發,也能做匯報工作。
然后這次我們給Seed 2.1 Pro的Prompt是這樣的:
你是一名科技產業分析師兼PPT設計師。請基于網絡搜集的材料,幫我設計一份10頁中文匯報PPT,主題是《AI Agent進入企業生產系統的三個信號》。 要求:1、先給出10頁PPT的完整目錄;2、每一頁都要包含:頁面標題、核心結論、3個以內要點、建議使用的圖表或視覺結構;3、至少設計3頁強視覺頁面,例如產業鏈地圖、能力演進時間軸、競爭格局象限圖;4、語言要像科技媒體給企業高管做匯報,短句、抓重點,不要PR腔;5、最后額外輸出一張“核心邏輯總覽圖”的SVG代碼,要求可以直接復制到瀏覽器渲染。
同樣的,Seed 2.1 Pro依舊是在分析完任務需求之后,給自己制定了Todo list,然后按照計劃一步一步地執行:
![]()
在片刻過后,剛才我們Prompt里提到的所有文件,就這么水靈靈地一口氣誕生了:
![]()
我們先來看下PPT的效果:
![]()
和以往AI做PPT感觸很不一樣的一點是,這次不論是內容,還是設計感,已經沒有那種一眼AI的感覺。
相反的,Seed 2.1 Pro做出來的PPT,真的是可以直接拿來用了。
當然,SVG圖也是不在話下的。
![]()
一張亂表,秒做數據分析
這類任務表面上是算數,實際上測的是三件事,也就是表格理解、異常識別、業務解釋。
我們的Prompt如下:
你是一名互聯網產品數據分析師。下面是一組模擬的AI辦公產品近8周數據,包括新增用戶、活躍用戶、付費轉化、使用次數、平均任務完成時長、用戶投訴率。 請完成: 1、判斷整體增長趨勢; 2、找出至少3個異常點,并說明可能原因; 3、計算每周付費轉化率、任務完成效率變化; 4、給產品負責人寫一段300字以內的業務結論; 5、輸出一個適合放進PPT的圖表方案,包括圖表類型、橫縱軸、重點標注; 6、最后給出下一步要驗證的3個問題。 數據如下: Week,新增用戶,活躍用戶,付費用戶,任務調用次數,平均完成時長/分鐘,投訴率 W1,12000,6800,420,31000,7.8,2.1% W2,13800,7600,510,35500,7.2,2.0% W3,15100,8300,630,40200,6.9,1.8% W4,17800,9200,790,51000,6.4,1.7% W5,22000,10100,810,69000,8.1,3.4% W6,24600,13200,1180,88000,6.0,1.9% W7,26300,14600,1410,103000,5.7,1.6% W8,30100,16900,1760,129000,5.2,1.4%
和做PPT類似,Seed 2.1 Pro在運行完自己制定的Todo list后,甩出了一份生成的文件清單:
![]()
生成的Word分析報告,是帶好排版、有圖表分析的:
![]()
數據是在Excel被整理好的:
![]()
方便,著實是方便。
以后這種需要各種格式、各種模態一起輸出的工作,真的可以放心交給AI了。
截圖直接變PRD
除了用Seed 2.1 Pro的API來實測之外,我們還提前拿到了豆包辦公任務模式的內測資格。
據說這個模式背后的模型,正是Seed 2.1 Pro:
![]()
經實測,我們發現剛才用API能做的事情,辦公任務模式也是基本都能hold住。
例如Coding能力,就可以直接做一個任務指揮塔:
![]()
做出來的PPT甚至是自帶備注的:
![]()
而整體實測下來,用豆包APP上的辦公任務模式比較方便的一點,就是傳文件,直接鼠標拖拽一下就好。
例如我們直接在網頁中截取一個界面:
![]()
這就比較考驗Seed 2.1 Pro的視覺理解、多模態推理和產品化表達能力了。Prompt是這樣的:
請仔細閱讀這張產品截圖,把它當作一款AI Agent工作臺的首頁。 請完成: 1、識別頁面中所有主要功能區,并說明它們分別解決什么問題; 2、指出這個頁面在信息架構、交互路徑、視覺層級上的5個問題; 3、基于截圖,寫一份產品改版PRD,包含:背景、目標用戶、核心問題、改版目標、功能需求、驗收標準; 4、額外給出一版更清晰的頁面布局草圖,用文字描述即可; 5、不要編造截圖里不存在的按鈕或信息。
![]()
從體感上來看,在豆包辦公任務模式里,它更像一個面向普通用戶的辦公Agent:
不用配環境,不用寫代碼,上傳截圖、輸入任務,就能拿到一份可繼續修改的PRD草稿。
這兩種入口對應的用戶完全不同,但也正如我們剛才提到的,背后用的都是Seed 2.1 Pro。
更關鍵的是,Seed 2.1 Pro不是只服務豆包一個入口。
據悉,它已經同步進入TRAE、TRAE WORK、扣子等字節系產品。
也就是說,同一個基座模型,一頭連API和開發者,一頭連TRAE這樣的AI Coding工具,一頭還將連豆包辦公入口。
頗有一種一個大招打通任督二脈的感覺了。
不只是又發了個新模型
現在回頭看Seed 2.1 Pro,它的核心變化,不只是模型分數又漲了。
過去國產基模的競爭,很多時候還停留在“聊天能力追沒追上”“榜單分數高不高”。但Agent時代,用戶更關心任務完成率:模型能不能連續理解上下文,能不能拆任務、執行任務、生成文件、看圖、寫代碼,并且在關鍵節點知道交給人確認。
這也是為什么“生產級可用”會成為這輪模型升級的關鍵詞。
生產級可用,不代表模型永遠不出錯,而是它的輸出可以進入真實工作流,錯誤也能被發現、修改和追責。
從這個角度看,Seed 2.1 Pro這次的能力提升,和字節的產品入口結合在一起,意義會更大。
火山方舟面向開發者和企業API調用,豆包專業版承接辦公生產力,TRAE和TRAE WORK切進AI Coding,扣子負責Agent應用搭建。同一個模型底座,覆蓋了個人辦公、開發者工具和企業Agent應用幾條關鍵路徑。
這和單純發布一個模型很不一樣。
模型能力本身會被追趕,真正難的是把模型放進高頻場景里,讓用戶每天打開、每天調用、每天產生新的反饋。字節的優勢,也正在這里。
它有C端豆包,有開發者工具TRAE,有Agent搭建平臺扣子,還有火山方舟這樣的企業級API入口。Seed 2.1 Pro如果能在這些入口里持續提升任務完成質量,它爭奪的就不只是模型榜單,還有Agent時代的生產入口。
當然,也要客觀看。
從這次實測看,Seed 2.1 Pro已經能在API和產品入口兩端產出相當完整的工作底稿,但還不能完全脫離人工審核。數據分析會出現細節不一致,PPT里的行業數據需要核驗,代碼項目離生產系統還有工程距離,截圖PRD也無法替代真實用戶研究。
所以它現在最適合的位置,是“第一生產力助手”:先把70%的粗活干完,再讓人做最后30%的判斷、校驗和潤色。
這已經足夠改變很多工作流。
以前做PPT,要查資料、搭框架、畫結構圖、寫講稿。現在可以先讓Seed 2.1 Pro出第一版,人再去校事實、調觀點、改表達。
以前做3D項目,要搭環境、寫渲染管線、拆幾何體、調交互。現在可以先讓它生成一個可跑版本,人再繼續補工程細節和視覺質感。
以前做行業研究,要先把資料整理成表,再提煉判斷。現在它已經能把表格、判斷、風險提示一次性給出來。
OpenCode里的測試說明,它已經能進入更專業的開發者工作流;豆包辦公任務模式里的測試,則說明它也在向普通辦公人群靠近。
前者考驗模型執行力和長程任務穩定性,后者考驗產品體驗和任務封裝能力。一個模型要真正走向生產級可用,這兩件事缺一不可。
過去我們測國產模型,常見問題是它會不會聊、分數高不高、有沒有追上Claude。
不過講點實在的,榜單還僅是入場券,工作流才是主戰場。
Seed 2.1 Pro這次要證明的,也正是這件事。
One More Thing:
火爆全球的視頻生成模型Seedance,這次也是升級到了2.5版本(仍在測試中,預計將在 7 月初正式上線)。
![]()
視頻地址:
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg
這一次,Seedance 2.5可以單次直出30秒視頻,并且在長視頻連貫性、復雜鏡頭控制和畫質方面較上一版本有明顯提升。
Seed 2.1 API接入地址:
[1]https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-1-pro
[2]https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-1-turbo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.