編輯|澤南
想不到,真的想不到。
每一天,大家調(diào)用的豆包大模型 API Tokens 竟有 180 萬億。距離首次發(fā)布才不到兩年,Token 的數(shù)字就飆漲了超 1500 倍。因?yàn)?AI 能力的突破,火山引擎如今已占到中國(guó)公有云 MaaS 市場(chǎng)的 49.5%,成為當(dāng)之無愧的第一,「萬億 Tokens 俱樂部」成員更是突破了 200 家。
剛剛,火山引擎 Force 原動(dòng)力大會(huì)上,我們見證了一波大數(shù)字,與此同時(shí)還有字節(jié)的新一代通用大模型豆包大模型 2.1,以及一系列多模態(tài)新模型的發(fā)布。
![]()
幾個(gè)數(shù)字背后,是爆發(fā)性的技術(shù)突破。如今的大模型行業(yè),正在從技術(shù)探索期全面邁入產(chǎn)業(yè)規(guī)模化,不論技術(shù)還是落地,豆包大模型已經(jīng)跑在了前面
豆包大模型 2.1
直面生產(chǎn)力
AI 落地的過程中,Token 消耗是直觀的表象。
這次大會(huì)上,火山引擎拋出了一個(gè)關(guān)鍵的行業(yè)判斷:企業(yè)采納大模型,正在跨越「質(zhì)變點(diǎn)」。
當(dāng)模型能力跨越了閾值,生產(chǎn)力瓶頸被突破,Token 的用量就會(huì)呈指數(shù)級(jí)上升。就像此前圖像領(lǐng)域的 Nano Banana、文本和編程領(lǐng)域的 Claude Opus 4.6,以及視頻領(lǐng)域的 Seedance 2.0,它們很大程度上成為了 AI 進(jìn)入真實(shí)生產(chǎn)環(huán)境的關(guān)鍵分水嶺。
很多人認(rèn)為 Opus 4.6 是大模型真正進(jìn)入生產(chǎn)力階段的節(jié)點(diǎn),原因在于它解決了此前 AI 的幾個(gè)核心的痛點(diǎn)(不可靠、不持久、不深入),讓 AI 從回答問題進(jìn)化到了處理工作的階段。
今天發(fā)布的豆包大模型 2.1 也要在代碼生成、Agent(智能體)與 VLM(視覺語(yǔ)言模型)三大核心能力上跨越這一質(zhì)變點(diǎn) —— 它在多項(xiàng)評(píng)測(cè)任務(wù)中甚至超越了 Opus 4.7。
其中,豆包 2.1 Pro 在 Terminal Bench 2.1、SWE-Pro、SciCode 等代碼評(píng)測(cè)中進(jìn)入第一梯隊(duì):
![]()
Coding 能力評(píng)測(cè)。
在 GDPVal、MCP-Atlas 等智能體、真實(shí)環(huán)境工具使用評(píng)測(cè)上,豆包 2.1 Pro 也位居全球前列:
![]()
Agent 能力評(píng)測(cè)。
在實(shí)際使用過程中,豆包 2.1 的 Coding 能力有了跨越式進(jìn)化,比如在代碼生成的過程中,不再局限于片段補(bǔ)全或單文件生成,而是跑通了「?jìng)}庫(kù)級(jí)理解 + 端到端項(xiàng)目交付 + 自測(cè)閉環(huán)」的完整鏈路,能夠獨(dú)立完成真實(shí)工程任務(wù)。
大會(huì)上展示的是一項(xiàng)芯片設(shè)計(jì) RTL(寄存器傳輸級(jí))測(cè)試的效果,豆包 2.1 Pro 連續(xù)運(yùn)行近 18 小時(shí),經(jīng)歷 9 輪迭代,跑通了仿真、測(cè)試、綜合檢查等完整工程流程,秀了一把真實(shí)工程場(chǎng)景里的生產(chǎn)級(jí) Coding 交付能力。
![]()
智能體方面,豆包 2.1 驅(qū)動(dòng)的智能體從能執(zhí)行簡(jiǎn)單任務(wù),升級(jí)成了能在接口報(bào)錯(cuò)、數(shù)據(jù)缺失等復(fù)雜異常環(huán)境下,依然進(jìn)行「動(dòng)態(tài)路徑規(guī)劃 + 異常自糾 + 交付產(chǎn)物 」的成熟智能體。
我們對(duì)此進(jìn)行了測(cè)試,發(fā)現(xiàn)現(xiàn)在豆包 App、桌面端的模式選擇上多出了一個(gè)「辦公任務(wù)」選項(xiàng),專門來跑多智能體。
假如我是個(gè)計(jì)算機(jī)視覺(CV)的研究者,想讓豆包的智能體來幫我們分類一下 2 月份某天 arXiv 上全部該領(lǐng)域的論文,順便看看有沒有人引用了我以前的工作。把這個(gè)任務(wù)交給豆包 2.1 后,一群智能體開始了工作:
![]()
如果你點(diǎn)進(jìn)去看細(xì)節(jié),可以看到當(dāng)天該領(lǐng)域有超過 100 個(gè)領(lǐng)域內(nèi)論文 ID,一個(gè)人自己看肯定是看不過來的。我們給出任務(wù)后,智能體自行進(jìn)行了搜索,自行計(jì)劃使用工具,寫 Python 腳本進(jìn)行分類,中間出錯(cuò)了會(huì)自行糾正,最后完成了還會(huì)通知你。
生成的結(jié)果看起來不錯(cuò):
![]()
除了文本與代碼能力的提升,豆包大模型原來的強(qiáng)項(xiàng)多模態(tài)能力(視頻理解、圖像推理與跨圖分析)在 2.1 版上也大幅強(qiáng)化,在大部分多模態(tài)基準(zhǔn)成績(jī)上領(lǐng)先 Opus 4.7,正在指向更復(fù)雜的現(xiàn)實(shí)世界互動(dòng)。
![]()
GUI、圖像理解等 VLM 能力評(píng)測(cè)成績(jī)。
例如在視頻理解方面,豆包 2.1 不僅能「看懂」畫面,還能處理長(zhǎng)視頻的跨時(shí)序邏輯;在圖像推理上,針對(duì)復(fù)雜的圖表數(shù)據(jù)(如金融報(bào)表、工業(yè)設(shè)計(jì)圖),其空間理解能力和跨圖對(duì)比分析能力都有了肉眼可見的提升。這意味著,AI 模型不再是單純地處理文本,現(xiàn)在已能像專業(yè)人士一樣看懂復(fù)雜的視覺資料。
為滿足不同場(chǎng)景的算力與成本需求,豆包大模型 2.1 同步推出兩款主力型號(hào):適配高性能場(chǎng)景的Doubao-Seed-2.1-pro,以及主打性價(jià)比的Doubao-Seed-2.1-turbo。除了通過火山引擎接入 API,我們也能在豆包、TRAE、扣子等應(yīng)用中體驗(yàn)到最新的模型。
從技術(shù)報(bào)告中我們能看到,豆包大模型 2.1 引入了一種專為前沿研究和高級(jí)工程任務(wù)設(shè)計(jì)的推理時(shí)(Inference-time)配置:Seed2.1 Deep Think。該模式不直接輸出最終響應(yīng),而是執(zhí)行「推理 -> 驗(yàn)證 -> 修正 -> 選擇」的自動(dòng)化循環(huán),期間可以調(diào)用網(wǎng)絡(luò)搜索和代碼沙盒進(jìn)行假設(shè)驗(yàn)證與迭代。
為了構(gòu)建更強(qiáng)大的新版本模型,豆包大模型也祭出了 AI 的自我迭代,其訓(xùn)練階段的Seed for Seed 機(jī)制,利用不斷變強(qiáng)的 Seed 模型本身來深度參與研發(fā)和迭代的全生命周期。AI 自我迭代的參與范圍涵蓋預(yù)訓(xùn)練數(shù)據(jù)的處理、數(shù)據(jù)合成與訓(xùn)練自舉、基礎(chǔ)設(shè)施建設(shè)與算子優(yōu)化等。
![]()
豆包 2.1 Pro 每百萬 Token 輸入價(jià)格為 6 元、輸出價(jià)格 30 元,緩存命中價(jià)格 1.2 元。火山引擎表示,其綜合使用成本較 Claude Opus 4.6 降低近 80%。另外,Turbo 的價(jià)格進(jìn)一步降至 2.1 Pro 的一半。
大模型「質(zhì)變點(diǎn)」
字節(jié)都拿出了什么?
作為核心基座模型,豆包大模型 2.1 的提升為其眾多 AI 應(yīng)用提供了支持。
這樣的質(zhì)變點(diǎn),在 Seedance 2.0 問世的時(shí)候,我們已經(jīng)清晰地感受過。
作為當(dāng)下公認(rèn)的視頻生成領(lǐng)域 SOTA 模型,Seedance 2.0 今年 2 月推出后在極短時(shí)間內(nèi)完成了現(xiàn)象級(jí)破圈。從刷屏短視頻平臺(tái)的爆款 AI 創(chuàng)作,到深度嵌入專業(yè)影視后期與高轉(zhuǎn)化率的電商營(yíng)銷流,Seedance 2.0 已經(jīng)用實(shí)打?qū)嵉氖袌?chǎng)份額證明:當(dāng)模型能力真正跨越視覺連貫性與物理邏輯的門檻,迎來的將是真實(shí)生產(chǎn)力環(huán)節(jié)的爆發(fā)。
Seedance 2.0 此次發(fā)布了原生 4K 10-bit 高位深直出能力,在細(xì)節(jié)、運(yùn)動(dòng)和色彩上全面優(yōu)化。
![]()
AI 視頻生成除了娛樂、營(yíng)銷等應(yīng)用方向之外,還是通往世界模型的路徑之一,在實(shí)體產(chǎn)業(yè)中有巨大的應(yīng)用潛力。字節(jié)表示,目前 Seedance 已經(jīng)在具身智能、工業(yè)制造、智能駕駛等領(lǐng)域落地,為數(shù)據(jù)合成、場(chǎng)景仿真、流程演示等業(yè)務(wù)需求提供了新的工具能力。
與此同時(shí)還有它的商業(yè)化。之前大家都在演繹華強(qiáng)買瓜,火山引擎此次直接拿下了周星馳旗下比高集團(tuán)三部經(jīng)典影片《喜劇之王》、《長(zhǎng)江七號(hào)》、《食神》的 AI 創(chuàng)作授權(quán),推出的影視 AI 模板在抖音單日互動(dòng)量就突破了 20 萬。你現(xiàn)在可以用 Seedance 2.0 來充分展示你自己的想象力。
大會(huì)同步推出了「火山 AI 版權(quán)商業(yè)化平臺(tái)」,試圖跑通從「模型生成」到「版權(quán)分發(fā)變現(xiàn)」的完整閉環(huán)。
字節(jié)還預(yù)告了下代視頻生成大模型 Seedance 2.5,它目前處于內(nèi)測(cè)階段,將在 7 月初上線,其將支持全球第一的 30 秒單段原生直出,最多 50 個(gè)全模態(tài)多素材聯(lián)合輸入,并支持更精準(zhǔn)的視頻二次編輯。
![]()
在這場(chǎng)大會(huì)上,還有一些值得關(guān)注的發(fā)布:
即將上線的圖像創(chuàng)作模型 Seedream 5.0 Pro 專為企業(yè)級(jí)設(shè)計(jì)工作打造,它最大的突破在于讓 AI 繪圖告別了開盲盒式的一次性出圖,實(shí)現(xiàn)了多圖層分離、交互式局部微調(diào)編輯,無縫對(duì)接專業(yè)設(shè)計(jì)軟件的日常工作流。Seedream 5.0 Pro 的單張圖像可以承載 PPT 級(jí)別的高密度信息,支持 14 種語(yǔ)言的圖內(nèi)文字精準(zhǔn)生成排版。
豆包音頻生成模型 1.0 可以幫助我們無需聲音樣本,僅靠文本、圖像或音頻輸入生成自然語(yǔ)音,大大降低定制門檻。其突破性的「長(zhǎng)時(shí)一致性」解決了長(zhǎng)音頻前后音色割裂的痛點(diǎn),并支持影視級(jí)多軌混編,可直接產(chǎn)出多人對(duì)話級(jí)別的專業(yè)對(duì)白。
![]()
在 AI 領(lǐng)域,你可以永遠(yuǎn)相信更好的還在后面。
結(jié)語(yǔ)
AI 能力質(zhì)變帶來的不僅是數(shù)據(jù)的增長(zhǎng),更是對(duì)人們使用 AI 的方法,工作流程乃至生產(chǎn)力的顛覆。在大會(huì)上,火山表示,目前「萬億 Tokens 俱樂部」的成員已超 200 家,覆蓋互聯(lián)網(wǎng)、制造、金融、汽車等全行業(yè)。
不得不說,這種大規(guī)模應(yīng)用和滲透率,是所有人始料未及的。當(dāng) AI 模型跨越了可用性的臨界點(diǎn),底層算力、基座大模型與頂層的智能體應(yīng)用正在加速形成閉環(huán)。180 萬億的日均 tokens 用量是一個(gè)清晰的信號(hào)。
![]()
AI 正在全面接管高價(jià)值生產(chǎn)任務(wù),屬于大模型的時(shí)代,正在到來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.