網易首頁 > 網易號 > 正文 申請入駐

實測豆包1.8后,我終于明白字節為什么要推豆包手機了。

0
分享至

大家好,我是袋鼠帝

好久沒有因為一款國產模型,產生這種明顯的期待感了。

這次,是豆包1.8。


在這個大家都忙著做年終總結的十二月,我本來以為AI圈能消停一會兒。

沒想到,字節不講武德,又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..




從節奏上看,字節這幾年在AI這條路上,一直走得非常穩。產品和模型并行發展,從文本到多模態,從對話到Agent,再從云端走到端側。

這次原動力大會,又是一次階段性成果的集中展示。

其中,豆包大模型1.8,作為字節新一代主力模型,正式接棒。

注意,是主力模型。

是接下來一段時間里,字節在企業Agent、應用層、工具鏈上真正要用、要打的那個模型。

先看看跑分:在教育、客服、金融、法律、審核等多個場景測評中處于領先水平


Agent能力和多模態理解能力非常強,直逼Gemini3 Pro


看得出來,這次不是單項能力的突破,明顯沖著一個目標去的:復雜Agent,尤其是企業級Agent。

比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了

雙手離開鍵盤~(順便聽一聽我最近一直單曲循環的歌)

說實話,第一眼看到豆包1.8的能力,我是有點驚喜的。

這一看就是能干實事的。因為下面這三個點能同時滿足,這在國產模型里,是獨一檔了。

>/ 第一:Agent能力往前走了一大步。

多工具調用能力增強,多輪指令遵循的穩定性大幅提升,長文指令不再容易跑偏,執行規劃能力更強。

尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。

在很多真實業務里,最后一公里從來不是推理,而是操作。

在屏幕上完成一些相對復雜的點點點的任務,這些事情對人來說可能很簡單,但對模型來說一直是難點。

豆包1.8把這件事當成重點去做,本身就是一個非常務實的信號。也很有可能就是沖著豆包手機去的。

>/ 第二:256K的超長上下文,是真的好用。

目前國產的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~

但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準越好。

豆包1.8的一個關鍵點在于,它支持通過原生API做上下文管理,什么意思?

你不再需要每次把所有歷史上下文一股腦塞進去,而是可以像整理文件夾一樣,按需清理、按需保留。

這在企業級 Agent 場景里,價值非常大。

一方面,成本直線下降。另一方面,模型的注意力更集中,執行穩定性也會更好。

>/ 第三:多模態能力這次是真的實打實升級了。

視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。

單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內容。

如果再配合火山方舟應用實驗室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關鍵片段。

這個邏輯,非常像一個聰明人快速學習新知識的方法。先快進掃一遍,再倒回來看重點。

這三點放在一起,我覺得豆包1.8非常適合搭建復雜Agent,跑真實流程。

之前,其他模型不太能完成的復雜任務,現在好像可以試著交給它了。

于是我快速做了幾個測試(難度越來越高),想看看它在復雜、多步驟、容易出錯的真實任務里,表現到底穩不穩。

因為Agent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環,或者慢慢跑偏。

目前火山引擎已經支持了豆包1.8的API


為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用


并集成了我認為最好用的瀏覽器自動化MCP-Server:playwright mcp


話不多說,我們開始!

多平臺電商篩選比價 + 跨平臺加購

先用這個案例來小試牛刀,如果這個任務跑不出來,后面的也不用看了。

Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍牙耳機,價格區間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價格區間后選定銷量第一就行了),然后在唯品會和京東進行這款耳機的比價,找到價格最便宜的同款耳機,添加到我的購物車中。

這個任務里,難點不在于找耳機。

難在三件事:

第一,要在平臺篩選、過濾,找到符合要求的正確的商品。

第二,要能跨平臺識別同款商品。

第三,最后一步需要實際操作,加購。

但是某寶有點der啊,為什么選擇了價格區間在500-1000,還有這么多500元以下的?


這個現象一度讓豆包1.8懷疑自己

豆包1.8內心:啊???我不是固定了500-1000價格嗎,為什么還有500以下的,不對,我再看看。

于是我加了一句提示:

可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價 格區間后選定銷量第一就行了

執行過程見視頻:

從執行過程來看,豆包1.8在幾個關鍵節點上表現都很穩。

它先打開了某寶,在搜索欄搜索半入耳式藍牙耳機,并篩選了500-1000的價格區間,以銷量排序,進入商品詳情頁確認了商品名稱。

然后打開某品會,搜索同款商品,對比價格,最后打開某東,發現某東的價格是最便宜的,并加入了購物車。

條件鎖定后,它不會反復橫跳。在不同平臺頁面結構差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現誤點或卡死。

整個過程像是一個熟練用戶在操作,每一步都比較精準。

但就是還是Agent的老問題,整個過程有點慢,看得著急(急性子估計用不了),好在最后順利完成了。

當然這里面有模型推理思考的時間,還有就是playwright MCP雖然已經是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執行操作,要調用多個工具協同完成,這個過程也比較耗時。

B站「影視颶風」互動任務

既然第一個任務成功了,那接下來難度升級

正好今天火山的大會Tim也去了,我們來給他的頻道增加點互動~

這個任務需要打開B站,進入影視颶風主頁,從投稿列表里篩選最近發布且播放量超過500萬的3個視頻,保存鏈接。然后逐個訪問,根據獲取到的信息,分別發出三條貼合內容的評論。

Prompt:請幫我登錄B站,去“影視颶風”的個人主頁執行一個互動任務。為了防止頁面刷新導致迷路,請你嚴格按照先找齊鏈接,再逐個訪問的順序來操作:

第一步,篩選視頻。請進入他的“投稿”列表,保持默認的“最新發布”排序。請耐心地從上往下滾動瀏覽,仔細查看每一個視頻的播放數據,直到找出最近發布的、且播放量明確超過500萬的3個視頻。找到后,請先把這3個視頻的鏈接保存下來。

第二步,發送評論。請依次直接訪問這3個鏈接。每進入一個視頻,先花點時間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點。然后,基于這些信息,分別寫一條言之有物、符合科技區粉絲調性的評論并發送。注意,三條評論的內容要完全不同,必須貼合各自的視頻主題。注意:評論的時候你一定要輸入自己思考后的內容,并點擊發布,不要被評論輸入框中自帶的文字誤導了

執行過程如下:

這個任務頁面多,信息雜,需要判斷、總結,還要生成貼合視頻的評論內容。

豆包1.8的表現,像一個知道自己在干嘛的人。

它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個訪問。

在評論生成上,沒有套模板,會根據視頻主題調整語氣和內容,像一個老粉一樣(雖然我是新粉 哈哈哈)。

創建火山API Key + Fastgpt配置

這個任務,我刻意選了一個容易翻車的場景。偏向開發者日常。

我幾個月前用某模型來測試過,一直是死循環,硬是選不中對的按鈕。

Prompt:進入火山引擎,控制臺,找到火山方舟并進入,在apikey那里,新建一個apikey并復制。打開fastgpt,登錄進去,根據 fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234

下面是我給豆包1.8的fastgpt的操作截圖


這個任務,幾乎集齊了Agent所有痛點,非常考驗模型的綜合理解能力。

難點在于,模型需要識別圖片上的操作指引,而且步驟非常細,任何一步錯了,后面都走不通。

包括頁面跳轉、字段識別、復制粘貼、表單提交。

跑下來,一個明顯的感受是,豆包1.8對頁面結構的理解很扎實,視覺能力也很強。

不會因為頁面稍微復雜,就迷路。

而且在長指令下,步驟執行順序穩定,沒有出現跳步或重復。

這些對于Agent應用,非常關鍵。

如果把視角再拉遠一點,你會發現,豆包1.8的很多能力,其實已經在為另一個方向鋪路。

那就是端側Agent。

最近備受爭議的豆包手機,我覺得就是一個非常直觀的嘗試。

系統級AI助手這件事,跨App自動化,系統級權限,模擬操作。

這些能力,在技術上是很酷的,但在現實生態里,必然會遇到阻力。

這不是模型的問題,而是整個行業的博弈。

豆包手機的意義,也不是賣了多少臺,而是驗證了一件事:

當模型的Agent能力足夠強,系統級AI助手這條路,是必然走得通的。

只是,怎么走,走多快,需要時間,也需要一些妥協。

豆包1.8的出現,無疑讓這條路更好走了

最后,如果你關心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。

那這一代豆包,確實已經走到一個很關鍵的位置了。

接下來,就看大家拿它,能做出什么樣的Agent了~

我是袋鼠帝,持續分享AI實踐干貨,我們下期見!

能看到這里的都是鳳毛麟角的存在!

如果覺得不錯,隨手點個贊、在看、轉發三連吧~

如果想第一時間收到推送,也可以給我個星標?

謝謝你耐心看完我的文章~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
原來我們錯怪高市早苗了

原來我們錯怪高市早苗了

深度報
2026-04-22 22:24:39
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
許利民等來2好消息!貝利官宣,曾凡博復出,季后賽陣容浮出水面

許利民等來2好消息!貝利官宣,曾凡博復出,季后賽陣容浮出水面

萌蘭聊個球
2026-04-23 18:48:25
王雷夫婦否認懷三胎,也沒住4億豪宅,李小萌胖了好多看著有140斤

王雷夫婦否認懷三胎,也沒住4億豪宅,李小萌胖了好多看著有140斤

柒佰娛
2026-04-23 09:42:14
我國將在南海建設最大的軍事基地

我國將在南海建設最大的軍事基地

混沌錄
2026-04-23 20:41:05
雷霆三少誰賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

雷霆三少誰賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

錢說體育
2026-04-22 14:20:25
廈門女子曬一人餐走紅,吃的干凈,會很舒服,網友:缺男友嗎?

廈門女子曬一人餐走紅,吃的干凈,會很舒服,網友:缺男友嗎?

餐飲新紀元
2026-04-22 07:10:35
余承東再爆金句:“讓他們永遠追不上!”

余承東再爆金句:“讓他們永遠追不上!”

毛啟盈Ai圈
2026-04-22 23:04:53
專挑富人下手的“騙局”:造假18年,收割4萬人,700億灰飛煙滅

專挑富人下手的“騙局”:造假18年,收割4萬人,700億灰飛煙滅

混沌錄
2026-03-29 22:37:11
A股:今天放量調整,傳遞了兩個信號,周五歷史即將重演?

A股:今天放量調整,傳遞了兩個信號,周五歷史即將重演?

明心
2026-04-23 16:36:27
笑死!原來大佬的推薦信只需要幾個字,網友:一字千金

笑死!原來大佬的推薦信只需要幾個字,網友:一字千金

另子維愛讀史
2026-04-15 20:37:30
有些學校的手,已經伸得太長了!

有些學校的手,已經伸得太長了!

胖胖說他不胖
2026-04-22 10:00:23
美媒:特朗普稱未來36至72小時內“可能”與伊朗談判

美媒:特朗普稱未來36至72小時內“可能”與伊朗談判

澎湃新聞
2026-04-22 22:15:05
北京首鋼拒絕爆冷!超級外援CBA首秀,曾凡博出戰,央視直播

北京首鋼拒絕爆冷!超級外援CBA首秀,曾凡博出戰,央視直播

體壇瞎白話
2026-04-23 10:10:09
官方:凱爾登-約翰遜當選年度最佳第六人 馬刺本賽季已獲兩項大獎

官方:凱爾登-約翰遜當選年度最佳第六人 馬刺本賽季已獲兩項大獎

羅說NBA
2026-04-23 06:06:09
《八千里路云和月》觀眾直呼棄劇,理由出奇一致,王陽成鑲邊男主

《八千里路云和月》觀眾直呼棄劇,理由出奇一致,王陽成鑲邊男主

娛君墜星河
2026-04-22 22:50:05
重倉股大曝光!這些股被狂買(附名單)

重倉股大曝光!這些股被狂買(附名單)

中國基金報
2026-04-22 23:13:58
美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

阿庫財經
2026-04-23 07:05:04
全球頂級資本集體大撤退,2026大變局將至,普通人如何守住家底

全球頂級資本集體大撤退,2026大變局將至,普通人如何守住家底

流蘇晚晴
2026-04-23 19:48:41
唏噓!曼聯最佳青訓,連續兩年降級,卻憑一己之力,勇闖世界杯

唏噓!曼聯最佳青訓,連續兩年降級,卻憑一己之力,勇闖世界杯

嗨皮看球
2026-04-23 17:46:11
2026-04-23 22:55:00
袋鼠帝 incentive-icons
袋鼠帝
持續分享AI實踐干貨,走超級個體崛起之路
72文章數 71關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:莫氏雞煲陷入怪圈 在流量裹挾下真實反饋沒人聽

頭條要聞

媒體:莫氏雞煲陷入怪圈 在流量裹挾下真實反饋沒人聽

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

家居
本地
手機
數碼
軍事航空

家居要聞

浪漫協奏 法式風格

本地新聞

SAGA GIRLS 2026女團選秀

手機要聞

一加16再曝,6.78英寸左右大直屏 屏幕繼續升級

數碼要聞

鎧俠發布主流級PCIe Gen5 cSSD產品BG8,順序讀取達10300MB/s

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版