无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

豆包 Seed 2.0 Lite升級:給 Agent 裝上眼睛和耳朵

0
分享至

最近一個月模型發布太卷了。Claude Opus 4.7、GPT-5.5、DeepSeek V4 一個接一個,我每天打開 X 都覺得自己快被新模型淹沒。光是我自己,前幾周就趕著做了三期 B 站視頻去解讀這些發布。


錄過視頻的人應該有體會,做視頻最痛苦的環節之一,是剪字幕。

我錄視頻從來不按腳本念。

相比看著腳本讀稿,我通常還是更喜歡自由隨性點講,會顯得更有認為。然后遇到的情況就是:專業術語念一半改口、數字換種說法、想到一個例子塞進去,這是我錄視頻的常態。然后剪輯的第一步永遠是上字幕,丟進剪輯軟件自動識別,再花一個鐘頭改回來。

我特別討厭這個環節。倒不是麻煩。每次看到字幕里那一堆識別錯位的術語,我都會有點恍惚,總覺得有種說我普通話、英語發音不標準的彈幕在壞壞的飄過。

需要改寫什么呢?「Claude Opus 4.7」被聽成「Claude 四點七」,「Codex」被切成「Code X」,「GPT-5.5」變成「GBT 5.5」。

這些都還好,最離譜的一次:上周我錄了一段介紹我自己開源的huashu-designskill,自動字幕給我轉出來一行字「花書 Diffusion」。

它完全把 Huashu Design 重新解析成了一個根本不存在的 AI 模型。下面這種錯誤都算客氣了。


我研究了一下原因。這是語音識別工具通用的工作方式:它在聽音頻的時候不知道我在錄什么,沒有上下文,于是在所有可能的同音組合里挑一個它最熟悉的。「huashu-design」這種組合從來沒在它訓練數據里出現過。

這件事困擾我至少三年。每次寫完腳本我都會想:要是錄之前能跟模型說一聲「我接下來要講 Codex、Claude Opus 4.7、Hermes Agent,huashu-design 是我自己的開源項目」,它會不會就不犯這種錯?

我說一下我的工作臺。我大部分時間在Claude Code等Coding Agent里干活,寫文章、改代碼、做調研、整理素材都在它里面。它對我的意義是:絕大多數任務都應該在這個工作臺內自動化完成,少跳出去用別的工具,少切換上下文。

但 Claude Code 這個工作臺里沒有原生的音視頻通道。我錄的 B 站視頻丟不進去(即便丟進去也只能截圖分析),會議錄音根本沒法直接處理,別人家的產品發布動畫也得手動轉寫。它在文字這一層非常強,在「眼睛+耳朵」這一層基本是空的。我每次想把視頻或者音頻變成可以處理的文本,都得跳出工作臺,去用別的工具,再把結果粘回來。而這個跳出去的環節,就是「花書 Diffusion」翻車的地方。

這事兒其實不是字幕工具一家的問題。你看國內大模型公司最近這半年的發布節奏就明白了,幾乎所有家都跟著 Anthropic 把 coding 和 agentic 卷到極致,多模態放在了相對靠后的位置。

我能理解這個選擇。coding 和 agentic 確實是模型最高價值的方向,也是模型公司之間分勝負的地方。但做內容這一行,經常會卡住的反而是多模態:要看競品視頻是怎么剪的、要把會議錄音整理成紀要、要給自己的視頻做精準字幕、要從一段長視頻里撈出 3 個關鍵片段。這些事 LLM 本身解決不了,每次都要跳出工作臺,找一個語音識別工具、一個抽幀腳本、一個膠水流程拼起來。

最近在火山引擎看到字節方舟發了豆包 Seed 2.0 Lite(0428版)。看到價格這超低的價格有點心動,然后,正好啟發了幾種新的工作流靈感~


它在原來 02 月 Lite 版的基礎上做了一件事:這次 Lite 也能聽了。原來的 Lite 已經能看圖、能讀視頻、能處理文字,這次把聽覺補上了。是真的「聽」,不只是把聲音轉成文字,連情緒、環境聲、多說話人都能一起捕捉。

以及有個特別值得強調的點是,別一看「全模態」就以為它跟普通圖像理解模型差不多。它是能直接讀視頻的,不是只能看一幀靜態圖。你扔一段 60 秒的視頻進去,它能告訴你畫面節奏、字體風格、動效轉場、音視頻是否一致,這件事 GPT-5.5、Claude Opus 4.7 都做不到。御三家里暫時只有Gemini做了這項能力,但是他們實在是特么有點貴了,沒那么實用。

以及,甚至從性能表現來說,最新的Seed 2.0 Lite不止超過了前一代的Seed 2.0 Pro的視覺理解能力,甚至在多個維度上都達到了SOTA級別


所以嚴格來說,它給 Agent 裝上的不只是耳朵,還是一雙能讀視頻的眼睛。我接下來會用兩個 demo 把這兩件事都跑一遍。

而且關鍵點在這里:豆包 Seed 2.0 Lite 的調用方式跟你調任何一個大模型 API 沒區別。這意味著你可以在 prompt 里告訴它你接下來要聽的是什么。

我把那段錄有「huashu-design」的音頻丟給它,附上一個 1900 字的 prompt:錄制背景、說話人風格、46 個易錯術語清單(GPT-5.5、Claude Opus 4.7、Codex、Anthropic、Apollo Research……)。讓它輸出標準 SRT 字幕。

然后我把同一段音頻也丟進剪輯軟件自動字幕——剪輯軟件是大多數人做視頻的默認選擇,對比它最直觀。結果:


剪輯軟件這邊把 GitHub 聽成了 GitLab、Claude Opus 4.7 變 COS4.7、GPT-5.5 變 GBT5.5、Claude 4.7 變 cloud 4.7、huashu-design 變花書design——這不是剪輯軟件爛,是所有自動字幕工具的通病:沒有上下文,模型只能在同音組合里挑它最熟的那個。平時會拍視頻的同學應該懂我在說什么。

豆包這邊呢?全對。huashu-design、Claude Opus 4.7、GPT-5.5、GitHub、Claude 4.7,一個不錯。

但這里要補一個 best practice,不然你照著去試可能會失望:豆包不寫 prompt 直接跑,效果只比剪輯軟件好一點——還是會把一部分專有名詞識別歪。它真正的能力,是你把背景、術語清單、說話人風格都寫進 prompt 之后才解鎖的。這次升級真正解鎖的不是「模型能聽」,是「模型能在你給的上下文里聽」。

所以如果你要把它塞進生產鏈路,prompt 上下文是必須做的功課。少了這一步,全模態的能力就發揮不出來。

更出乎意料的是成本。一段 277 秒的音頻,加了 1900 字 prompt 反而比不加便宜——prompt token 多了 1208 個,但模型不用瞎猜了,輸出 token 少了 763 個。總成本下降 20%,單次不到一分錢。

事情到這里其實沒完,因為「帶上下文做字幕」只是這次0428升級最淺的一層。我接下來連做了兩個 demo,一個是用它去看另一支 AI 的產品發布動畫,一個是驗證它在真實工作流里的位置。也就是這篇文章真正想說的那件事:

這一代 Agent 工具,不管是 Claude Code、Cursor 還是 OpenClaw,一直缺一雙能聽音頻、能看視頻的耳朵和眼睛。豆包 Seed 2.0 Lite 0428 非常難得給補上了,價格還很實惠。

讓 AI 看另一支 AI 的產品視頻

字幕這條線我跑通之后,做了第二個實驗,更狠一點。因為我發現Seed 2.0 Lite模型在視頻理解能力上有點猛,機會是全方面碾壓Gemini-3-Pro的水平


OpenAI 上周在 X 上發 GPT-5.5 的時候配了一支 55 秒的 hero 動畫:白底、Inter 字體、打字機標題、4 段產品演示(解魔方、跨 Slack 修 bug、生成財務 PPT、blossom logo 收尾)。

這種動畫是產品發布的標準品,我自己做過幾次,每次都得拉競品視頻反復看,寫一份給前端的 brief,再過一遍設計稿。整個鏈路三天起步。

先看看 OpenAI 那段原視頻長什么樣:

我把這支 55 秒視頻直接喂給豆包 Seed 2.0 Lite,寫了一份 prompt:你看完這個視頻,按 8 個維度(節奏、視覺系統、動效轉場、文案策略、品牌資產、音頻、鏡頭、遷移建議)給我一份結構化輸出,最后給我一份「豆包 Seed 2.0 Lite 發布動畫」的分鏡表,要具體到顏色 hex、字號、動效時序,讓前端能直接動手。

它真給了。

視頻里幾乎所有可觀測的細節它都識別到了:5 段時間碼(0-4s 標題、5-13s 解魔方、14-34s Slack 修 bug、35-50s 生成 PPT、51-55s logo 收尾)、字體氣質(Inter 類無襯線、字重 700/400/500 三層)、強調色紫、blossom 花形符號在魔方表面和結尾出現兩次、BPM 估值 80-90、平均切換頻率 3.5 秒。它還順手指出了開場前 3 秒的鉤子結構和結尾 3 秒的品牌定格邏輯。


更有用的是 H 部分。它給我寫了一份可執行的分鏡表:7 段、每段時間碼、畫面元素、文案、動效、要用的數據點。我把這份表又過了一遍,把它默認套用 OpenAI 紫色那部分換成火山方舟自己的品牌色( / ),把 5-13s 那段「全模態感官可視化」具象化(左側波形圖、中間豆包 logo 脈沖、右側抽幀縮略圖三欄匯聚),加了 SFX 節拍和字體規范,整成一份最終藍本。

然后這份藍本交給我自己另一個 skillhuashu-design(專門做 HTML 動畫的),讓它按藍本寫代碼、Playwright 錄屏、ffmpeg 出 MP4。最后產出長這樣:

整個鏈路從看視頻到拿到 MP4,沒有人寫一份 brief。

我以前做產品視頻是這樣的:看 5 個競品 → 寫 8 千字 brief → 找設計師 → 改 3 輪。現在變成:把 1 個競品丟進 LLM → LLM 寫 brief → 另一個 LLM 寫代碼出動畫。中間那 8 千字的 brief,是這次升級里第一個被吃掉的環節。

這個 demo 不是為了證明豆包能做視頻,它做不了,它只是看懂了視頻。讓 AI 看視頻這件事的價值,是把「拆解參考」這道工序從手動變成 API 調用。

數據對比:同一段音頻,兩個 prompt

回到字幕那條線,我把對比數據完整列一下,方便你看清楚 prompt 上下文到底改變了什么。

維度

不給上下文

給術語清單+背景

關鍵術語命中率

0/13 = 0%

13/13 = 100%

Claude Opus 4.7

Claude 四點七

Codex

Code X(斷成兩段)

GPT-5.5

GPT 5.5(丟連字符)

huashu-design

花書 Diffusion

29% / 22.1%

百分之二十九

字幕條數

72 條(碎)

41 條(適合閱讀)

SRT 時間戳格式合規

后段 5 處錯(句點)

全合規

總 token 成本

0.0101 元

0.0081 元(便宜 20%)

最反直覺的是最后一行。帶上下文的 prompt 多 1208 個 prompt token,你直覺以為更貴,但 completion 那一邊模型不用瞎猜了,反而少 763 個 token。多說一點話,讓模型少說一點廢話。這是這次升級里第二個被吃掉的環節:模型瞎猜的成本。

它在工作臺里的位置

把這兩個 demo 串起來看,論點其實很簡單。

豆包 Seed 2.0 Lite 0428 不是來替換你正在用的 LLM 的。它的輸出能力,寫代碼、復雜推理、長鏈路 Agent,肯定比不過 Claude Opus、GPT-5.5 這種旗艦。我也不會用它去寫 1 萬行代碼。

輸入這一側,它提供的是 Claude Code、Cursor、Codex、OpenClaw 這一整代 coding agent 都沒有的能力:讓你直接把視頻、音頻、圖片以和文本同等地位塞進同一個 API 調用,讓 prompt 里的上下文直接作用在感知層。

這是「前置感官層」的意思,是它在你工作流里的位置:


視頻/音頻/截圖 → [豆包 Seed 2.0 Lite 0428] → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章
眼睛 + 耳朵

重點在這里:你不用換工作臺。日常用 Claude Code、Codex、龍蝦 OpenClaw、Hermes Agent,或者字節自家的 Trae 都行——把豆包 Seed 2.0 Lite 當成前置感官接一層進去,你原來的工作流立刻就有了完整的眼睛和耳朵。不用遷移、不用學新工具,只是給現有的 coding agent 補上它原來缺的那部分感知。

這個月初我發了一本 Hermes Agent 的橙皮書,講長鏈路 Agent 怎么把多步驟任務串起來。當時書里有一節專門講 Agent 工作流的「輸入側瓶頸」:絕大多數任務卡在「怎么把現實世界的視頻/音頻/會議錄屏喂給 Agent」這一步。

這本書寫完之后我自己在工作流里也沒真正解決這個問題,繞過去用 Whisper + 手動改字幕、用 Gemini 處理視頻、用一堆膠水腳本拼。豆包 Seed 2.0 Lite 0428 是我看到的第一個用一次 API 調用就把這兩件事都解決的全模態輕量模型。

價格也是這個論點的支撐。我只跟同檔的全模態輕量模型對比,旗艦模型不是同一個段位,沒必要拉進來。

模型

輸入(元/Mtok)

輸出(元/Mtok)

音頻輸入

Doubao Seed 2.0 Lite

0.6

3.6

9 元/Mtok

Gemini 3 Flash

3.6

21.6

7.2 元/Mtok

跟同尺寸的 Gemini 3 Flash 比,文本輸入便宜 6 倍,輸出便宜 6 倍。這個價格意味著你可以把它真的塞進生產鏈路,不只是做 demo。我那段 4 分 38 秒視頻轉字幕一次不到一分錢,意味著我每天錄的幾個視頻片段全跑一遍語音識別也只要幾毛錢。當成本低到「不用考慮成本」的時候,調用頻率就會漲一個量級,工作流的形態會跟著變。

下一次開 Claude Code 的時候,你可以試著把那段不愿意手動轉錄的會議錄屏丟給它了。

你也是時候給你的龍蝦裝上真正的耳朵和眼睛了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京簽署新法!海外公民批評政府,國內房產或被沒收

普京簽署新法!海外公民批評政府,國內房產或被沒收

老謝談史
2026-06-14 11:05:54
真實的印度到底什么樣?我去印度旅游過幾次,發現網上說的都不準

真實的印度到底什么樣?我去印度旅游過幾次,發現網上說的都不準

劉小順
2026-06-14 11:56:07
中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

獨行俠拒絕交易凱里?歐文的深層原因曝光,全是為了狀元弗拉格

夜白侃球
2026-06-14 13:37:12
世界杯最新積分榜:再爆大冷!澳大利亞2-0創歷史,歐洲隊5戰3敗

世界杯最新積分榜:再爆大冷!澳大利亞2-0創歷史,歐洲隊5戰3敗

球場沒跑道
2026-06-14 14:03:32
徹底認輸!美國吞下苦果,以色列被賣了!

徹底認輸!美國吞下苦果,以色列被賣了!

大嘴說天下
2026-06-13 22:50:03
“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

大江看潮
2026-06-14 09:12:50
他是道德上的小人,卻是政治上的巨人

他是道德上的小人,卻是政治上的巨人

小豫講故事
2026-06-12 06:00:09
你相信嗎?現在還堅持開油車而絕不買電車的人,就是因為這幾個點

你相信嗎?現在還堅持開油車而絕不買電車的人,就是因為這幾個點

夢想的現實
2026-06-14 09:45:28
客流暴跌59%,一年累虧2000億!昔日城市出行主力正“斷臂求生”

客流暴跌59%,一年累虧2000億!昔日城市出行主力正“斷臂求生”

科技故事聚焦
2026-06-14 12:11:16
聊城陽谷化工廠爆炸后續!火球沖天全城斷電,知情人曝出內幕細節

聊城陽谷化工廠爆炸后續!火球沖天全城斷電,知情人曝出內幕細節

奇思妙想草葉君
2026-06-14 12:51:31
鵝腿阿姨的麻煩越來越大了

鵝腿阿姨的麻煩越來越大了

大張的自留地
2026-06-13 20:34:31
8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽啊!

8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽啊!

真實人物采訪
2026-06-13 16:10:05
阿里高層這次真的生氣了

阿里高層這次真的生氣了

一見財經
2026-06-12 11:11:21
恥辱!巴西世界杯首戰丟分頭號罪人!從世界級變廢柴!

恥辱!巴西世界杯首戰丟分頭號罪人!從世界級變廢柴!

奶蓋熊本熊
2026-06-14 08:34:31
外籍旅客帶少數民族服裝出境被攔,6件上衣2件繡片均屬于一般文物

外籍旅客帶少數民族服裝出境被攔,6件上衣2件繡片均屬于一般文物

揚子晚報
2026-06-13 16:44:48
具俊曄出王炸,大S生前照曝光引退讓

具俊曄出王炸,大S生前照曝光引退讓

凜若秋霜
2026-06-14 03:53:46
男子網貸賭博欠債80萬,進戒賭中心經介紹認識化債公司,本想“打折化債”結果又被騙20萬

男子網貸賭博欠債80萬,進戒賭中心經介紹認識化債公司,本想“打折化債”結果又被騙20萬

蓬勃新聞
2026-06-14 14:57:59
無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會這樣干

無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會這樣干

杰絲聊古今
2026-06-14 01:07:38
重磅!哈登非法攜槍被捕已交保釋金 6月22日開庭不定期接受尿檢

重磅!哈登非法攜槍被捕已交保釋金 6月22日開庭不定期接受尿檢

醉臥浮生
2026-06-14 01:51:31
2026-06-14 17:39:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
233文章數 121關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

教育
健康
家居
本地
公開課

教育要聞

收藏:2026山東合格考準考證打印網址+教程!

老人、小孩、孕婦,吃粽子有啥風險

家居要聞

空間微調 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版