這是蒼何的第 533 篇原創!
大家好,我是蒼何。
今天,我的 AI 視頻團隊「正式入職騰訊了」。
事情是這樣的,我一直覺得做短視頻是件反人類的事。
找熱點、想選題、寫腳本、做分鏡、剪輯、加字幕、發平臺......
一個人全干完,基本等于下班后再上一次班。
![]()
后來我換了個思路:既然人類團隊能流水線協作,AI 為什么不能?
于是我搭了 2 個 AI 視頻團隊,一個負責「拆解爆款視頻」,一個負責「自動生產視頻」。
每個團隊都有幾個不同的專業 Agent 負責執行任務。
多 Agent 協同的邏輯和之前跨境電商團隊的搭建方法一致。
爆款視頻拆解團隊可以直接拆解爆款視頻,并生成拆解報告,把景別、運鏡、剪輯節奏、仿拍建議統統都給準備好。
我隨便跑了個例子,你可以看看他的效果。
![]()
自動生產視頻能自動搜索熱點 → 自動篩選選題 → 自動寫腳本 → 自動設計分鏡 → 自動生成配音 → 自動渲染視頻 → 自動加字幕 → 自動發布平臺。
![]()
騰訊的朋友試用過我的內測版本后,覺得效果有點炫,問我能不能把這 2 個團隊做成人人都可用的 AI 專家。
![]()
我答應了。
現在,我的 2 個 AI 視頻團隊已經上架到騰訊的 WorkBuddy 了,你可以直接體驗。
![]()
你現在打開 WorkBuddy,在專家團那里搜這兩個就是我的 AI 團隊。
你現在只要在 WorkBuddy PC 端點一下召喚,就能使用了,專家團會調用多個專家協同進行任務。
![]()
當然也可以直接在小程序體驗:
![]()
我給"視頻生成團隊"配了 4 個專業的 Agent,分別是視頻生成團隊主理人凌導、信息采集員靈閱、內容策劃師靈樞、視頻制作師靈映。
![]()
召喚成功后,你只需要輸入一句話:
幫我做一期視頻,主題是[AI周報],時長46秒然后就不用管了。
后面發生的事情是這樣的:
視頻如下:
整個流程里,我只做了兩件事:輸入一個主題,等視頻生成。
剩下的,全由 Agent 團隊自動協作完成。
以前我們和 AI 的關系,是「一對一聊天」。
現在是一句話,召喚一個團隊。
它有團長、有分工、有協作,是一個真正的多 Agent 團隊。團長拆任務,團員并行干活,最后整合交付。
像一個真正的項目組在幫你干活。
![]()
而驅動這條視頻流水線的,就是我搭的第一個團隊。
這個團隊基于 HyperFrames 搭建,是一個自動采集+生產+發布的 Agent 團隊。
HyperFrames 是 HeyGen 開源的視頻渲染框架,核心思路是寫 HTML 就能渲染視頻,天然為 Agent 設計。它有 CLI 工具鏈、TTS/字幕/去背景等媒體處理能力、50+ 現成的視頻組件模板。
團隊里有四個成員:視頻生成團隊主理人凌導、信息采集員靈閱、內容策劃師靈樞、視頻制作師靈映。
![]()
我輸入一句需求,后面已經不是「一個 AI 在回答」了。
靈閱去搜熱點、靈樞寫腳本、靈映渲染視頻、發布 Agent 去發平臺。團長知道什么時候該拆任務、什么時候該并行、什么時候該串行。
這才是真正的 Multi-Agent,不是輪流回答,是有明確分工的團隊協作。
做視頻最耗時間的其實不是剪輯,是「今天到底拍什么」。
所以我先做了信息采集 Agent。它每天自動抓 RSS、搜新聞、掃社媒、聚合 AI 熱點,還會把重復內容清洗掉,最后輸出一份結構化摘要。
![]()
選題有了,真正費腦子的來了:「這條視頻到底怎么講?」
內容策劃師靈樞負責選題評估、腳本寫作、分鏡設計、旁白文案,甚至鏡頭節奏。
![]()
連轉場建議、素材清單、BGM 節奏、字幕停頓、情緒節點這些細節,它都會一起生成。
![]()
![]()
我最開始只是想「自動寫文案」,后來發現真正耗時間的是「鏡頭語言」,于是干脆把「導演思維」也塞進去了。
靈映會把腳本自動轉成 HTML,然后調用 HyperFrames 渲染 MP4。
系統自動完成 Azure TTS 配音、Whisper 字幕對齊、動畫與轉場生成、素材拼接、字幕疊加、視頻渲染,最后直接輸出成片。
![]()
更有意思的是,視頻風格還能自動匹配。AI/科技新聞自動切深藍科技風,知識科普變清新教育風,產品評測偏對比風,行業分析變商務數據風。
輸出的效果,基本能直接發平臺。
在 WorkBuddy 中,我還能在右側看到每個 Agent 的運行流程和產物,整個過程透明可控。
![]()
最后一步我也不想手動點。
發布 Agent 會自動生成標題、自動打標簽、自動上傳封面,然后通過云手機發布到抖音、視頻號和 B站。
讓它把視頻發到視頻號上,幾秒搞定。
![]()
![]()
就像一個微型視頻制作公司,只不過成員全是 Agent,我只負責說一句話。
光會「生成」還不夠。
真正重要的是學會別人為什么能爆。
于是我又搭了第二個團隊,專門負責一件事:把一條爆款視頻,拆成可以直接照著復刻的「操作手冊」。
![]()
輸入一個視頻鏈接,它就會自動提取視頻、轉錄文案、分析景別運鏡、剪輯節奏、色調風格,生成完整拍攝腳本拆解文檔,并提供可落地的仿拍建議。
![]()
整個流程分三個階段。最復雜的是「視頻下載」,所以我做了一套「三層降級策略」:官方 API → Playwright → yt-dlp。只要有一層成功,流程就繼續。
![]()
團隊里的角色分工:
角色
職責
工具/技術
阿爆
團長/拆解總控
任務調度、流程編排
小凱
音頻處理與轉錄
ffmpeg、硅基流動 ASR
小淼
視頻理解與鏡頭裁切
火山方舟視頻理解 API、ffmpeg
使用起來非常簡單,輸入視頻鏈接,阿爆就會調度團隊開始工作。
![]()
視頻下載完成后,小凱用 ffmpeg 提取音頻,把video.mp4轉成audio.mp3,然后調用硅基流動 API 做語音識別,自動轉錄完整口播文案。
![]()
以前做這種事情,最痛苦的就是一句句聽、一句句敲。現在一鍵搞定。
![]()
接下來是最有意思的一步:視頻理解。
調用火山方舟的視頻理解 API,讓 AI 分析整條視頻的「鏡頭語言」。景別、運鏡、轉場、剪輯節奏、色調、鏡頭時長,全部拆得明明白白。
![]()
![]()
你會突然發現,那些看起來「很有感覺」的爆款視頻,背后全是有規律的。
小淼還能自動裁鏡頭,根據時間戳把每個鏡頭片段單獨切出來。
![]()
我還可以讓兩個專家團進行合作。
先拆解爆款視頻,學習里面的鏡頭語言和節奏,然后讓視頻生成團隊去生產新視頻,發布之后繼續分析數據,再反過來優化下一版內容。
一個團隊負責「學習」,一個團隊負責「生產」,形成閉環。
講真的,以前想玩 Multi-Agent,你得自己研究 LangGraph、CrewAI、Agent 編排、Tool 調度、Workflow,門檻勸退了 99% 的人。
WorkBuddy 做的事情是把這些全部產品化了。
你不需要懂什么是 Agent、什么是 Tool,你只需要會說「幫我做 XXX」。
點開專家團,一句話派活,團長自動拆解分工,團員并行執行,最后整合交付。開箱即用,不需要自己搭環境、寫工作流、配 API。
![]()
而且小程序也能用。通勤路上冒出一個想法,掏手機打開 WorkBuddy 小程序,一句話召喚專家團,到公司時結果已經在了。手機和電腦端對話上下文完全打通,隨時切換設備繼續。
目前 WorkBuddy 已經上線了 24 個專家團、160 位 AI 角色,覆蓋產研、內容、增長變現、財稅法務、數據、投資金融。
其實就有 2 個專家團是蒼何為大家精心打造的,當然了我也會一直持續迭代。
說白了,一個人也能擁有一整家公司的專業班底。
以前「一人公司」更像一句口號,聽著熱血,做起來全靠硬撐。
現在我越來越覺得,AI 專家團正在把它變成現實。
你不需要什么都會,你只需要有一個 AI 團隊什么都能干。
你只需要做好一件事:想清楚你要什么。
剩下的,交給團隊。
如果你也想體驗「一句話召喚一個團隊」的感覺,去 WorkBuddy 試試專家團,說不定會打開新世界的大門。
覺得有用的話,點個贊再走唄,我們下期見~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.