網易首頁 > 網易號 > 正文申請入駐

對話Buzzy：做個能刷TikTok、懂梗且會“P視頻”的視頻Agent

2026-04-13 11:05:16　來源: 硅星人

北京舉報

分享至

作者｜黃小藝
郵箱｜ huangxiaoyi@pingwest.com

過去一年，視頻AI賽道最熱的關鍵詞是“可控”——怎么讓AI生成的內容更穩定、更精準、更符合用戶意圖。

創業者們在模型的缺陷上做補丁：更精細的畫布、逐幀調節、分鏡編排，試圖讓AI聽懂人類的每一個指令。

這是一條有價值的路，但它有一個盲區：它假設了用戶已經知道自己想做什么。

事實上，卡住大多數創作者的不是“怎么做”，而是“做什么”。商家不知道現在什么內容格式在火，小創作者不知道為什么某個Meme能傳染給幾百萬人，品牌方不知道自己的產品該接進哪個流行模式。

這是一個Context的問題，模型再強也解決不了，因為它活在一個封閉的生成室里，看不到外面的世界。

Buzzy的答案是，讓AI從創意環節開始介入，給Agent接入互聯網上活的、會傳染的創意數據流，然后和你一起創作視頻。

這個體系里有兩個核心能力。

一是，你與Agent一起腦暴。

在網頁端打開Buzzy，告訴Agent你想找什么風格的內容，它去各平臺幫你搜、幫你刷，根據你的品味推給你。你可以把喜歡的加進list，也可以直接跟Agent討論：這個視頻哪里吸引你，想再找什么方向的。

Buzzy也接入了Messaging app，手機上看到好玩的，直接把鏈接發給它，它記下來，可以了解你的taste，幫你找類似的、做類似的。

二是，Agent幫你P視頻。

當你找到想復刻的方向，不管是精美特效，還是百萬轉場，Buzzy都可以幫你復刻一個新的版本。

比如我們搜到了一個Ins上1.4M觀看的熱門穿搭換裝視頻，選擇進行Recreate，上傳自己的穿搭，就可以得到一個這樣的效果。

除了復刻，用戶還可以讓Buzzy精準修改任何一處，想加一個水杯，想把logo換成黃色——說出來，AI去執行，其他部分不動。

過去一年，從OpenClaw住進用戶的電腦、釘釘開放CLI讓Agent進入辦公環境、到“Harness”概念的興起——整個行業都在做同一件事：把模型從對話框里拉出來，放進用戶真實所在的上下文環境里。

因為模型只有和你所在的環境打通，理解這個環境的運作邏輯，才能真正持續進化，而不只是接受一次性指令然后產出結果。

Buzzy做的是這件事在視頻創作里的具體形態。

以下是硅星人與Buzzy創始人Ella的對話：

一、模型在變強，但創意依然很難

硅星人：Buzzy做這件事的底層邏輯是什么？現在視頻AI賽道這么熱，你們切入的角度和大多數人不太一樣。

Ella：我們做這個產品有一個前提——我們認為模型會足夠強。你要做一個更長期的事情，就得假設最后模型一定能解決所有生成層面的問題。那我們就想，當模型足夠強的時候，大家的卡點還在哪兒？

我們發現卡點其實在兩個環節。第一個，也是最關鍵的——大多數用戶根本不知道自己要做什么內容。不管是商家、創作者還是普通用戶，大家都想做內容，都希望自己的內容有人看、能帶來流量和收益。但什么樣的內容能做到這一點？這件事對他們來說非常難。

你會發現所有人做內容，包括你們寫文章也是，大量時間花在research上——找方向，找適合自己的、有熱度的、有創意的切入點。

硅星人：所以核心痛點不在“怎么做視頻”，而在“做什么視頻”？

Ella：對。痛苦的點在兩個層面。第一，世界上90%的人，他可能都沒有那么有創意。不可能今天想一個靈感，明天又想一個，后天又想一個。

第二，就算有了一個靈感，你要把它變成一個prompt也很痛苦。視頻是很視覺的事情，它有運鏡、有節奏，你要讓普通人用一段文字把這些描述清楚，其實挺難的。

Buzzy一開始就想先解決這個入口問題——你得讓大家很容易地開始。假設模型夠強，用戶也知道自己想做什么，模型又能全部做好，那不就可以了嗎？

二、你的靈感不該是“搜”出來的

硅星人：你們怎么解決用戶“不知道做什么”這個問題？Agent具體是怎么工作的？

Ella：我們先說一個認知，人的靈感不應該是坐在電腦前狂搜一兩天搜出來的。靈感是迸發出來的。它可能是跟朋友聚餐的時候，可能是在打車路上。它是碎片化的東西，不是說你拿到一個工具，坐那兒死搜就一定會有靈感。

所以我們的方法是這樣的——我們有一個bot，或者說一個Agent。用戶平時刷抖音，或者在某個moment突然有了靈感，就一鍵分享給這個bot。就像在微信或者飛書里發消息一樣，直接分享過去。可以是一個視頻，也可以是一個想法，比如“我要做一個狗跟電腦說話的視頻”。

這就是我們所說的capture——收集你平時的碎片靈感。

你分享給它之后，這個bot會幫你全網去搜。它會說，這個用戶想要“狗跟電腦說話”相關的東西，那我去看一下各個平臺上相關的素材都有哪些，有沒有視頻、文章、動畫提到這個。

搜完之后，它會做兩層篩選：第一層是數據——如果一個視頻是近期發布的、播放量幾百萬、點贊很高，說明它是比較火的。火過的東西會再火，既然它火了，肯定有它的原因。

第二層是用戶的taste。每個用戶喜歡的內容不一樣，有人喜歡大片感的，有人喜歡搞笑的，有人偏愛可愛風。Agent會根據你平時的偏好，在同一個話題下找到符合你風格的方向。

最終呈現給用戶的，就像一個個人化的靈感版——我們的slogan叫“find video ideas to recreate”，就是說你先找到一個不錯的idea，然后starting from this，在它基礎上加入你自己的東西。

硅星人：我覺得這里最吸引人的是，Buzzy的Agent是在“用戶互聯網環境”中思考的。它能主動去看全網在發生什么，一起沖浪、交流，這更偏向營銷和賬號運營員工。

Ella：對，這是關鍵。我們在登陸的時候，還有會用戶個人賬號綁定，你可以把你的產品主頁、TikTok主頁傳上去，讓Buzzy和你一起運營。

我們認為用戶很難先想好做什么——他都已經想清楚了，那還需要什么幫助？最痛苦的那一關，就是想不出來。

硅星人：Buzzy能實時連接、搜索TikTok、ins等等，和人直接在這平臺上搜索一樣嗎？

Ella：不一樣。抖音搜索是純關鍵詞邏輯——你搜“可愛的貓和丑貓打一架”，在抖音很難搜到，因為它只是匹配標簽。我們做了視頻理解，是語義搜索——把視頻里的風格、動效、運鏡這些語義信息提取出來，再幫你搜跟這種“感覺”相似的視頻。

所以出來的結果第一是更準，第二它不再是一個純工具。用戶不用自己跨平臺去搜、一個一個去看。Agent已經幫你搜完了，幫你全部看過一遍了，最后推給你的是質量不錯、數據不錯、有二創空間的內容。

三、教AI理解“梗”有多難

硅星人：視頻理解能力是這套系統的核心之一。但AI理解視頻里的“梗”應該非常難——有些梗連人都看不懂，怎么教AI？

Ella：難點確實在這里。舉個例子——有一個面粉整蠱視頻，一個人在面粉袋底部貼了膠帶，她老公拿起來的時候，膠帶一扯，面粉直接撲到臉上。這個梗的關鍵在膠帶，但AI一開始完全看不到膠帶，不理解為什么好笑。

還有一個是把真人變成可愛卡通小人在跑步機上跑，AI沒理解“可愛的小人”才是關鍵，直接把真人大人放跑步機上——那就不是梗了。

核心要求是：你要先理解梗，才能幫用戶復述這個梗。

硅星人：但怎么讓AI做到這件事？你們接的是API，不能去微調Gemini？

Ella：我們的方法分兩層。

第一層是context指導——給AI更多上下文，告訴它這類視頻要關注什么。比如有些視頻核心是音樂卡點，你要告訴它“這是卡點視頻，節奏才是關鍵”，它后來就懂了。

但你一定不能一開始cover所有情況。AI在做的過程中會有遺漏，這時候我們會給它feedback：為什么這個點你沒注意到？缺了什么context，你再去調。這是一個持續進化的過程。

第二層是在大模型上搭載了一個小模型。因為只靠context還不夠，有些情況還是會出錯。出錯的時候，每次feedback都會讓這個小模型存下一些東西——不完全是memory，更像是存參數。你越給AI這些context和feedback，它就越來越準。

硅星人：所以這個小模型輸出的“參數”是什么？

Ella：可以這么理解：大模型（比如Gemini）本身我們改不了，但在它外面我們搭了一個小模型，這個小模型積累了大量“什么叫梗”的判斷經驗。每次新視頻進來，小模型先做分析——這個視頻的創意點在哪、梗的類型是什么——然后把這些判斷結果作為輸入傳給大模型。大模型拿到的不只是視頻本身，還有小模型預處理過的“理解框架”。這樣大模型的輸出就會更準。

硅星人：靠不斷出錯、不斷feedback來進化，那這樣效果總是滯后的，怎么辦？

Ella：確實需要前期大量調教。但我們發現，當你cover了差不多大部分視頻類型之后，準確率就會越來越高，后面就不用那么頻繁地去干預了。關鍵是先把主要的梗類型都讓AI見過，它就能泛化到類似的情況。

我們的目標是讓AI真正有創意。推創意的前提是它先得理解這些視頻的創意點在哪。如果它看了這么多視頻，數據也喂給它了，它不能理解為什么這個視頻火，那它永遠不會有創意。

四、自然語言修改視頻——跟Agent說人話就行

硅星人：找到靈感之后，用戶具體怎么在Buzzy上把視頻做出來？

Ella：用戶選一個覺得不錯的視頻作為開始，然后就跟Agent對話。可以做簡單的二創，比如說“把這個角色換成我的臉”“把橘黃色改成我的品牌色”，像“口噴P視頻”一樣，當然，也可以沒有參考視頻，在對話中按照生劇情、關鍵幀、圖生視頻的方式做，但我們目前核心做的還是前者——二創。

背后的Agent會根據不同的視頻自動選擇不同的模型。我們不讓用戶選模型——用戶選視頻就好了，模型Buzzy來判斷。

硅星人：你們的自然語言修改P視頻，想比視頻模型自帶的參考圖、主體替換等功能，做了什么額外的工程嗎？

Ella：有幾個點，首先，seedance直接修改主體其實并不是很穩定，我們做了很多主體的智能識別能更穩定的替換；

其次，我們可以修改劇情，對白，背后做了比較多的工作讓劇情修改后更加平滑的鏈接上。

最后是我們可以做到時間軸上某一段修改，其他段完全不變，銜接的自然。

硅星人：花費大量精力做自然語言P視頻的意義在哪里？這是基礎模型廠商比如Kling、Vidu等等一直在做的事情，你們要跟他們比效果或者速度嗎？

Ella：是這樣的，我們認為視頻編輯是一個非常重要的生成的后處理環節。

但大部分的生成工具，目前做的是先生成很多分鏡，再基于分鏡生成分段視頻，再進行拼接，因為用戶一旦生成好就不好改動了，前期需要大量的確認環節。

但我們認為這不是一個最優的路徑，大多數用戶想要的還是一口氣生成完整視頻，然后看到哪里不滿意再指哪打哪的修改。

特別是用戶和商家日常自己拍攝的視頻。使用Buzzy直接視頻，可以節約大量重新錄制的時間和成本。

基礎模型廠商一直做生成的視頻片段的修改，他們是我們的基礎，但是整體的視頻修改有很多很細的部分，交互不是模型層能做好的。

比如Photoshop，用戶需要精細的框選畫面物體或者編輯某一段時間軸上的內容，這個不僅是自然語言模型的解決的，更多還有應用層的交互和工具設計。

所以我們并不是在和基礎模型廠商比拼，我們更多是建立在基模不斷進化的基礎上，給用戶提供更多的工具體驗和用戶個人品味沉淀下的視頻修改agent。

當然我們相信隨著基模越變越好，我們的效果也會越來越好，因為我們就像船，基模就像水，水漲船高。

硅星人：這跟現在很多做畫布、做分鏡的視頻AI工具路線完全不同。

Ella：我們走的是完全相反的路。那些產品希望做得越來越復雜——更精細的畫布控制，逐幀調節，每個分鏡都可以單獨編輯。他們服務的是非常專業的創作者，就是要做電影，分鏡要特別好的人。

他們算video editor，我們算video recreator。你讓做賬號的人每天去研究畫布？他們更多是看數據——最近三天播放量超過十萬的視頻拉出來，看看有什么跟我相關的，好，做。

或者做廣告的人看一下競品跑了什么廣告效果不錯，把我的商品放進去，就是這樣的需求。

五、Agent越用越懂你

硅星人：如果Buzzy定位是一個私人的視頻創作運營員工，那么參考人類員工會看視頻發布數據，你們的Agent也會去看嗎？

Ella：用戶把視頻發到TikTok、Instagram這些平臺之后，我們是能拿到一些數據的——播放量、互動率、廣告ROI這些。我們再把數據反饋給Agent，跟它說：你這次的創意只拿到了50分，但別人的拿到了80分。

這本質上就是Agent的“饑餓游戲”——讓Agent發現另一個視頻做得比它好，那它就應該向別人靠攏，把好的方向反饋回來，說我們應該往A這個方向去做創意，而不是B。

硅星人：但流量有時候是不可預測的，同樣的創意可能因為發布時間、賬號屬性等因素有不同表現。

Ella：對，Buzzy不能保證說發這樣的內容一定更好。但從更大的維度來看，它會不斷迭代，比如發三個不同的角度，小貓跳舞，雪山飛狐，然后發現你的賬號就是做雪山飛狐數據更好，那就繼續做，和人類員工的AB test是一樣的。

六、從Creati到Buzzy——為什么是這條路

硅星人：你之前的背景是什么，團隊之前做過什么，是怎么走到Buzzy這條路上的？

Ella：我們從GANs時代就開始做視頻AI了。上一個產品叫Creati，有點像Pixverse——用戶選一個模板，把照片傳上去，一鍵生成。那個產品用戶量也比較大。

我們在做Creati的時候看到了一個核心問題——小商家和大多數創作者，他們其實非常需要所見即所得，無論是創作視頻還是修改視頻，都是希望先給到一個結果，基于可視化的結果去做修改。

大部分人有一個Spark、一個靈感的碎片，但它不清晰，需要很多工作來把它具體化。或者很多人其實有靈感，后來就懶得做了。

之前Creati是把做好的模板給用戶選，buzzy要做的就是AI員工幫用戶找到可視化的靈感，用戶直接告訴agent這個才是我想要的風格，然后直接給到用戶結果。

硅星人：現在產品到什么階段了？

Ella：Buzzy是2025年底開始做的，兩三個月做出來，正式環境已經上線了，也歡迎大家來使用https://www.buzzy.now/。

我們想做一點不太一樣的東西。現在做視頻的人很多，我們一直在想到底哪一塊對用戶長期有價值。我們覺得長期有價值的還是沉淀用戶的taste——因為當AI能做所有事情的時候，人的品味和選擇才是最后的堡壘。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.