![]()
作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com
過去一年,視頻AI賽道最熱的關鍵詞是“可控”——怎么讓AI生成的內容更穩定、更精準、更符合用戶意圖。
創業者們在模型的缺陷上做補丁:更精細的畫布、逐幀調節、分鏡編排,試圖讓AI聽懂人類的每一個指令。
這是一條有價值的路,但它有一個盲區:它假設了用戶已經知道自己想做什么。
事實上,卡住大多數創作者的不是“怎么做”,而是“做什么”。商家不知道現在什么內容格式在火,小創作者不知道為什么某個Meme能傳染給幾百萬人,品牌方不知道自己的產品該接進哪個流行模式。
這是一個Context的問題,模型再強也解決不了,因為它活在一個封閉的生成室里,看不到外面的世界。
Buzzy的答案是,讓AI從創意環節開始介入,給Agent接入互聯網上活的、會傳染的創意數據流,然后和你一起創作視頻。
這個體系里有兩個核心能力。
一是,你與Agent一起腦暴。
在網頁端打開Buzzy,告訴Agent你想找什么風格的內容,它去各平臺幫你搜、幫你刷,根據你的品味推給你。你可以把喜歡的加進list,也可以直接跟Agent討論:這個視頻哪里吸引你,想再找什么方向的。
Buzzy也接入了Messaging app,手機上看到好玩的,直接把鏈接發給它,它記下來,可以了解你的taste,幫你找類似的、做類似的。
二是,Agent幫你P視頻。
當你找到想復刻的方向,不管是精美特效,還是百萬轉場,Buzzy都可以幫你復刻一個新的版本。
比如我們搜到了一個Ins上1.4M觀看的熱門穿搭換裝視頻,選擇進行Recreate,上傳自己的穿搭,就可以得到一個這樣的效果。
除了復刻,用戶還可以讓Buzzy精準修改任何一處,想加一個水杯,想把logo換成黃色——說出來,AI去執行,其他部分不動。
過去一年,從OpenClaw住進用戶的電腦、釘釘開放CLI讓Agent進入辦公環境、到“Harness”概念的興起——整個行業都在做同一件事:把模型從對話框里拉出來,放進用戶真實所在的上下文環境里。
因為模型只有和你所在的環境打通,理解這個環境的運作邏輯,才能真正持續進化,而不只是接受一次性指令然后產出結果。
Buzzy做的是這件事在視頻創作里的具體形態。
以下是硅星人與Buzzy創始人Ella的對話:
一、模型在變強,但創意依然很難
硅星人:Buzzy做這件事的底層邏輯是什么?現在視頻AI賽道這么熱,你們切入的角度和大多數人不太一樣。
Ella:我們做這個產品有一個前提——我們認為模型會足夠強。你要做一個更長期的事情,就得假設最后模型一定能解決所有生成層面的問題。那我們就想,當模型足夠強的時候,大家的卡點還在哪兒?
我們發現卡點其實在兩個環節。第一個,也是最關鍵的——大多數用戶根本不知道自己要做什么內容。不管是商家、創作者還是普通用戶,大家都想做內容,都希望自己的內容有人看、能帶來流量和收益。但什么樣的內容能做到這一點?這件事對他們來說非常難。
你會發現所有人做內容,包括你們寫文章也是,大量時間花在research上——找方向,找適合自己的、有熱度的、有創意的切入點。
硅星人:所以核心痛點不在“怎么做視頻”,而在“做什么視頻”?
Ella: 對。痛苦的點在兩個層面。第一,世界上90%的人,他可能都沒有那么有創意。不可能今天想一個靈感,明天又想一個,后天又想一個。
第二,就算有了一個靈感,你要把它變成一個prompt也很痛苦。視頻是很視覺的事情,它有運鏡、有節奏,你要讓普通人用一段文字把這些描述清楚,其實挺難的。
Buzzy一開始就想先解決這個入口問題——你得讓大家很容易地開始。假設模型夠強,用戶也知道自己想做什么,模型又能全部做好,那不就可以了嗎?
二、你的靈感不該是“搜”出來的
硅星人:你們怎么解決用戶“不知道做什么”這個問題?Agent具體是怎么工作的?
Ella:我們先說一個認知,人的靈感不應該是坐在電腦前狂搜一兩天搜出來的。靈感是迸發出來的。它可能是跟朋友聚餐的時候,可能是在打車路上。它是碎片化的東西,不是說你拿到一個工具,坐那兒死搜就一定會有靈感。
所以我們的方法是這樣的——我們有一個bot,或者說一個Agent。用戶平時刷抖音,或者在某個moment突然有了靈感,就一鍵分享給這個bot。就像在微信或者飛書里發消息一樣,直接分享過去。可以是一個視頻,也可以是一個想法,比如“我要做一個狗跟電腦說話的視頻”。
這就是我們所說的capture——收集你平時的碎片靈感。
你分享給它之后,這個bot會幫你全網去搜。它會說,這個用戶想要“狗跟電腦說話”相關的東西,那我去看一下各個平臺上相關的素材都有哪些,有沒有視頻、文章、動畫提到這個。
搜完之后,它會做兩層篩選:第一層是數據——如果一個視頻是近期發布的、播放量幾百萬、點贊很高,說明它是比較火的。火過的東西會再火,既然它火了,肯定有它的原因。
第二層是用戶的taste。每個用戶喜歡的內容不一樣,有人喜歡大片感的,有人喜歡搞笑的,有人偏愛可愛風。Agent會根據你平時的偏好,在同一個話題下找到符合你風格的方向。
最終呈現給用戶的,就像一個個人化的靈感版——我們的slogan叫“find video ideas to recreate”,就是說你先找到一個不錯的idea,然后starting from this,在它基礎上加入你自己的東西。
硅星人:我覺得這里最吸引人的是,Buzzy的Agent是在“用戶互聯網環境”中思考的。它能主動去看全網在發生什么,一起沖浪、交流,這更偏向營銷和賬號運營員工。
Ella:對,這是關鍵。我們在登陸的時候,還有會用戶個人賬號綁定,你可以把你的產品主頁、TikTok主頁傳上去,讓Buzzy和你一起運營。
我們認為用戶很難先想好做什么——他都已經想清楚了,那還需要什么幫助?最痛苦的那一關,就是想不出來。
硅星人:Buzzy能實時連接、搜索TikTok、ins等等,和人直接在這平臺上搜索一樣嗎?
Ella:不一樣。抖音搜索是純關鍵詞邏輯——你搜“可愛的貓和丑貓打一架”,在抖音很難搜到,因為它只是匹配標簽。我們做了視頻理解,是語義搜索——把視頻里的風格、動效、運鏡這些語義信息提取出來,再幫你搜跟這種“感覺”相似的視頻。
所以出來的結果第一是更準,第二它不再是一個純工具。用戶不用自己跨平臺去搜、一個一個去看。Agent已經幫你搜完了,幫你全部看過一遍了,最后推給你的是質量不錯、數據不錯、有二創空間的內容。
三、教AI理解“梗”有多難
硅星人: 視頻理解能力是這套系統的核心之一。但AI理解視頻里的“梗”應該非常難——有些梗連人都看不懂,怎么教AI?
Ella: 難點確實在這里。舉個例子——有一個面粉整蠱視頻,一個人在面粉袋底部貼了膠帶,她老公拿起來的時候,膠帶一扯,面粉直接撲到臉上。這個梗的關鍵在膠帶,但AI一開始完全看不到膠帶,不理解為什么好笑。
還有一個是把真人變成可愛卡通小人在跑步機上跑,AI沒理解“可愛的小人”才是關鍵,直接把真人大人放跑步機上——那就不是梗了。
核心要求是:你要先理解梗,才能幫用戶復述這個梗。
硅星人: 但怎么讓AI做到這件事?你們接的是API,不能去微調Gemini?
Ella: 我們的方法分兩層。
第一層是context指導——給AI更多上下文,告訴它這類視頻要關注什么。比如有些視頻核心是音樂卡點,你要告訴它“這是卡點視頻,節奏才是關鍵”,它后來就懂了。
但你一定不能一開始cover所有情況。AI在做的過程中會有遺漏,這時候我們會給它feedback:為什么這個點你沒注意到?缺了什么context,你再去調。這是一個持續進化的過程。
第二層是在大模型上搭載了一個小模型。因為只靠context還不夠,有些情況還是會出錯。出錯的時候,每次feedback都會讓這個小模型存下一些東西——不完全是memory,更像是存參數。你越給AI這些context和feedback,它就越來越準。
硅星人: 所以這個小模型輸出的“參數”是什么?
Ella: 可以這么理解:大模型(比如Gemini)本身我們改不了,但在它外面我們搭了一個小模型,這個小模型積累了大量“什么叫梗”的判斷經驗。每次新視頻進來,小模型先做分析——這個視頻的創意點在哪、梗的類型是什么——然后把這些判斷結果作為輸入傳給大模型。大模型拿到的不只是視頻本身,還有小模型預處理過的“理解框架”。這樣大模型的輸出就會更準。
硅星人: 靠不斷出錯、不斷feedback來進化,那這樣效果總是滯后的,怎么辦?
Ella: 確實需要前期大量調教。但我們發現,當你cover了差不多大部分視頻類型之后,準確率就會越來越高,后面就不用那么頻繁地去干預了。關鍵是先把主要的梗類型都讓AI見過,它就能泛化到類似的情況。
我們的目標是讓AI真正有創意。推創意的前提是它先得理解這些視頻的創意點在哪。如果它看了這么多視頻,數據也喂給它了,它不能理解為什么這個視頻火,那它永遠不會有創意。
四、自然語言修改視頻——跟Agent說人話就行
硅星人:找到靈感之后,用戶具體怎么在Buzzy上把視頻做出來?
Ella:用戶選一個覺得不錯的視頻作為開始,然后就跟Agent對話。可以做簡單的二創,比如說“把這個角色換成我的臉”“把橘黃色改成我的品牌色”,像“口噴P視頻”一樣,當然,也可以沒有參考視頻,在對話中按照生劇情、關鍵幀、圖生視頻的方式做,但我們目前核心做的還是前者——二創。
背后的Agent會根據不同的視頻自動選擇不同的模型。我們不讓用戶選模型——用戶選視頻就好了,模型Buzzy來判斷。
硅星人:你們的自然語言修改P視頻,想比視頻模型自帶的參考圖、主體替換等功能,做了什么額外的工程嗎?
Ella:有幾個點,首先,seedance直接修改主體其實并不是很穩定,我們做了很多主體的智能識別能更穩定的替換;
其次, 我們可以修改劇情,對白,背后做了比較多的工作讓劇情修改后更加平滑的鏈接上 。
最后是我們可以做到時間軸上某一段修改,其他段完全不變,銜接的自然。
硅星人:花費大量精力做自然語言P視頻的意義在哪里?這是基礎模型廠商比如Kling、Vidu等等一直在做的事情,你們要跟他們比效果或者速度嗎?
Ella:是這樣的,我們認為視頻編輯是一個非常重要的生成的后處理環節。
但大部分的生成工具,目前做的是先生成很多分鏡,再基于分鏡生成分段視頻,再進行拼接,因為用戶一旦生成好就不好改動了,前期需要大量的確認環節。
但我們認為這不是一個最優的路徑,大多數用戶想要的還是一口氣生成完整視頻,然后看到哪里不滿意再指哪打哪的修改。
特別是用戶和商家日常自己拍攝的視頻。使用Buzzy直接視頻,可以節約大量重新錄制的時間和成本。
基礎模型廠商一直做生成的視頻片段的修改,他們是我們的基礎,但是整體的視頻修改有很多很細的部分,交互不是模型層能做好的。
比如Photoshop,用戶需要精細的框選畫面物體或者編輯某一段時間軸上的內容,這個不僅是自然語言模型的解決的,更多還有應用層的交互和工具設計。
所以我們并不是在和基礎模型廠商比拼,我們更多是建立在基模不斷進化的基礎上,給用戶提供更多的工具體驗和用戶個人品味沉淀下的視頻修改agent。
當然我們相信隨著基模越變越好,我們的效果也會越來越好,因為我們就像船,基模就像水,水漲船高。
硅星人:這跟現在很多做畫布、做分鏡的視頻AI工具路線完全不同。
Ella:我們走的是完全相反的路。那些產品希望做得越來越復雜——更精細的畫布控制,逐幀調節,每個分鏡都可以單獨編輯。他們服務的是非常專業的創作者,就是要做電影,分鏡要特別好的人。
他們算video editor,我們算video recreator。你讓做賬號的人每天去研究畫布?他們更多是看數據——最近三天播放量超過十萬的視頻拉出來,看看有什么跟我相關的,好,做。
或者做廣告的人看一下競品跑了什么廣告效果不錯,把我的商品放進去,就是這樣的需求。
五、Agent越用越懂你
硅星人:如果Buzzy定位是一個私人的視頻創作運營員工,那么參考人類員工會看視頻發布數據,你們的Agent也會去看嗎?
Ella:用戶把視頻發到TikTok、Instagram這些平臺之后,我們是能拿到一些數據的——播放量、互動率、廣告ROI這些。我們再把數據反饋給Agent,跟它說:你這次的創意只拿到了50分,但別人的拿到了80分。
這本質上就是Agent的“饑餓游戲”——讓Agent發現另一個視頻做得比它好,那它就應該向別人靠攏,把好的方向反饋回來,說我們應該往A這個方向去做創意,而不是B。
硅星人:但流量有時候是不可預測的,同樣的創意可能因為發布時間、賬號屬性等因素有不同表現。
Ella:對,Buzzy不能保證說發這樣的內容一定更好。但從更大的維度來看,它會不斷迭代,比如發三個不同的角度,小貓跳舞,雪山飛狐,然后發現你的賬號就是做雪山飛狐數據更好,那就繼續做,和人類員工的AB test是一樣的。
六、從Creati到Buzzy——為什么是這條路
硅星人:你之前的背景是什么,團隊之前做過什么,是怎么走到Buzzy這條路上的?
Ella:我們從GANs時代就開始做視頻AI了。上一個產品叫Creati,有點像Pixverse——用戶選一個模板,把照片傳上去,一鍵生成。那個產品用戶量也比較大。
我們在做Creati的時候看到了一個核心問題——小商家和大多數創作者,他們其實非常需要所見即所得,無論是創作視頻還是修改視頻,都是希望先給到一個結果,基于可視化的結果去做修改。
大部分人有一個Spark、一個靈感的碎片,但它不清晰,需要很多工作來把它具體化。或者很多人其實有靈感,后來就懶得做了。
之前Creati是把做好的模板給用戶選,buzzy要做的就是AI員工幫用戶找到可視化的靈感,用戶直接告訴agent這個才是我想要的風格,然后直接給到用戶結果。
硅星人:現在產品到什么階段了?
Ella:Buzzy是2025年底開始做的,兩三個月做出來,正式環境已經上線了,也歡迎大家來使用https://www.buzzy.now/。
我們想做一點不太一樣的東西。現在做視頻的人很多,我們一直在想到底哪一塊對用戶長期有價值。我們覺得長期有價值的還是沉淀用戶的taste——因為當AI能做所有事情的時候,人的品味和選擇才是最后的堡壘。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.