![]()
當視頻生成模型走出娛樂創作的舒適區,進入科學、醫療、教育等知識密集場景,它們是否還能生成事實準確、清晰可用的視頻?
![]()
任務對比 —— 傳統視覺質量導向 vs KIVI 知識密集型導向
針對這一挑戰,研究者首次定義了「知識密集型視頻生成」(KIVI)新任務 —— 要求模型從簡短提示詞出發,生成事實準確、用戶能照著做的視頻。團隊配套構建了 1080 條提示詞的 KIVI-Bench 評測集,提出 FactP 與 HelpS 兩個自動指標,并在 7 款主流模型上揭示了實體誤描、操作錯誤、組件錯位三類系統性短板。
![]()
- 論文標題:Knowledge-Intensive Video Generation
- 論文鏈接:https://arxiv.org/abs/2606.01285
- 代碼倉庫:https://github.com/wcxhimself/KIVI
一個被忽視的空白:
視頻生成不該只為娛樂存在
過去兩年,從 Sora 到 Seedance,視頻生成模型在畫面質量、運動流暢度和時空一致性等方面取得了顯著進展。然而,現有研究與評測仍主要圍繞「視頻是否好看」展開,較少關注生成內容是否事實準確、過程是否合理、信息是否真正有用。
隨著視頻生成技術逐漸走出娛樂創作場景,它正在進入醫療、教育、科學傳播、操作指導等知識密集領域。在這些場景中,用戶關心的不只是畫面是否逼真,而是模型能否準確表達知識、清晰展示過程,并幫助用戶理解或完成具體任務。也就是說,視頻生成模型面臨的核心問題正在發生變化:從「能否生成自然流暢的視頻」,轉向「能否生成知識可靠且有實際價值的視頻」。
這種變化也暴露出現有視頻生成范式與真實用戶需求之間的錯位。比如,當用戶搜索「如何更換汽車輪胎」時,他們期待的不是一段視覺效果華麗但步驟含糊的視頻,也不是先由自己寫出完整分鏡腳本,再交給模型逐段生成,更合理的方式應該是,模型能夠直接理解用戶意圖,并生成一段步驟正確、過程清晰、可操作的視頻。因此,我們提出 KIVI,將視頻生成的評測目標從視覺質量導向,推進到知識可靠性與用戶實用性導向。
KIVI-Bench:
1080 條模擬用戶真實使用場景的提示詞
18個類別涵蓋汽車維護、健康醫療、電子設備等,經 LLM 擴充與人工去重后保留 1080 條提示詞。
提示詞的構造遵循五個標準。視頻優越性:比文字更直觀(如空間操作、界面導航);事實正確且可核驗:提示詞事實正確,實體有公開文檔可核驗;專有名詞有知識挑戰性:使用具體產品實名(如 Bosticht 卷筆刀),而非泛指實體;超越常識:需要真正掌握特定知識(如 Omron BP5450 血壓計的操作步驟),不能僅憑日常經驗作答。貼近真實:表述簡短自然,符合用戶實際提問方式。
自動評估標準:FactP 與 HelpS
傳統視覺指標(Imaging Quality, Motion Smoothness 等)與人類對內容準確性和幫助性的判斷幾乎無關,為此,KIVI 設計了兩個互補的自動評估標準:
FactP(事實精度)回答「說沒說對」。它的思路是先抽取、再驗證 ——LLM 從視頻中提取原子化聲明,逐條判定正誤,按正確比例計分。
HelpS(幫助性評分)回答「能不能照著做」。LLM 從相關性、完整性、清晰度三個維度打分,核心追問:用戶能否僅憑這段視頻完成所提任務?兩者互補,形成完整評價體系。
![]()
KIVI 多階段評測管線
七款模型「同臺應試」
團隊評測了 7 款主流系統,涵蓋閉源 API(Seedance 2.0、HappyHorse 1.0)、開源短視頻生成模型(Wan 2.2、HunyuanVideo 1.5)和開源長視頻模型(Helios-Base、LongCat-Video、LongLive 1.0)。
人工制作視頻的 FactP 和 HelpS 分別達到 97.8% 和 81.9%,遠超當前視頻生成模型。在模型結果中,閉源短視頻模型 HappyHorse 1.0 獲得最高 FactP(83.2%),Seedance 2.0 獲得最高 HelpS(66.6%)。最佳開源短視頻模型 Wan 2.2 的 FactP 和 HelpS 分別為 73.1% 和 48.4%,與閉源模型仍存在明顯差距。總體來看,短視頻生成模型雖然尚未達到人工制作水平,但在事實準確性和幫助性上均顯著優于長視頻生成模型。
![]()
KIVI-Bench 評測結果(基于 54 條均勻采樣子集)
人類評估:在 108 組兩兩對比中,FactP 與人工事實判斷一致性達 70.8%,顯著優于現有的視頻質量自動評估標準 VBench-Long 最優維度(56.5%),HelpS 與人工幫助性判斷一致性達 69.0%。而傳統指標如 Imaging Quality(38.9%)幾乎與人類判斷無關。
![]()
人類評估結果
三大系統性錯誤:模型到底錯在哪?
![]()
錯誤類型占比
對870條錯誤聲明的分類揭示三類短板:
實體誤描占比最高,達 42.6%。模型經常 "發明" 不存在的外觀特征,涉及特定產品型號時幻覺率急劇攀升 —— 比如將 Bostitch 電動卷筆刀畫成了盒狀插孔,而真機是弧形機身。
操作錯誤緊隨其后,占 40.7%,這類錯誤更隱蔽:外觀畫對了,步驟卻錯了。模型能還原 BP5450 血壓計的外形,卻把袖帶綁在了前臂,而這臺設備專為上臂設計,暴露了程序性知識的系統性缺失。
組件錯位占比 15.0%,雖然比例最低,但機油和漏斗出現在中央扶手箱而非發動機艙這類錯誤,同樣意味著視頻對用戶毫無幫助。
![]()
三類主要事實性錯誤示例
結語:從視覺生成走向知識傳達
KIVI 系統定義了視頻生成中一個長期被忽視的任務方向:視頻不應只服務于娛樂創作,也應能夠在知識密集場景中準確傳達信息、清晰展示過程,并真正幫助用戶理解或完成任務。
當目標從「還原畫面描述」轉向「傳達可靠知識」,視頻生成的評測標準也需要隨之改變。傳統評測中表現最好的模型,未必能夠在事實性、過程合理性和實用性上保持優勢;而從簡短文本需求直接生成知識型視覺內容,也對模型的理解、規劃和生成能力提出了更高要求。
因此,KIVI 不只是一個新的基準,更是在重新定義視頻生成的下一階段目標:從「畫面是否自然」走向「內容是否可靠」,從「娛樂創作工具」走向「知識獲取媒介」。這也指向了視頻生成從像素空間走向實用空間的下一個前沿方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.