網易首頁 > 網易號 > 正文申請入駐

1080條提示詞、7款模型比拼：視頻生成好看、好用又準確差多少？

2026-06-16 09:00:12　來源: 機器之心Pro

天津舉報

分享至

當視頻生成模型走出娛樂創作的舒適區，進入科學、醫療、教育等知識密集場景，它們是否還能生成事實準確、清晰可用的視頻？

任務對比 —— 傳統視覺質量導向 vs KIVI 知識密集型導向

針對這一挑戰，研究者首次定義了「知識密集型視頻生成」（KIVI）新任務 —— 要求模型從簡短提示詞出發，生成事實準確、用戶能照著做的視頻。團隊配套構建了 1080 條提示詞的 KIVI-Bench 評測集，提出 FactP 與 HelpS 兩個自動指標，并在 7 款主流模型上揭示了實體誤描、操作錯誤、組件錯位三類系統性短板。

論文標題：Knowledge-Intensive Video Generation
論文鏈接：https://arxiv.org/abs/2606.01285
代碼倉庫：https://github.com/wcxhimself/KIVI

一個被忽視的空白：

視頻生成不該只為娛樂存在

過去兩年，從 Sora 到 Seedance，視頻生成模型在畫面質量、運動流暢度和時空一致性等方面取得了顯著進展。然而，現有研究與評測仍主要圍繞「視頻是否好看」展開，較少關注生成內容是否事實準確、過程是否合理、信息是否真正有用。

隨著視頻生成技術逐漸走出娛樂創作場景，它正在進入醫療、教育、科學傳播、操作指導等知識密集領域。在這些場景中，用戶關心的不只是畫面是否逼真，而是模型能否準確表達知識、清晰展示過程，并幫助用戶理解或完成具體任務。也就是說，視頻生成模型面臨的核心問題正在發生變化：從「能否生成自然流暢的視頻」，轉向「能否生成知識可靠且有實際價值的視頻」。

這種變化也暴露出現有視頻生成范式與真實用戶需求之間的錯位。比如，當用戶搜索「如何更換汽車輪胎」時，他們期待的不是一段視覺效果華麗但步驟含糊的視頻，也不是先由自己寫出完整分鏡腳本，再交給模型逐段生成，更合理的方式應該是，模型能夠直接理解用戶意圖，并生成一段步驟正確、過程清晰、可操作的視頻。因此，我們提出 KIVI，將視頻生成的評測目標從視覺質量導向，推進到知識可靠性與用戶實用性導向。

KIVI-Bench：

1080 條模擬用戶真實使用場景的提示詞

18個類別涵蓋汽車維護、健康醫療、電子設備等，經 LLM 擴充與人工去重后保留 1080 條提示詞。

提示詞的構造遵循五個標準。視頻優越性：比文字更直觀（如空間操作、界面導航）；事實正確且可核驗：提示詞事實正確，實體有公開文檔可核驗；專有名詞有知識挑戰性：使用具體產品實名（如 Bosticht 卷筆刀），而非泛指實體；超越常識：需要真正掌握特定知識（如 Omron BP5450 血壓計的操作步驟），不能僅憑日常經驗作答。貼近真實：表述簡短自然，符合用戶實際提問方式。

自動評估標準：FactP 與 HelpS

傳統視覺指標（Imaging Quality, Motion Smoothness 等）與人類對內容準確性和幫助性的判斷幾乎無關，為此，KIVI 設計了兩個互補的自動評估標準：

FactP（事實精度）回答「說沒說對」。它的思路是先抽取、再驗證 ——LLM 從視頻中提取原子化聲明，逐條判定正誤，按正確比例計分。

HelpS（幫助性評分）回答「能不能照著做」。LLM 從相關性、完整性、清晰度三個維度打分，核心追問：用戶能否僅憑這段視頻完成所提任務？兩者互補，形成完整評價體系。

KIVI 多階段評測管線

七款模型「同臺應試」

團隊評測了 7 款主流系統，涵蓋閉源 API（Seedance 2.0、HappyHorse 1.0）、開源短視頻生成模型（Wan 2.2、HunyuanVideo 1.5）和開源長視頻模型（Helios-Base、LongCat-Video、LongLive 1.0）。

人工制作視頻的 FactP 和 HelpS 分別達到 97.8% 和 81.9%，遠超當前視頻生成模型。在模型結果中，閉源短視頻模型 HappyHorse 1.0 獲得最高 FactP（83.2%），Seedance 2.0 獲得最高 HelpS（66.6%）。最佳開源短視頻模型 Wan 2.2 的 FactP 和 HelpS 分別為 73.1% 和 48.4%，與閉源模型仍存在明顯差距。總體來看，短視頻生成模型雖然尚未達到人工制作水平，但在事實準確性和幫助性上均顯著優于長視頻生成模型。

KIVI-Bench 評測結果（基于 54 條均勻采樣子集）

人類評估：在 108 組兩兩對比中，FactP 與人工事實判斷一致性達 70.8%，顯著優于現有的視頻質量自動評估標準 VBench-Long 最優維度（56.5%），HelpS 與人工幫助性判斷一致性達 69.0%。而傳統指標如 Imaging Quality（38.9%）幾乎與人類判斷無關。

人類評估結果

三大系統性錯誤：模型到底錯在哪？

錯誤類型占比

對870條錯誤聲明的分類揭示三類短板：

實體誤描占比最高，達 42.6%。模型經常 "發明" 不存在的外觀特征，涉及特定產品型號時幻覺率急劇攀升 —— 比如將 Bostitch 電動卷筆刀畫成了盒狀插孔，而真機是弧形機身。

操作錯誤緊隨其后，占 40.7%，這類錯誤更隱蔽：外觀畫對了，步驟卻錯了。模型能還原 BP5450 血壓計的外形，卻把袖帶綁在了前臂，而這臺設備專為上臂設計，暴露了程序性知識的系統性缺失。

組件錯位占比 15.0%，雖然比例最低，但機油和漏斗出現在中央扶手箱而非發動機艙這類錯誤，同樣意味著視頻對用戶毫無幫助。

三類主要事實性錯誤示例

結語：從視覺生成走向知識傳達

KIVI 系統定義了視頻生成中一個長期被忽視的任務方向：視頻不應只服務于娛樂創作，也應能夠在知識密集場景中準確傳達信息、清晰展示過程，并真正幫助用戶理解或完成任務。

當目標從「還原畫面描述」轉向「傳達可靠知識」，視頻生成的評測標準也需要隨之改變。傳統評測中表現最好的模型，未必能夠在事實性、過程合理性和實用性上保持優勢；而從簡短文本需求直接生成知識型視覺內容，也對模型的理解、規劃和生成能力提出了更高要求。

因此，KIVI 不只是一個新的基準，更是在重新定義視頻生成的下一階段目標：從「畫面是否自然」走向「內容是否可靠」，從「娛樂創作工具」走向「知識獲取媒介」。這也指向了視頻生成從像素空間走向實用空間的下一個前沿方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.