无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

1080條提示詞、7款模型比拼:視頻生成好看、好用又準確差多少?

0
分享至



當視頻生成模型走出娛樂創作的舒適區,進入科學、醫療、教育等知識密集場景,它們是否還能生成事實準確、清晰可用的視頻?



任務對比 —— 傳統視覺質量導向 vs KIVI 知識密集型導向

針對這一挑戰,研究者首次定義了「知識密集型視頻生成」(KIVI)新任務 —— 要求模型從簡短提示詞出發,生成事實準確、用戶能照著做的視頻。團隊配套構建了 1080 條提示詞的 KIVI-Bench 評測集,提出 FactP 與 HelpS 兩個自動指標,并在 7 款主流模型上揭示了實體誤描、操作錯誤、組件錯位三類系統性短板。



  • 論文標題:Knowledge-Intensive Video Generation
  • 論文鏈接:https://arxiv.org/abs/2606.01285
  • 代碼倉庫:https://github.com/wcxhimself/KIVI

一個被忽視的空白:

視頻生成不該只為娛樂存在

過去兩年,從 Sora 到 Seedance,視頻生成模型在畫面質量、運動流暢度和時空一致性等方面取得了顯著進展。然而,現有研究與評測仍主要圍繞「視頻是否好看」展開,較少關注生成內容是否事實準確、過程是否合理、信息是否真正有用。

隨著視頻生成技術逐漸走出娛樂創作場景,它正在進入醫療、教育、科學傳播、操作指導等知識密集領域。在這些場景中,用戶關心的不只是畫面是否逼真,而是模型能否準確表達知識、清晰展示過程,并幫助用戶理解或完成具體任務。也就是說,視頻生成模型面臨的核心問題正在發生變化:從「能否生成自然流暢的視頻」,轉向「能否生成知識可靠且有實際價值的視頻」。

這種變化也暴露出現有視頻生成范式與真實用戶需求之間的錯位。比如,當用戶搜索「如何更換汽車輪胎」時,他們期待的不是一段視覺效果華麗但步驟含糊的視頻,也不是先由自己寫出完整分鏡腳本,再交給模型逐段生成,更合理的方式應該是,模型能夠直接理解用戶意圖,并生成一段步驟正確、過程清晰、可操作的視頻。因此,我們提出 KIVI,將視頻生成的評測目標從視覺質量導向,推進到知識可靠性與用戶實用性導向。

KIVI-Bench:

1080 條模擬用戶真實使用場景的提示詞

18個類別涵蓋汽車維護、健康醫療、電子設備等,經 LLM 擴充與人工去重后保留 1080 條提示詞。

提示詞的構造遵循五個標準。視頻優越性:比文字更直觀(如空間操作、界面導航);事實正確且可核驗:提示詞事實正確,實體有公開文檔可核驗;專有名詞有知識挑戰性:使用具體產品實名(如 Bosticht 卷筆刀),而非泛指實體;超越常識:需要真正掌握特定知識(如 Omron BP5450 血壓計的操作步驟),不能僅憑日常經驗作答。貼近真實:表述簡短自然,符合用戶實際提問方式。

自動評估標準:FactP 與 HelpS

傳統視覺指標(Imaging Quality, Motion Smoothness 等)與人類對內容準確性和幫助性的判斷幾乎無關,為此,KIVI 設計了兩個互補的自動評估標準:

FactP(事實精度)回答「說沒說對」。它的思路是先抽取、再驗證 ——LLM 從視頻中提取原子化聲明,逐條判定正誤,按正確比例計分。

HelpS(幫助性評分)回答「能不能照著做」。LLM 從相關性、完整性、清晰度三個維度打分,核心追問:用戶能否僅憑這段視頻完成所提任務?兩者互補,形成完整評價體系。



KIVI 多階段評測管線

七款模型「同臺應試」

團隊評測了 7 款主流系統,涵蓋閉源 API(Seedance 2.0、HappyHorse 1.0)、開源短視頻生成模型(Wan 2.2、HunyuanVideo 1.5)和開源長視頻模型(Helios-Base、LongCat-Video、LongLive 1.0)。

人工制作視頻的 FactP 和 HelpS 分別達到 97.8% 和 81.9%,遠超當前視頻生成模型。在模型結果中,閉源短視頻模型 HappyHorse 1.0 獲得最高 FactP(83.2%),Seedance 2.0 獲得最高 HelpS(66.6%)。最佳開源短視頻模型 Wan 2.2 的 FactP 和 HelpS 分別為 73.1% 和 48.4%,與閉源模型仍存在明顯差距。總體來看,短視頻生成模型雖然尚未達到人工制作水平,但在事實準確性和幫助性上均顯著優于長視頻生成模型。



KIVI-Bench 評測結果(基于 54 條均勻采樣子集)

人類評估:在 108 組兩兩對比中,FactP 與人工事實判斷一致性達 70.8%,顯著優于現有的視頻質量自動評估標準 VBench-Long 最優維度(56.5%),HelpS 與人工幫助性判斷一致性達 69.0%。而傳統指標如 Imaging Quality(38.9%)幾乎與人類判斷無關。



人類評估結果

三大系統性錯誤:模型到底錯在哪?



錯誤類型占比

對870條錯誤聲明的分類揭示三類短板:

實體誤描占比最高,達 42.6%。模型經常 "發明" 不存在的外觀特征,涉及特定產品型號時幻覺率急劇攀升 —— 比如將 Bostitch 電動卷筆刀畫成了盒狀插孔,而真機是弧形機身。

操作錯誤緊隨其后,占 40.7%,這類錯誤更隱蔽:外觀畫對了,步驟卻錯了。模型能還原 BP5450 血壓計的外形,卻把袖帶綁在了前臂,而這臺設備專為上臂設計,暴露了程序性知識的系統性缺失。

組件錯位占比 15.0%,雖然比例最低,但機油和漏斗出現在中央扶手箱而非發動機艙這類錯誤,同樣意味著視頻對用戶毫無幫助。



三類主要事實性錯誤示例

結語:從視覺生成走向知識傳達

KIVI 系統定義了視頻生成中一個長期被忽視的任務方向:視頻不應只服務于娛樂創作,也應能夠在知識密集場景中準確傳達信息、清晰展示過程,并真正幫助用戶理解或完成任務。

當目標從「還原畫面描述」轉向「傳達可靠知識」,視頻生成的評測標準也需要隨之改變。傳統評測中表現最好的模型,未必能夠在事實性、過程合理性和實用性上保持優勢;而從簡短文本需求直接生成知識型視覺內容,也對模型的理解、規劃和生成能力提出了更高要求。

因此,KIVI 不只是一個新的基準,更是在重新定義視頻生成的下一階段目標:從「畫面是否自然」走向「內容是否可靠」,從「娛樂創作工具」走向「知識獲取媒介」。這也指向了視頻生成從像素空間走向實用空間的下一個前沿方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗就這么贏了?美伊達成協議,伊朗獲3000億美元重建,英法德意宣布取消對伊制裁

伊朗就這么贏了?美伊達成協議,伊朗獲3000億美元重建,英法德意宣布取消對伊制裁

軍武速遞
2026-06-15 18:52:31
40歲單親媽媽扛樓16年,本人回應:生理期再痛沒停過

40歲單親媽媽扛樓16年,本人回應:生理期再痛沒停過

生活觀察員啊
2026-06-15 00:33:57
比2008更恐怖!84歲羅杰斯終極預言:今年爆發一生最慘烈危機

比2008更恐怖!84歲羅杰斯終極預言:今年爆發一生最慘烈危機

流蘇晚晴
2026-06-14 19:47:58
本以為早已人走茶涼,楊穎復出首場直播,跑男老友接連現身力挺

本以為早已人走茶涼,楊穎復出首場直播,跑男老友接連現身力挺

喜歡歷史的阿繁
2026-06-15 19:56:05
打遍四鄰的沙俄,每臨大事必打東方牌?屢試不爽還是黔驢技窮

打遍四鄰的沙俄,每臨大事必打東方牌?屢試不爽還是黔驢技窮

鶴羽說個事
2026-06-15 22:53:30
蘇翊鳴發文回應私生活傳聞:“向事件中無辜被波及的人深表歉意,也祝福彼此能在各自選擇的道路上越來越好”,4個月前曾官宣和朱易戀情

蘇翊鳴發文回應私生活傳聞:“向事件中無辜被波及的人深表歉意,也祝福彼此能在各自選擇的道路上越來越好”,4個月前曾官宣和朱易戀情

都市快報橙柿互動
2026-06-15 19:35:18
爾冬升三年前看過《給阿嬤的情書》劇本,回應其爆火:屬于爆冷門

爾冬升三年前看過《給阿嬤的情書》劇本,回應其爆火:屬于爆冷門

韓小娛
2026-06-16 06:32:15
某航空公司的頭等艙,和想象中的不一樣啊…

某航空公司的頭等艙,和想象中的不一樣啊…

微微熱評
2026-06-16 12:31:04
受賄數額特別巨大 檢察機關依法對倪強涉嫌受賄案提起公訴

受賄數額特別巨大 檢察機關依法對倪強涉嫌受賄案提起公訴

每日經濟新聞
2026-06-15 14:17:19
陳妍希申請強制執行后,陳曉在人民日報發文,卓偉曝倆人離婚原因

陳妍希申請強制執行后,陳曉在人民日報發文,卓偉曝倆人離婚原因

記錄天下風云
2026-06-04 00:15:06
支付寶史上最大改版要來了!

支付寶史上最大改版要來了!

互聯網坊間八卦
2026-06-14 18:43:19
坦克銷量暴跌:魏建軍“死磕燃油硬派”賭輸了?

坦克銷量暴跌:魏建軍“死磕燃油硬派”賭輸了?

車友觀察
2026-06-15 16:12:19
西班牙世界杯頭號臥底!愚蠢操作葬送全隊!奪冠大熱門被魚腩逼平

西班牙世界杯頭號臥底!愚蠢操作葬送全隊!奪冠大熱門被魚腩逼平

奶蓋熊本熊
2026-06-16 02:56:30
臺海50年來首次,新加坡準備打破1個慣例,為中國統一清除障礙

臺海50年來首次,新加坡準備打破1個慣例,為中國統一清除障礙

讓生活充滿溫暖
2026-06-16 02:55:02
今年全國城市聯合招聘春招提供崗位超1268萬個

今年全國城市聯合招聘春招提供崗位超1268萬個

新華社
2026-06-15 15:39:06
德尚:我不認為法國隊比其他隊更強,最大的奪冠熱門是西班牙

德尚:我不認為法國隊比其他隊更強,最大的奪冠熱門是西班牙

懂球帝
2026-06-16 01:28:37
多年援助終養出白眼狼,我方撤援后該國翻臉,公然將我們視作敵人

多年援助終養出白眼狼,我方撤援后該國翻臉,公然將我們視作敵人

嘮叨說歷史
2026-05-28 11:09:12
2022年世界杯至今身價跌幅榜:德布勞內下降7200萬歐最多

2022年世界杯至今身價跌幅榜:德布勞內下降7200萬歐最多

懂球帝
2026-06-16 04:29:06
中國最大安全套品牌,要被賣了

中國最大安全套品牌,要被賣了

中國新聞周刊
2026-06-15 15:37:35
全球首發,胰島素注射一周一次!中國2型糖友將率先受益

全球首發,胰島素注射一周一次!中國2型糖友將率先受益

南方都市報
2026-06-15 17:02:54
2026-06-16 13:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13274文章數 142670關注度
往期回顧 全部

科技要聞

SpaceX上市次日再漲近20% 市值2.5萬億美元

頭條要聞

重慶市委書記:全面徹底肅清流毒影響

頭條要聞

重慶市委書記:全面徹底肅清流毒影響

體育要聞

今天之后,大家應該都知道佛得角了吧?

娛樂要聞

Lucky長大啦!完全就是小戚薇啊

財經要聞

2萬億存款去哪兒了?

汽車要聞

smart #6上市后 竟然很少被討論參數

態度原創

教育
家居
旅游
藝術
公開課

教育要聞

速看! 2026,鄭州大學高考招生7大亮點,等你已久!

家居要聞

綠意盎然 自然之境

旅游要聞

江西崇義:“三夏”農忙季 梯田景如畫

藝術要聞

日本寫實畫家作品《祈禱終究只是祈禱》

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版