網易首頁 > 網易號 > 正文申請入駐

「找視頻」到「產視頻」：快手RaG推動推薦系統邁向完全生成時代

2026-06-25 18:18:29　來源: 機器之心Pro

天津舉報

分享至

過去十年，推薦系統最核心的動作可以概括成一個字：找。

用戶來了，系統理解用戶興趣，再從已有內容池里檢索、排序、分發最合適的視頻。這個「retrieve-and-rank」范式支撐了短視頻、信息流和廣告推薦的高速增長，也讓深度學習推薦模型成為工業界的基礎設施。

但它有一個天然上限：如果用戶真正想看的那條視頻，內容池里根本不存在呢？

快手最新論文提出的Recommendation-as-Generation（RaG），正是在回答這個問題。

論文標題：Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale
項目頁： https://recommendation-as-generation.github.io/
論文地址：https://arxiv.org/abs/2606.25496
關鍵詞：Recommendation-as-Generation, D-SIDs, Video Generation Agents, SCRL, Personalized Video Generation

它把推薦系統從「在已有視頻里找答案」，推進到「根據用戶興趣生成答案」：先預測用戶潛在興趣，再直接生成與興趣對齊的個性化視頻

這不是一個概念 demo。論文中的 RaG 已在快手大規模廣告系統中部署，服務超過4 億日活用戶。在線 A/B 實驗顯示，完整 RaG 系統相較強 GRM 基線帶來+1.870% 廣告收入提升

更關鍵的是，這一增益來自一個新的閉環：推薦模型不只是選擇已有內容，而是把用戶興趣轉化為視頻生成目標，再用真實反饋持續校準生成過程。

下面是一個真實示例：

該用戶為熱愛健身的年輕男性，對美女、健身及低脂飲食內容表現出明顯偏好。

基于此人群畫像，系統為其量身定制了「美女代言蛋白粉」的場景化廣告。廣告以吸睛的美女形象切入，緊扣其「運動后控糖低脂」、「高效增肌」與「即時便捷」的真實痛點，實現精準種草，完美滿足其個性化消費需求。

歷史交互的興趣視頻

RaG 個性化視頻廣告

從「找視頻」到「產視頻」

傳統推薦系統的鏈路是：用戶畫像與行為 → 興趣建模 → 檢索已有視頻 → 排序分發。

RaG 將其改寫為：用戶畫像與行為 → 興趣語義 ID → 視頻生產指令 → 個性化視頻生成 → 用戶反饋閉環。

論文將這一過程抽象為：

這一步的本質變化是：推薦模型不再只預測「某個 item 是否適合用戶」，而是預測「用戶真正想看的內容應該具備什么語義和創意形態」。

也就是說，推薦系統開始從內容分發器，變成內容生產鏈路的上游大腦。

兩個核心挑戰：

語義怎么打通，生成怎么落地

把推薦和視頻生成接起來，并不是簡單地把一個推薦模型和一個視頻生成模型串聯起來。

論文指出，RaG 要解決兩個關鍵問題。

第一，興趣推薦和視頻生成如何統一到一個框架中建模

推薦模型處理的是用戶畫像、歷史行為、item 特征等離散、異構信號；視頻生成模型處理的是文本、圖像、音頻、運動等連續多模態信號。兩者目標也不同：推薦要預測興趣，生成要保證畫面、敘事和音畫質量。

如果沒有一個統一語義接口，推薦模型預測出的興趣很難穩定地驅動視頻生成。

第二，個性化視頻如何實現大規模工業化生產

當前高質量視頻生成通常依賴復雜 prompt、多輪人工調試和后處理工具。面向數億用戶的廣告推薦場景，系統不可能為每次請求現場生成一條視頻。

所以 RaG 的目標不是做一個單點生成模型，而是構建一套端到端、可緩存、可反饋優化的工業級閉環系統。

RaG 的整體架構：

一個語義接口，三段生成鏈路，一個反饋閉環

RaG 由五個核心模塊構成：

下面逐一拆解。

D-SIDs：

給視頻一張「內容 + 創意」雙維身份證

視頻不是單一語義。

同一個商品，可以拍成溫柔的生活方式短片，也可以拍成強促銷風格廣告；同一個「母嬰護理」主題，可以是家庭溫情敘事，也可以是功效對比測評。

如果把這些信息壓進一個混合 ID，推薦模型會同時被內容語義和創意風格干擾，后續生成也難以控制。

因此 RaG 提出 Disentangled Semantic IDs（D-SIDs），將視頻表示拆成兩部分：

Content SIDs：視頻講什么，例如商品、人物、動作、物體、主題；
Creative SIDs：視頻怎么講，例如風格、節奏、氛圍、鏡頭表達。

具體實現上，RaG 基于Qwen2.5-VL-7B-Instruct構建多模態表征，并使用快手內部 dense captioning model 生成 content /creative 兩類描述，再分別進行 RQ-KMeans 離散量化。每類語義采用 2 層 codebook，每層 8192 個 code，總共4層。

量化過程可以寫成：

最終將內容 code 和創意 code 拼接，得到完整 D-SIDs：

實驗結果顯示，D-SIDs 顯著提升了語義檢索和離散化質量：

尤其是碰撞率從 QARM 的18.24%降到2.62%。這意味著語義空間更干凈，推薦模型更容易學，生成系統也更容易控制。

GRM：

推薦模型預測的不再是視頻 ID，而是興趣語義

有了 D-SIDs，推薦模型的目標也隨之變化。

傳統推薦模型預測的是某個已有視頻是否適合用戶；RaG 中的Generative Recommendation Model（GRM）則根據用戶畫像和歷史行為，自回歸預測用戶未來興趣對應的 D-SIDs：

這一步非常關鍵：GRM 輸出的不是某條視頻，而是一組可被生成系統消費的「興趣語義 token」。這些 token 既可以用于檢索已有內容，也可以進一步驅動個性化視頻生成。

換句話說，推薦結果從「內容池里的候選 item」升級成了「可生成的內容意圖」。

Instruction Model：

把興趣翻譯成視頻生產說明書

D-SIDs 是離散語義，不是視頻生成系統可以直接執行的腳本。

真正的視頻生產需要更細的指令：每個鏡頭拍什么、如何轉場、口播說什么、音樂如何匹配、字幕和 CTA 什么時候出現。

因此 RaG 設計了Instruction Model（IM），將 D-SIDs 和廣告 metadata 轉換為 shot-level 視頻生產指令：

訓練上，論文使用 Gemini2.5 Pro 為視頻生成 shot-level 指令監督，再用 Qwen3-8B 進行訓練。訓練分為三階段：

凍結 LLM，只訓練 projector，讓 D-SIDs 嵌入對齊語言空間；
聯合微調 projector 和 LLM，提高語義保真和指令可控性；
進一步接入獎勵優化，與后續 SCRL 形成閉環。

在指令質量評估中，模型規模和訓練數據都會帶來提升，考慮線上成本，論文最終采用8B + 1M samples作為默認配置，在效果和效率之間取得平衡。

VGAs：

把視頻生成變成一條多 Agent 生產線

工業級廣告視頻不是一段畫面生成就結束了。它至少包括視覺畫面、口播、BGM、字幕、轉場、貼紙、賣點強調和 CTA。不同模塊之間還有明顯依賴關系：畫面規劃決定敘事節奏，音頻要跟畫面節奏對齊，特效和字幕又依賴前面的視覺與音頻結果。

所以 RaG 沒有采用單體視頻生成器，而是提出Video Generation Agents（VGAs），將生產過程拆成三個子 Agent：

VGAs 可以表示為一個序列決策過程：

每一步，Agent 根據當前生成狀態和指令，選擇下一步動作。動作可以是調用 text-to-video、image-to-video、TTS、BGM、字幕或特效工具。最終視頻由統一生成算子組合而成：

論文中特別強調了 VGAs 的兩個能力：

reasoning：通過分層規劃實現跨模態一致性；
reflection：觀察中間結果后進行有限輪次的自我修正和重規劃。

為了控制延遲，線上將反思輪次限制在兩輪以內。

實驗顯示，VGAs 明顯優于傳統固定流程 baseline：

這說明，相比「按固定模板粗剪 + 精剪」的流水線，多 Agent 結構更適合處理高度個性化、跨模態強耦合的視頻生成任務。

SCRL：

把用戶反饋、興趣對齊和視頻質量放進一個閉環

推薦系統最終看用戶反饋，視頻生成系統又必須保證質量。如果只優化點擊和轉化，可能導致低質但刺激的內容；如果只優化畫質，又可能偏離真實用戶興趣。

RaG 提出Synergistic Cross-Domain Reward Learning（SCRL），將三類信號統一進一個約束優化框架：

User Feedback Reward：點擊、點贊、收藏、購買等真實反饋，以及排序模型給出的 dense engagement estimates；
Interest Alignment Reward：生成指令、生成視頻與 GRM 預測 D-SIDs 的一致性；
Video Quality Reward：視覺質量、音畫一致性、字幕特效和 CTA 對齊。

論文沒有簡單地把三類 reward 加權求和，而是把用戶反饋作為主目標，將興趣對齊和視頻質量作為約束：

直觀理解就是：用戶反饋負責指方向；興趣對齊和視頻質量負責守底線

當生成結果在興趣對齊或質量上低于閾值時，系統會受到懲罰。

為了處理不同 reward 的尺度差異，SCRL 使用 GDPO 做 group-decoupled normalization：

同時，論文引入 PID-controlled Lagrangian multipliers 動態更新約束權重，避免多目標 RL 中常見的震蕩和手工調參問題。

消融實驗顯示，每類 reward 都有明確貢獻：

這說明 SCRL 不是簡單地「讓視頻更好看」，而是讓視頻質量、用戶興趣和商業反饋在同一個優化閉環中協同演化。

工業部署：

實時推薦，近線生成，緩存擴展供給

RaG 的工程難點在于：推薦系統要求毫秒級響應，而視頻生成通常是秒級甚至分鐘級。

論文采用了「在線興趣建模 + 近線視頻生成 + 延遲感知服務」的解耦架構。

GRM 在線預測用戶興趣 D-SIDs；IM 和 VGAs 在近線生成個性化視頻，并持續擴展個性化視頻緩存池。服務時，系統根據 SID 的緩存命中情況進行分層處理：

content-SIDs 和 creative-SIDs 都命中：直接返回已生成視頻；
content-SIDs 命中但 creative-SIDs 缺失：先返回內容一致的視頻，同時異步生成創意變體；
content-SIDs 未命中：先用最近鄰 SID 對應視頻兜底，并將未覆蓋 SID 加入優先生成隊列。

這套設計避免了「每次請求現場生成視頻」的不現實成本，也讓生成系統能隨著用戶需求不斷補齊內容供給。

線上結果：

強 GRM 基線之上繼續提升 1.870%

RaG 在快手廣告系統中完成了大規模在線驗證。

這個結果有兩層含義。

第一，生成式推薦本身已經比傳統 DLRM 強，GRM baseline 相比 DLRM 帶來+3.526%收入提升。

第二，在強 GRM 基線之上，D-SIDs 進一步帶來更結構化的興趣空間，而完整 RaG 通過 IM、VGAs 和 SCRL 將推薦語義真正轉化為個性化視頻供給，最終將相對 GRM 的提升推到+1.870%

這意味著，個性化視頻生成不只是提升內容表達的 AIGC 能力，而是已經可以在工業廣告系統中轉化為真實商業增益。

論文通過一個廣告場景案例，展示了用戶興趣如何轉化為視頻生產藍圖。

用戶畫像是 25-34 歲女性，興趣集中在年輕媽媽生活方式、母嬰護理、家庭用品和高性價比購物。RaG 的處理過程如下：

GRM 根據用戶畫像和歷史行為預測 D-SIDs；
D-SIDs 同時表達內容興趣和創意偏好；
IM 將這些語義翻譯成 shot-level 生產指令；
VGAs 生成視覺軌、音頻軌和效果軌；
最終組合成一條與用戶興趣對齊的廣告視頻。

這個例子最能說明 RaG 的價值：用戶興趣不再只是排序模型里的一個分數，而是可以變成視頻創作的藍圖。

更多的示例可以訪問項目主頁獲取：

https://recommendation-as-generation.github.io/

結語：

推薦系統的邊界正在外擴

RaG 的意義，不只是廣告收入提升了。

更重要的是，它把推薦系統的邊界從「分發已有內容」推進到「創造潛在供給」。

過去推薦系統回答的是：用戶想看的內容在哪里？

RaG 開始回答的是：用戶想看的內容應該長什么樣？

這不會讓檢索消失。更現實的路線，是檢索和生成共存：

已有素材足夠好，就復用；
內容命中但創意不夠，就生成創意變體；
內容沒有覆蓋，就用近鄰兜底，同時補齊未來供給；
推薦負責理解需求，生成負責擴展供給，反饋負責校準方向。

從這個角度看，RaG 不是一個單純的視頻 AIGC 系統。它更像是推薦系統的一次范式外擴：從找視頻，到產視頻

更多信息可查看論文：

https://arxiv.org/abs/2606.25496

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.