![]()
過去十年,推薦系統最核心的動作可以概括成一個字:找。
用戶來了,系統理解用戶興趣,再從已有內容池里檢索、排序、分發最合適的視頻。這個「retrieve-and-rank」范式支撐了短視頻、信息流和廣告推薦的高速增長,也讓深度學習推薦模型成為工業界的基礎設施。
但它有一個天然上限:如果用戶真正想看的那條視頻,內容池里根本不存在呢?
![]()
快手最新論文提出的Recommendation-as-Generation(RaG),正是在回答這個問題。
![]()
- 論文標題:Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale
- 項目頁: https://recommendation-as-generation.github.io/
- 論文地址:https://arxiv.org/abs/2606.25496
- 關鍵詞:Recommendation-as-Generation, D-SIDs, Video Generation Agents, SCRL, Personalized Video Generation
它把推薦系統從「在已有視頻里找答案」,推進到「根據用戶興趣生成答案」:先預測用戶潛在興趣,再直接生成與興趣對齊的個性化視頻
這不是一個概念 demo。論文中的 RaG 已在快手大規模廣告系統中部署,服務超過4 億日活用戶。在線 A/B 實驗顯示,完整 RaG 系統相較強 GRM 基線帶來+1.870% 廣告收入提升
更關鍵的是,這一增益來自一個新的閉環:推薦模型不只是選擇已有內容,而是把用戶興趣轉化為視頻生成目標,再用真實反饋持續校準生成過程。
下面是一個真實示例:
該用戶為熱愛健身的年輕男性,對美女、健身及低脂飲食內容表現出明顯偏好。
基于此人群畫像,系統為其量身定制了「美女代言蛋白粉」的場景化廣告。廣告以吸睛的美女形象切入,緊扣其「運動后控糖低脂」、「高效增肌」與「即時便捷」的真實痛點,實現精準種草,完美滿足其個性化消費需求。
![]()
歷史交互的興趣視頻
RaG 個性化視頻廣告
從「找視頻」到「產視頻」
傳統推薦系統的鏈路是:用戶畫像與行為 → 興趣建模 → 檢索已有視頻 → 排序分發。
RaG 將其改寫為:用戶畫像與行為 → 興趣語義 ID → 視頻生產指令 → 個性化視頻生成 → 用戶反饋閉環。
![]()
論文將這一過程抽象為:
![]()
![]()
這一步的本質變化是:推薦模型不再只預測「某個 item 是否適合用戶」,而是預測「用戶真正想看的內容應該具備什么語義和創意形態」。
也就是說,推薦系統開始從內容分發器,變成內容生產鏈路的上游大腦。
兩個核心挑戰:
語義怎么打通,生成怎么落地
把推薦和視頻生成接起來,并不是簡單地把一個推薦模型和一個視頻生成模型串聯起來。
論文指出,RaG 要解決兩個關鍵問題。
第一,興趣推薦和視頻生成如何統一到一個框架中建模
推薦模型處理的是用戶畫像、歷史行為、item 特征等離散、異構信號;視頻生成模型處理的是文本、圖像、音頻、運動等連續多模態信號。兩者目標也不同:推薦要預測興趣,生成要保證畫面、敘事和音畫質量。
如果沒有一個統一語義接口,推薦模型預測出的興趣很難穩定地驅動視頻生成。
第二,個性化視頻如何實現大規模工業化生產
當前高質量視頻生成通常依賴復雜 prompt、多輪人工調試和后處理工具。面向數億用戶的廣告推薦場景,系統不可能為每次請求現場生成一條視頻。
所以 RaG 的目標不是做一個單點生成模型,而是構建一套端到端、可緩存、可反饋優化的工業級閉環系統。
RaG 的整體架構:
一個語義接口,三段生成鏈路,一個反饋閉環
![]()
RaG 由五個核心模塊構成:
![]()
下面逐一拆解。
D-SIDs:
給視頻一張「內容 + 創意」雙維身份證
視頻不是單一語義。
同一個商品,可以拍成溫柔的生活方式短片,也可以拍成強促銷風格廣告;同一個「母嬰護理」主題,可以是家庭溫情敘事,也可以是功效對比測評。
如果把這些信息壓進一個混合 ID,推薦模型會同時被內容語義和創意風格干擾,后續生成也難以控制。
因此 RaG 提出 Disentangled Semantic IDs(D-SIDs),將視頻表示拆成兩部分:
![]()
- Content SIDs:視頻講什么,例如商品、人物、動作、物體、主題;
- Creative SIDs:視頻怎么講,例如風格、節奏、氛圍、鏡頭表達。
![]()
具體實現上,RaG 基于Qwen2.5-VL-7B-Instruct構建多模態表征,并使用快手內部 dense captioning model 生成 content /creative 兩類描述,再分別進行 RQ-KMeans 離散量化。每類語義采用 2 層 codebook,每層 8192 個 code,總共4層。
量化過程可以寫成:
![]()
最終將內容 code 和創意 code 拼接,得到完整 D-SIDs:
![]()
實驗結果顯示,D-SIDs 顯著提升了語義檢索和離散化質量:
![]()
尤其是碰撞率從 QARM 的18.24%降到2.62%。這意味著語義空間更干凈,推薦模型更容易學,生成系統也更容易控制。
GRM:
推薦模型預測的不再是視頻 ID,而是興趣語義
有了 D-SIDs,推薦模型的目標也隨之變化。
傳統推薦模型預測的是某個已有視頻是否適合用戶;RaG 中的Generative Recommendation Model(GRM)則根據用戶畫像和歷史行為,自回歸預測用戶未來興趣對應的 D-SIDs:
![]()
![]()
這一步非常關鍵:GRM 輸出的不是某條視頻,而是一組可被生成系統消費的「興趣語義 token」。這些 token 既可以用于檢索已有內容,也可以進一步驅動個性化視頻生成。
換句話說,推薦結果從「內容池里的候選 item」升級成了「可生成的內容意圖」。
Instruction Model:
把興趣翻譯成視頻生產說明書
D-SIDs 是離散語義,不是視頻生成系統可以直接執行的腳本。
真正的視頻生產需要更細的指令:每個鏡頭拍什么、如何轉場、口播說什么、音樂如何匹配、字幕和 CTA 什么時候出現。
因此 RaG 設計了Instruction Model(IM),將 D-SIDs 和廣告 metadata 轉換為 shot-level 視頻生產指令:
![]()
訓練上,論文使用 Gemini2.5 Pro 為視頻生成 shot-level 指令監督,再用 Qwen3-8B 進行訓練。訓練分為三階段:
- 凍結 LLM,只訓練 projector,讓 D-SIDs 嵌入對齊語言空間;
- 聯合微調 projector 和 LLM,提高語義保真和指令可控性;
- 進一步接入獎勵優化,與后續 SCRL 形成閉環。
在指令質量評估中,模型規模和訓練數據都會帶來提升,考慮線上成本,論文最終采用8B + 1M samples作為默認配置,在效果和效率之間取得平衡。
VGAs:
把視頻生成變成一條多 Agent 生產線
工業級廣告視頻不是一段畫面生成就結束了。它至少包括視覺畫面、口播、BGM、字幕、轉場、貼紙、賣點強調和 CTA。不同模塊之間還有明顯依賴關系:畫面規劃決定敘事節奏,音頻要跟畫面節奏對齊,特效和字幕又依賴前面的視覺與音頻結果。
所以 RaG 沒有采用單體視頻生成器,而是提出Video Generation Agents(VGAs),將生產過程拆成三個子 Agent:
![]()
VGAs 可以表示為一個序列決策過程:
![]()
每一步,Agent 根據當前生成狀態和指令,選擇下一步動作。動作可以是調用 text-to-video、image-to-video、TTS、BGM、字幕或特效工具。最終視頻由統一生成算子組合而成:
![]()
![]()
論文中特別強調了 VGAs 的兩個能力:
- reasoning:通過分層規劃實現跨模態一致性;
- reflection:觀察中間結果后進行有限輪次的自我修正和重規劃。
為了控制延遲,線上將反思輪次限制在兩輪以內。
實驗顯示,VGAs 明顯優于傳統固定流程 baseline:
![]()
這說明,相比「按固定模板粗剪 + 精剪」的流水線,多 Agent 結構更適合處理高度個性化、跨模態強耦合的視頻生成任務。
SCRL:
把用戶反饋、興趣對齊和視頻質量放進一個閉環
推薦系統最終看用戶反饋,視頻生成系統又必須保證質量。如果只優化點擊和轉化,可能導致低質但刺激的內容;如果只優化畫質,又可能偏離真實用戶興趣。
RaG 提出Synergistic Cross-Domain Reward Learning(SCRL),將三類信號統一進一個約束優化框架:
- User Feedback Reward:點擊、點贊、收藏、購買等真實反饋,以及排序模型給出的 dense engagement estimates;
- Interest Alignment Reward:生成指令、生成視頻與 GRM 預測 D-SIDs 的一致性;
- Video Quality Reward:視覺質量、音畫一致性、字幕特效和 CTA 對齊。
論文沒有簡單地把三類 reward 加權求和,而是把用戶反饋作為主目標,將興趣對齊和視頻質量作為約束:
![]()
直觀理解就是:用戶反饋負責指方向;興趣對齊和視頻質量負責守底線
當生成結果在興趣對齊或質量上低于閾值時,系統會受到懲罰。
為了處理不同 reward 的尺度差異,SCRL 使用 GDPO 做 group-decoupled normalization:
![]()
同時,論文引入 PID-controlled Lagrangian multipliers 動態更新約束權重,避免多目標 RL 中常見的震蕩和手工調參問題。
消融實驗顯示,每類 reward 都有明確貢獻:
![]()
這說明 SCRL 不是簡單地「讓視頻更好看」,而是讓視頻質量、用戶興趣和商業反饋在同一個優化閉環中協同演化。
工業部署:
實時推薦,近線生成,緩存擴展供給
![]()
RaG 的工程難點在于:推薦系統要求毫秒級響應,而視頻生成通常是秒級甚至分鐘級。
論文采用了「在線興趣建模 + 近線視頻生成 + 延遲感知服務」的解耦架構。
![]()
GRM 在線預測用戶興趣 D-SIDs;IM 和 VGAs 在近線生成個性化視頻,并持續擴展個性化視頻緩存池。服務時,系統根據 SID 的緩存命中情況進行分層處理:
- content-SIDs 和 creative-SIDs 都命中:直接返回已生成視頻;
- content-SIDs 命中但 creative-SIDs 缺失:先返回內容一致的視頻,同時異步生成創意變體;
- content-SIDs 未命中:先用最近鄰 SID 對應視頻兜底,并將未覆蓋 SID 加入優先生成隊列。
這套設計避免了「每次請求現場生成視頻」的不現實成本,也讓生成系統能隨著用戶需求不斷補齊內容供給。
線上結果:
強 GRM 基線之上繼續提升 1.870%
RaG 在快手廣告系統中完成了大規模在線驗證。
![]()
這個結果有兩層含義。
第一,生成式推薦本身已經比傳統 DLRM 強,GRM baseline 相比 DLRM 帶來+3.526%收入提升。
第二,在強 GRM 基線之上,D-SIDs 進一步帶來更結構化的興趣空間,而完整 RaG 通過 IM、VGAs 和 SCRL 將推薦語義真正轉化為個性化視頻供給,最終將相對 GRM 的提升推到+1.870%
這意味著,個性化視頻生成不只是提升內容表達的 AIGC 能力,而是已經可以在工業廣告系統中轉化為真實商業增益。
論文通過一個廣告場景案例,展示了用戶興趣如何轉化為視頻生產藍圖。
用戶畫像是 25-34 歲女性,興趣集中在年輕媽媽生活方式、母嬰護理、家庭用品和高性價比購物。RaG 的處理過程如下:
- GRM 根據用戶畫像和歷史行為預測 D-SIDs;
- D-SIDs 同時表達內容興趣和創意偏好;
- IM 將這些語義翻譯成 shot-level 生產指令;
- VGAs 生成視覺軌、音頻軌和效果軌;
- 最終組合成一條與用戶興趣對齊的廣告視頻。
![]()
這個例子最能說明 RaG 的價值:用戶興趣不再只是排序模型里的一個分數,而是可以變成視頻創作的藍圖。
更多的示例可以訪問項目主頁獲取:
https://recommendation-as-generation.github.io/
結語:
推薦系統的邊界正在外擴
RaG 的意義,不只是廣告收入提升了。
更重要的是,它把推薦系統的邊界從「分發已有內容」推進到「創造潛在供給」。
過去推薦系統回答的是:用戶想看的內容在哪里?
RaG 開始回答的是:用戶想看的內容應該長什么樣?
這不會讓檢索消失。更現實的路線,是檢索和生成共存:
- 已有素材足夠好,就復用;
- 內容命中但創意不夠,就生成創意變體;
- 內容沒有覆蓋,就用近鄰兜底,同時補齊未來供給;
- 推薦負責理解需求,生成負責擴展供給,反饋負責校準方向。
從這個角度看,RaG 不是一個單純的視頻 AIGC 系統。它更像是推薦系統的一次范式外擴:從找視頻,到產視頻
更多信息可查看論文:
https://arxiv.org/abs/2606.25496
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.