網易首頁 > 網易號 > 正文申請入駐

Shop-R1: 給AI補上「內心戲」，在RL博弈中復刻人類網購腦

2026-03-23 15:04:44　來源: 機器之心Pro

河北舉報

分享至

某電商平臺上，一名用戶反復對比三款降噪耳機的評價、續航與材質。這購物決策背后藏著預算、參數對比與審美偏好的博弈。但在 AI 智能體（Agent）的世界里，這種糾結往往不存在。傳統的 AI 購物助手更像是一個任務完成機器：接到指令，搜索，下單。他們或許能跑通流程，卻完全無法理解用戶為何在最后一刻因為一條關于 “夾耳朵” 的差評而放棄支付。簡而言之，傳統的電商 Agent 只是任務導向的（task-oriented），而不是模擬導向的（simulation-oriented）。為此，來自亞馬遜（Amazon）的研究團隊提出了名為 Shop-R1 的訓練框架。

論文標題：Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
論文地址： https://arxiv.org/abs/2507.17842
項目主頁：https://damon-demon.github.io/shop-r1.html
代碼和數據：公司法務審核中... (Coming Soon!)

Shop-R1：從 “指令執行” 到 “行為復刻”

在傳統的電商 AI 研究中，衡量標準往往是單一的成功率。然而，真實世界的網購環境是一個充滿噪聲、促銷陷阱與主觀偏好的動態迷宮。研究團隊觀察到，這種 “黑盒式” 的任務導向模型在面對復雜環境時，往往會產生邏輯斷層：它們可能因為偶然的網頁跳轉完成了任務，卻完全偏離了真實人類的消費習慣。

Shop-R1 的核心野心，是實現從 “任務完成” 到 “行為模擬” 的范式轉移。對于模擬導向的購物 Agent，它的終極挑戰在于：它需實時解構歷史瀏覽鏈路與當前的交互細節，從而在動態的上千種可能的操作中精準預測用戶在當前頁面維度的下一步操作。為了復刻決策過程，Shop-R1 將復雜的網購過程中的行為歸納為三類動作：

打字輸入（Type）
點擊（Click）
終結（Terminate）

模型以用戶過往瀏覽頁面及對應操作作為輸入，并以結構化的 JSON 形式輸出對用戶下一步動作（Action）的預測以及其背后的推理邏輯（Rationale）。

Shop-R1 采用雙階段訓練范式：首先通過監督微調（SFT）實現行為基準的 “冷啟動”；隨后在強化學習（RL）階段，利用多層級獎勵機制（Hierarchical Rewards）驅動深度迭代，旨在提升模型在復雜動態環境下的邏輯推理與泛化表現。

第一階段：SFT 冷啟動

這種監督式初始化（supervised initialization）在訓練流程的早期階段發揮了關鍵作用，它幫助模型盡早內化上下文（context）、推理過程（rationale）與動作（action）之間的結構性依賴關系。通過在一開始就讓模型建立這些模式，進而顯著提升了后續強化學習（RL）階段的穩定性和樣本效率。更重要的是，這種方法為什么樣的長文本輸出才算高質量提供了明確的信號，例如正確命名被點擊的按鈕或給出有意義的搜索查詢。而這些能力如果僅依賴強化學習往往難以獲得，尤其是在獎勵信號稀疏且延遲的情況下。

第二階段：多層級獎勵的強化學習

為了在人類行為模擬（human behavior simulation）場景中更好地引導策略優化，每一步決策被拆分為兩個子任務：rationale 生成和 action 預測。針對每個子任務，分別設計了專門的獎勵函數，以提升模型的對齊性（alignment）和可解釋性（interpretability）。

1）二值格式獎勵（Binary Format Reward）

為了保證能夠方便且正確地從模型輸出中解析出預測的 rationale 和 action，引入了二值格式獎勵，鼓勵模型以結構化 JSON 格式生成響應。該格式遵循一個字典結構，包含兩個鍵：rationale 和 action。

2）推理獎勵（Rational Reward）

對于 rationale 生成，采用 self-certainty score，用于衡量模型對其生成 rationale 的置信程度。具體而言，我們計算模型在詞表上的預測分布與均勻分布之間的 KL 散度，并在整個輸出序列上取平均。

3）層級式動作獎勵（Hierarchical Action Reward）

對于 action 預測，我們用一種層級式獎勵機制（hierarchical reward scheme）替代了原本脆弱的二值獎勵信號。該機制同時對粗粒度的動作類型和細粒度的子動作給予獎勵，從而穩定訓練過程，并抑制退化的reward hacking策略。這種層級獎勵機制使得獎勵空間更加稠密（densify the reward landscape）：它擴大了能夠獲得正收益的軌跡集合，使智能體能夠擺脫在策略搜索過程中常見的“無獎勵平臺（no-reward plateau）”，同時也使得 reward hacking 的收益變得不再劃算。

具體而言，一旦高層動作類型預測正確，無論該動作是簡單還是復雜，都可以獲得相同的粗粒度獎勵；而只有較復雜的動作，才可以通過其長文本子組件（sub-actions）進一步獲得額外獎勵。因此，簡單地反復執行 “terminate” 這一簡單動作將不再具有競爭性的回報，而完整執行 (“click”, “type_and_submit”) 等動作序列則成為收益最高的策略。比如，“click” 動作包含一個子動作，用于指定需要點擊的按鈕名稱；只要子組件預測正確，模型即可獲得部分獎勵。類似地，“type_and_submit” 也包含子動作，用于提供需要輸入并提交的文本內容。相比之下，“terminate” 不包含任何子動作，因此僅在動作類型層級進行評分。

在評估預測準確度時，我們采用任務特定的指標：

對于離散的動作類型，使用exact match（完全匹配）作為判定標準；
對于自由文本形式的子動作，則使用ROUGE-L進行評估。
對于文本型子動作（例如按鈕標簽或搜索查詢），當其與真實答案之間的 ROUGE-L 相似度超過預設閾值（例如 0.75）時，將根據相似度大小給予相應的軟獎勵（soft reward）。

4）難度感知獎勵縮放因子（Difficulty-Aware Reward Scaling, DARS）

由于長文本子動作預測難度較高（現代網頁可能包含數千個候選元素）我們進一步引入了DARS，對正確預測這些組件的獎勵進行放大。該機制可以有效防止一種常見的 reward hacking 行為：智能體不斷選擇簡單的 “terminate” 動作來獲取容易的獎勵。

實驗結果

如表格所示，直接使用 zero-shot 提示幾乎無法完成該任務，Qwen-2.5-3B-Instruct 的 exact-action 準確率僅 0.32%，說明長序列網頁行為無法僅靠通用指令能力恢復。僅使用稀疏二值獎勵的強化學習同樣效果有限，從零訓練僅達到 1.01% exact-match 和 6.17% type accuracy。

相比之下，一輪監督微調（SFT）可以顯著提升性能（16.76% exact-match，22.25% type accuracy），表明密集的示例軌跡對于學習 context → rationale → action 的結構非常關鍵。但在 SFT 之后繼續使用二值獎勵 RL 提升有限。而 Shop-R1 通過結合層級獎勵、self-certainty 信號、格式獎勵以及難度感知獎勵縮放，將 exact-action accuracy 提升至 27.72%（相對僅 SFT 提升 65%），同時顯著提升動作類型指標，表明模型不僅更容易識別正確意圖，也能更準確生成按鈕名稱或搜索查詢等長文本參數。

未來展望：視覺感官與性格派 AI

Shop-R1 的出現僅僅揭開了電商 Agent 進化史的一角，未來的突破點將集中在感官增強與個性化模擬上。

引入視覺語言模型（VLM）[1] 將是下一場進化的重頭戲。現有的 Agent 高度依賴 HTML 代碼，但人類網購時，往往會被一張富有氛圍感的頭圖擊中，或通過買家秀實拍圖的細節來判斷質感。賦予 AI “看” 的能力，意味著它能捕捉到那些無法被文本描述的隱含情緒。

更具顛覆性的構想在于“性格化” (Character Injection)[2]。通過調整強化學習的獎勵權重，研究人員可以賦予 AI 不同的消費畫像：

“極致性價比黨”：會自動過濾所有冗余配件，在預算邊緣反復橫跳以尋找最優解。
“精致參數控”：會花費 80% 的權重分析硬件指標與差評，而非廣告推薦。
“顏值正義者”：視覺美感將成為其最高決策優先級。

這種多樣化的智能體矩陣，將使 AI 能夠復刻出真實世界中 “千人千面” 的消費心理。

結語：電商的 “購物模擬器”

Shop-R1 的落地價值，遠不止于幫用戶省下對比時間。對于電商巨頭而言，它更像是一個低成本、高保真的 “虛擬 A/B 測試” 環境。在傳統的運營邏輯中，測試一個新的推薦算法或頁面布局，往往需要真實的流量和真金白銀的補貼。而擁有了 Shop-R1 這樣具備 “人類邏輯” 的模擬導向智能體，平臺可以在實驗室環境中投喂數萬個 “AI 購物者”，觀察它們在面對價格波動、界面改版時的實時反饋。這不再是一個簡單的對話框，而是一個深刻理解人類欲望與權衡的購物模擬器。當 AI 開始學會解構那些復雜的瀏覽鏈路，并精準預測下一秒的操作時，人類與算法之間的博弈，才真正進入了認知的深水區。

參考文獻：

[1] Zhang Y, Gesi J, Xue R, et al. See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [J]. arXiv preprint arXiv:2510.19245, 2025.

[2] Wang Z, Lu Y, Zhang Y, et al. Customer-R1: Personalized simulation of human behaviors via RL-based LLM agent in online shopping [J]. arXiv preprint arXiv:2510.07230, 2025.

第一作者介紹：

張益萌，現任 Amazon Applied Scientist，研究方向為生成式 AI、AI Agent 與多模態智能體。2025 年于 Michigan State University 獲計算機科學博士學位，曾為 OPTML 實驗室成員，導師為劉思佳副教授。曾就讀于 Columbia University 與 University of Sheffield。其研究關注高效機器學習、模型魯棒性與安全，涵蓋 LLM、擴散模型和對抗學習等領域，在 CVPR、NeurIPS、ICLR、ICML 等國際會議發表多篇論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.