“在座各位,誰手里的測試數據集能百分百覆蓋產品質量,并且毫無缺陷?”Mallika Rao在演講一開場便拋出一個尖銳的問題。她曾先后領導Twitter、沃爾瑪和Netflix的搜索與個性化基礎設施團隊,親歷過從萬億級文檔檢索到全球級實時推薦的系統構建。
在Twitter,她帶領團隊將搜索從簡單的倒排關鍵詞匹配,升級為高度個性化的語義排序,響應延遲嚴格控制在50毫秒以內。轉戰沃爾瑪后,她又負責搭建付費會員的返利模型,將增長、留存、交易數據統一納入一個零容錯的獎勵引擎,月覆蓋2500萬用戶,橫跨全美50個州的實體門店與線上渠道。而在Netflix,她每天要處理數十億次個性化決策,包括推薦、排序和數據切分,確保全球用戶能在毫秒級獲得量身定制的內容。
![]()
這些系統形態迥異,架構、挑戰和商業風險各不相同,但她發現一個共同點:模型本身極少成為阻礙產品成功的瓶頸,真正致命的往往是評估框架。評估債務會在儀表盤看不見的地方慢慢積累,然后突然引爆,直接觸碰用戶信任這根高壓線。
她借用兩個親身經歷的系統來解釋這個現象。一個面向每秒數十億次查詢的個性化搜索,要求在全球多數據中心之間做到亞100毫秒的延遲,每一次查詢都會觸發上百個內部微服務;另一個則是對2500萬用戶按美元計價的現金返利,線上線下聯動,誤差窗口為零。兩個系統雖在工程難度上完全不同,但都曾在評估層面暴露出類似的“癥狀”:測試覆蓋率看似理想,實際卻無法捕捉真實場景中的長尾失效;離線指標一片向好,上線后卻頻繁遭受用戶投訴。
Rao將這種問題稱為“評估債務”——它不像技術債那樣直接拖慢開發進度,而是潛伏在模型迭代與部署流程的縫隙中,不斷削弱系統的可靠邊界。企業級場景中,構建一套能持續演進的評估體系面臨多重挑戰:數據類型不斷變化、業務指標需要實時對齊、合規要求日趨復雜,而常見的做法卻是復制粘貼上一次的測試集。
她認為,要衡量一個組織在AI產品化上的成熟度,關鍵不是看用了多先進的模型,而是看其評估框架能否回答三個問題:測試數據真的覆蓋了當前產品語境嗎?離線結果能否準確預示線上表現?團隊是否有能力在用戶發現之前,主動偵測到退化?
回顧從Twitter到Netflix的經歷,Rao總結出一套原則:評估體系必須像產品一樣被設計、維護和迭代。她建議團隊從“評估成熟度模型”入手,先診斷當前階段——是處在隨手寫幾個斷言的萌芽期,還是已經具備自動化實驗和主動回歸能力的成熟期——然后制定漸進式的演進路線,同步打磨數據覆蓋度、指標靈敏度和故障響應機制。唯有這樣,才能在用戶信任被透支前,堵住那個看不見的缺口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.