2019年,一位谷歌數(shù)據(jù)科學家在Medium寫下這段反思時,已經(jīng)在行業(yè)里摸爬滾打了三年。他的困惑很典型——模型完美、指標漂亮、結(jié)論清晰,可一落地就翻車。這不是技術(shù)問題,是認知問題。
數(shù)據(jù)從不撒謊,但也從不說真話。
這句話后來成了數(shù)據(jù)圈的暗語。它戳破了一個幻覺:我們以為自己在追求"正確",實際上只是在追求"自洽"。
1. 完美模型的陷阱:當數(shù)字開始"自我欺騙"
作者最初的工作流很標準。清洗數(shù)據(jù)、搭建模型、驗證指標、輸出結(jié)論。每一步都經(jīng)得起推敲,合在一起卻經(jīng)常失靈。
他舉了一個反復出現(xiàn)的場景:數(shù)據(jù)指向A方案,現(xiàn)實驗證后B方案才對。回頭檢查代碼,沒有bug;核對邏輯,沒有漏洞。問題出在哪?
出在"測量"這個動作本身。
你選擇采集什么字段、用什么口徑計算、把哪些異常值判定為噪聲——這些決策在代碼里 invisible(不可見),卻徹底重塑了結(jié)論的形狀。作者后來意識到,他不是在分析現(xiàn)實,是在分析自己對現(xiàn)實的簡化版本。
有個比喻很損:數(shù)據(jù)分析師像那種只帶廣角鏡頭去拍人像的攝影師。技術(shù)上沒毛病,但出來的東西永遠差點意思。
2. 被忽略的"黑暗物質(zhì)":你測不到的東西在悄悄復仇
作者提到一個關(guān)鍵轉(zhuǎn)折:他開始關(guān)注"決定忽略什么"。
這是數(shù)據(jù)工作里最隱蔽的權(quán)力。異常值刪不刪?缺失值怎么補?樣本外的群體算不算?每個選擇都在悄悄重寫故事的結(jié)局。而大多數(shù)分析師——包括早期的他自己——把這些當成技術(shù)細節(jié),而非價值判斷。
「數(shù)據(jù)會說一件事,現(xiàn)實會說另一件事。」作者這樣描述那種錯位感。
更麻煩的是,當數(shù)據(jù)足夠"干凈",它會自我強化。模型預測用戶喜歡短視頻,推薦系統(tǒng)推更多短視頻,用戶確實點了更多——不是因為偏好被滿足,而是因為選項被窄化了。數(shù)據(jù)閉環(huán)完成,認知閉環(huán)鎖死。
這種循環(huán)在谷歌這樣的數(shù)據(jù)富礦里尤其危險。你有足夠多的樣本證明任何事,也有足夠多的維度把任何結(jié)論切成你想要的樣子。
3. 從"正確"到"有用":一場遲到的職業(yè)覺醒
作者的解法不是更復雜的模型,是更誠實的對話。
他開始在匯報時主動暴露局限:這個結(jié)論基于XX假設(shè),如果YY情況發(fā)生會失效;這個指標追蹤的是ZZ行為,但用戶實際動機可能是AA。把不確定性攤在桌上,反而讓決策變快了——因為老板終于知道自己在賭什么。
這種轉(zhuǎn)變很難。技術(shù)訓練教我們隱藏瑕疵,商業(yè)環(huán)境獎勵確定性的姿態(tài)。但作者發(fā)現(xiàn),承認"我不知道"在數(shù)據(jù)領(lǐng)域是一種稀缺能力,能直接轉(zhuǎn)化為信任資產(chǎn)。
他不再追求"被證明正確",而是追求"被證明有用"。這兩個目標經(jīng)常打架。正確的模型可能太保守,有用的判斷可能需要跳過早期的完整證據(jù)。
有個細節(jié)很有意思:作者提到他現(xiàn)在會刻意保留一些"臟數(shù)據(jù)"不看,防止過早形成假設(shè)。這像廚師故意蒙眼聞香料——不是為了炫技,是為了避免被視覺偏見帶偏。
4. 給從業(yè)者的冷啟動清單
文章最后沒有給雞湯,只有操作層面的自我審查:
每次出結(jié)論前,強制問自己:如果結(jié)果是反的,我能從現(xiàn)有數(shù)據(jù)里找到支持嗎?
定期把模型交給"數(shù)據(jù)窮人"——那些不懂技術(shù)但懂業(yè)務(wù)的人——讓他們用常識挑刺。
建立一個"預測墓地",專門存放那些死掉的假設(shè),季度復盤時翻出來聞聞。
作者說這些做法讓他"更慢,但更準"。在速度崇拜的科技行業(yè),這種慢是反直覺的,也是反脆弱的。
文章結(jié)尾沒有升華,只有一個場景:他最近又遇到一個"數(shù)字完美但感覺不對"的項目,這次他停下來了,給團隊發(fā)了一封郵件,主題行是「我們需要談?wù)剾]測的東西」。
郵件發(fā)出去之后呢?他沒寫。但你能猜到——要么是一場艱難的會議,要么是一次昂貴的糾偏。而這兩者,都比三個月后對著崩盤的數(shù)據(jù)假裝驚訝要強。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.