![]()
87對(duì)熒幕情侶,14個(gè)特征維度,0個(gè)能用的預(yù)測(cè)公式。一位數(shù)據(jù)科學(xué)家試圖用線性回歸破解"化學(xué)反應(yīng)",最終收獲的只有一堆無(wú)法收斂的變量和對(duì)自己專業(yè)的懷疑。
一、為什么選電視劇情侶當(dāng)數(shù)據(jù)集
Caroline Barra 在動(dòng)筆前就卡住了第一道關(guān)卡:她沒(méi)有 Hinge 或 Match.com 的后臺(tái)權(quán)限。真實(shí)世界的戀愛(ài)數(shù)據(jù)被鎖在約會(huì)軟件的保險(xiǎn)庫(kù)里,而"成功戀愛(ài)"的定義本身就像一團(tuán)漿糊——是三個(gè)月沒(méi)分手?還是走進(jìn)婚姻?
她換了個(gè)思路。我們 collectively 花了數(shù)千小時(shí)盯著屏幕,為 Ross 和 Rachel 的分合揪心,為 Jim 和 Pam 的慢熱鼓掌。這些關(guān)系有明確的起點(diǎn)、終點(diǎn),以及數(shù)百萬(wàn)觀眾投票認(rèn)證的"結(jié)局滿意度"。
TV Tropes、IMDb、Reddit 討論帖、編劇訪談——這些公開(kāi)素材構(gòu)成了她的原始數(shù)據(jù)庫(kù)。87對(duì)情侶,從《老友記》到《我們這一天》,每對(duì)都被拆解成可量化的字段。
問(wèn)題從這里才開(kāi)始顯現(xiàn)。
二、"化學(xué)反應(yīng)"怎么變成 float 值
Caroline 列了14個(gè)候選特征:相識(shí)場(chǎng)景、年齡差、職業(yè)重疊度、共同朋友數(shù)量、沖突頻率、表白時(shí)機(jī)、外部阻礙強(qiáng)度……看起來(lái)都很合理,直到她開(kāi)始標(biāo)注數(shù)據(jù)。
《傲慢與偏見(jiàn)》里 Darcy 第一次求婚被拒,算"沖突頻率高"還是"表白時(shí)機(jī)錯(cuò)"?《瘋狂前女友》的 Rebecca 和 Josh,觀眾知道他們不合適,但角色本人沉迷了四季——這標(biāo)簽該按主觀感受打,還是按劇情走向打?
她嘗試引入"觀眾評(píng)分"作為代理變量,發(fā)現(xiàn) IMDB 評(píng)分和關(guān)系持久度呈負(fù)相關(guān):觀眾最愛(ài)看的往往是虐戀,而穩(wěn)定關(guān)系被嫌"無(wú)聊"。換句話說(shuō),數(shù)據(jù)在鼓勵(lì)她預(yù)測(cè)悲劇。
更麻煩的是時(shí)間維度。有些情侶第一季甜蜜,第五季崩盤;有些慢熱到第三季才牽手。該用哪個(gè)時(shí)間切片做標(biāo)簽?滑動(dòng)窗口?還是全劇終局?每個(gè)選擇都引入新的偏差。
三、模型輸出的荒謬結(jié)論
線性回歸跑出來(lái)了。R2 低得可憐,但系數(shù)解讀卻意外地"像那么回事":共同朋友數(shù)量呈正相關(guān),年齡差呈負(fù)相關(guān),外部阻礙在中等強(qiáng)度時(shí)最促進(jìn)感情——壓力太小沒(méi)故事,太大直接壓垮。
Caroline 把模型套到幾對(duì)新劇情侶上驗(yàn)證。預(yù)測(cè)《心跳源計(jì)劃》的兩位主角"高兼容",結(jié)果第二季編劇讓他們因?yàn)?職業(yè)規(guī)劃分歧"分手——這個(gè)變量根本沒(méi)進(jìn)她的特征列表。
《性教育》的 Otis 和 Maeve 被模型判定"低匹配",但觀眾追了三季就想看他們?cè)谝黄稹K龣z查特征發(fā)現(xiàn),兩人的"溝通頻率"標(biāo)注為低(確實(shí)很少好好說(shuō)話),但劇情魅力恰恰來(lái)自那種笨拙的試探。
她漏掉了"敘事張力"這個(gè)維度,而它對(duì)觀眾投入度的解釋力可能超過(guò)所有客觀指標(biāo)。
四、數(shù)據(jù)科學(xué)教不了的
這次實(shí)驗(yàn)最干凈的產(chǎn)出,是一份"無(wú)法量化"的清單:時(shí)機(jī)感、身體語(yǔ)言的微差、共同經(jīng)歷創(chuàng)傷后的修復(fù)能力、對(duì)彼此脆弱面的接納節(jié)奏。這些在編劇室里被反復(fù)調(diào)試的元素,在數(shù)據(jù)表里是空白列。
Caroline 在復(fù)盤里寫:「客戶流失預(yù)測(cè)可以靠點(diǎn)擊流和付費(fèi)行為,因?yàn)?不續(xù)費(fèi)"是個(gè)硬事件。但"相愛(ài)"沒(méi)有等價(jià)物。你可以測(cè)量約會(huì)頻率、回復(fù)速度、禮物支出,然后發(fā)現(xiàn)這些指標(biāo)和關(guān)系質(zhì)量的相關(guān)性弱得可笑。」
她最后把項(xiàng)目代碼開(kāi)源了,附帶一份長(zhǎng)長(zhǎng)的 LIMITATIONS 文檔。GitHub 上有人 fork 去跑自己的劇集庫(kù),有人在 issue 區(qū)爭(zhēng)論《絕命毒師》的 Walt 和 Skyler 該不該算"情侶樣本"。
沒(méi)有人在復(fù)現(xiàn)她的模型——大家都在往特征工程里加自己的私貨:有人試過(guò)多模態(tài)分析(把對(duì)視鏡頭時(shí)長(zhǎng)算進(jìn)去),有人爬了 AO3 的同人標(biāo)簽做情感極性。項(xiàng)目變成了一個(gè)小型眾包實(shí)驗(yàn),關(guān)于"什么東西值得被測(cè)量"的持續(xù)辯論。
Caroline 現(xiàn)在回到廣告點(diǎn)擊預(yù)測(cè)的老本行。她說(shuō)那里的噪聲至少不會(huì)半夜給她發(fā)消息,問(wèn)她"你到底愛(ài)不愛(ài)我"。
如果你手上有 500 對(duì)真實(shí)情侶的縱向追蹤數(shù)據(jù),你會(huì)把"睡前是否各自刷手機(jī)"這個(gè)變量放進(jìn)去嗎?還是承認(rèn)有些黑暗里發(fā)生的事,本來(lái)就不該被照亮?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.