“即使是有限地捕獲歐盟員工數(shù)據(jù),也可能讓Meta置身于違反《通用數(shù)據(jù)保護條例》(GDPR)的危險之中。”一位不愿具名的法律專家這樣警告。這番話將一項原本低調(diào)的內(nèi)部工具推到了風(fēng)口浪尖,也讓所有跨國企業(yè)的員工數(shù)據(jù)訓(xùn)練實踐,突然變得充滿變數(shù)。
事件的起點,是今年四月路透社的一則獨家報道。該報道披露,Meta正計劃捕獲其美國員工的按鍵操作、鼠標(biāo)移動軌跡與點擊行為,目的很明確——用這些真實的人機交互數(shù)據(jù)來訓(xùn)練自己的人工智能模型。隨后,Meta向科技媒體Engadget證實了該計劃的存在。一位公司發(fā)言人在回應(yīng)時解釋,推出的是一項“內(nèi)部工具”,會在特定應(yīng)用程序上捕獲這些輸入,背后的邏輯是需要人們在電腦上完成日常任務(wù)的實際例子。這個解釋,在當(dāng)時并未激起太大浪花。
![]()
然而,路透社的最新追蹤報道,把畫面徹底放大了。根據(jù)報道,這項名為“模型能力計劃”(Model Capability Initiative,簡稱MCI)的工具,其數(shù)據(jù)抓取范圍可能遠超Meta原本透露的口徑。其中最刺眼的一個細節(jié)是:它很可能在運行過程中把位于美國以外的員工數(shù)據(jù)也一同“兜”了進來。一家原本聲稱只在美國內(nèi)部流轉(zhuǎn)的數(shù)據(jù)訓(xùn)練管道,突然出現(xiàn)了跨境裂縫。
路透社獲得的公司內(nèi)部問答文件,讓這一裂縫變得具體可感。Meta在文件中承認(rèn),MCI工具將捕獲美國員工發(fā)出或收到的電子郵件與即時消息內(nèi)容,無論發(fā)送方或接收方身處哪個國家。“如果一位在美國的同事啟用了該工具,當(dāng)他與一位美國以外的人進行Gchat或者郵件往來時,這條活動記錄就會被捕獲。”文件中的這句話,直接把隱私風(fēng)險的邊界從地域切成了人際網(wǎng)絡(luò)。一個德國員工給美國同事發(fā)一條午餐邀約,鼠標(biāo)點擊的節(jié)奏、端到端的內(nèi)容,都有可能被歸入Meta的訓(xùn)練集里。
面對這一邏輯,Meta的立場是主動通知與風(fēng)險緩解。發(fā)言人戴夫·阿諾德向路透社確認(rèn),公司已經(jīng)將部署情況告知了那些可能與美國同事電郵或聊天的非美國員工。他強調(diào),在工具的研發(fā)和部署過程中,公司“仔細考量并緩解了潛在的隱私風(fēng)險”,并且“致力于遵守所有適用的法律與法規(guī)”。從措辭上看,這套流程似乎搭建了某種合規(guī)骨架:知情、減險、承諾守法。
但在歐盟的隱私框架下,骨架需要血肉來填充。《通用數(shù)據(jù)保護條例》劃下了兩條硬杠:其一,收集個人數(shù)據(jù)必須擁有明確的法律依據(jù);其二,必須清晰披露正以何種方式、出于何種目的收集哪些信息。即便只是“有限”捕獲,一旦缺乏這樣的基礎(chǔ)和透明披露,就可能構(gòu)成違規(guī)。這正是法律專家點出危險的原因所在——哪怕只捕獲了一位歐盟員工的一小段鼠標(biāo)軌跡,如果對應(yīng)的法律依據(jù)不成立,整個數(shù)據(jù)收集鏈條就可能被判為非法處理。
換個角度,也有人為Meta的初衷遞上理解的目光。站在AI訓(xùn)練的前沿,高質(zhì)量的人類行為數(shù)據(jù)正變得和高質(zhì)量文本語料同等稀缺。鍵盤敲擊的輕重、光標(biāo)移動的路徑、從一個應(yīng)用到另一個應(yīng)用的切換節(jié)奏,這些包含了肌肉記憶、認(rèn)知負(fù)荷判斷與下意識決策的軌跡,確實是教會一個模型“像人一樣操作電腦”的上佳教材。Meta想要打造的是一個能理解真實工作流、代替人完成日常桌面任務(wù)的人工智能,那么這個“真”字就需要從真實世界來。從這個角度看,MCI的誕生并非毫無邏輯的正向試探。
可是,技術(shù)上的“真”一旦進入組織,就不可避免地與人的體感撞個滿懷。路透社在報道中勾勒出的另一條線索,是Meta員工們持續(xù)累積的情緒。許多員工抱怨,該工具耗用的數(shù)據(jù)流量之大,讓那些持有月度流量配額的人,短短幾天內(nèi)用量就被吃光。這還不是抗議的全部內(nèi)容。自項目啟動以來,反對聲音就沒有間斷。一些員工擔(dān)憂,自己的一舉一動最終將訓(xùn)練出頂替自己位置的智能系統(tǒng)。這種“訓(xùn)練替代者”的焦慮,被鍵盤和鼠標(biāo)的每一次點擊敲得越來越響。有的員工甚至走到分發(fā)傳單那一步,呼吁同事們在一份抗議該計劃的請愿書上簽名。從流量超標(biāo)到職業(yè)不安,工具本身的技術(shù)問題反而成了情緒引線中最細的一根。
此外,MCI的數(shù)據(jù)抓取廣度同樣令人側(cè)目。報道指出,該工具從超過200個應(yīng)用與網(wǎng)站上追蹤數(shù)據(jù),為了Meta的訓(xùn)練計劃源源不斷地供應(yīng)輸入。這個數(shù)字意味著,它并不局限于少數(shù)幾款內(nèi)部辦公軟件,而是伸向了員工工作生態(tài)中極為廣泛的數(shù)字觸點。當(dāng)捕獲面拉得這么開,即便初衷只瞄向美國員工,任何一次跨境郵件、一條國際聊天氣泡,都會讓數(shù)據(jù)的地域標(biāo)簽瞬間模糊。
把兩邊的論述攤開:一方面,Meta試圖通過內(nèi)部知情、風(fēng)險評估和法規(guī)承諾來搭建一道防火墻;另一方面,GDPR的剛性要求并不因通知和緩解措施而自動豁免,一旦數(shù)據(jù)收集的法律基礎(chǔ)被判缺位,所謂的合規(guī)骨架就可能倒塌。正方的邏輯是“以真實換智能,以流程換合規(guī)”,反方的質(zhì)問則是“以透明換同意,以緩解換安全,換得來嗎?”
在我看來,這場風(fēng)波的癥結(jié)不在MCI這個工具本身是否邪惡,而在于跨境數(shù)據(jù)捕獲的灰度到底該由誰、用哪種灰度儀去量。Meta認(rèn)為把工具裝在美國同事的電腦上,把通知發(fā)到國際同事的信箱里,就完成了通知與減險的閉環(huán)。但在GDPR的文本邏輯里,數(shù)據(jù)主體的權(quán)利并不因為物理設(shè)備所在地而蒸發(fā)。一個漢堡員工的聊天數(shù)據(jù),如果確實進入了MCI的采集窗口,那么Meta就必須對這條數(shù)據(jù)承擔(dān)歐盟法律下的完整義務(wù),而不能把它歸為“美國項目的連帶濺射”。換句話說,只要漏斗之下確實有水珠濺入,這個水珠的每一滴歸屬都必須有法律依據(jù),否則漏斗本身的設(shè)計就不再干凈。
而員工一側(cè)的抵觸,恰恰說明數(shù)據(jù)倫理不只是一紙法律清單。當(dāng)人們發(fā)現(xiàn)自己的操作軌跡最終可能成為訓(xùn)練“替代者”的養(yǎng)料時,信任缺口已經(jīng)裂開。流量被吃空、傳單被分發(fā),這些行為本身已經(jīng)超越了隱私合規(guī)的討論,變成了一場圍繞工作意義與控制權(quán)的低烈度角力。這種角力提醒所有試圖用員工數(shù)據(jù)喂養(yǎng)AI的公司:即便法律上找得到踩線空間,體感上的侵犯一旦形成,工程團隊要面對的就不再僅僅是技術(shù)上的“怎么采”,而是文化上的“憑什么采”。
路透社的報道像一把緩慢推進的推刀,將事件從一家美國公司的內(nèi)部實驗,劃進了一條關(guān)于數(shù)據(jù)主權(quán)、勞工權(quán)利與AI倫理的復(fù)合裂縫里。接下來要觀察的是,歐盟數(shù)據(jù)保護機構(gòu)是否會就此啟動主動調(diào)查,而Meta又會否接受在模型訓(xùn)練流程中植入更徹底的國別過濾,還是選擇在合規(guī)與研發(fā)效率之間繼續(xù)走那條窄得只剩幾厘米的鋼索。對于所有在跨國界數(shù)據(jù)上動腦筋的科技公司而言,這場由鼠標(biāo)軌跡引爆的爭論,也許只是一次更漫長的預(yù)演。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.