![]()
23家主流媒體正在聯(lián)手絞殺一個它們每天都在用的工具。
Wired最新披露的數(shù)字讓人錯愕:USA Today、Reddit等23個平臺已屏蔽互聯(lián)網(wǎng)檔案館(Internet Archive)的網(wǎng)絡爬蟲。諷刺的是,這些機構的記者剛用Wayback Machine扒出了ICE拘留政策的黑料——轉頭就把檔案館的門鎖了。
一邊用,一邊封
USA Today今年的一篇調查報道堪稱教科書級操作。記者團隊通過Wayback Machine追蹤ICE官網(wǎng)的歷史版本,發(fā)現(xiàn)該機構在特朗普任內(nèi)多次延遲公開拘留數(shù)據(jù),關鍵統(tǒng)計口徑被悄悄篡改。
「他們能完成這項調查,正是因為Wayback Machine存在。與此同時,他們卻在封鎖訪問。」Wayback Machine負責人Mark Graham的原話毫不客氣。
USA Today母公司Gannett(現(xiàn)USA Today Co.)旗下運營著200多家媒體。這家出版巨頭的機器人屏蔽列表里,ia_archiverbot赫然在列。
面對質疑,USA Today的回應是標準話術:屏蔽是為了防爬蟲,并非針對互聯(lián)網(wǎng)檔案館。但技術層面的事實是,ia_archiverbot被一刀切擋在了門外,無論初衷如何。
Originality AI的掃描結果更扎心:23家主流新聞站、社交平臺Reddit都在屏蔽名單上。這不是某個編輯部的疏忽,是系統(tǒng)性的「用完即棄」。
記者們被迫自救
超過100名記者已經(jīng)聯(lián)名簽署支持信,名單從MSNBC主播Rachel Maddow到獨立記者Kat Tenbarge、Taylor Lorenz,跨度極大。
信中有段話戳中了行業(yè)痛點:「上一代記者會翻查本地報紙的實體檔案,或去公共圖書館追溯歷史。現(xiàn)在報紙倒閉,圖書館沒能力保存純數(shù)字報道,守護新聞記錄的重擔落在了互聯(lián)網(wǎng)檔案館肩上。」
實體檔案的消亡速度比想象中快。美國新聞協(xié)會數(shù)據(jù)顯示,過去15年超過四分之一的地方報紙消失,留下的數(shù)字內(nèi)容散落在各平臺,隨時可能404。
Wayback Machine每月抓取超過10億網(wǎng)頁,存儲了8660億個網(wǎng)頁快照。這個數(shù)字背后是一個殘酷現(xiàn)實:沒有它,大量新聞證據(jù)鏈會隨網(wǎng)站改版、服務器關停而蒸發(fā)。
檔案館的雙面困境
互聯(lián)網(wǎng)檔案館的尷尬在于,它既是公共服務,又依賴技術層面的「通行權」。爬蟲協(xié)議(robots.txt)理論上允許網(wǎng)站自主選擇是否被收錄,但媒體巨頭的屏蔽往往不加區(qū)分——防AI訓練數(shù)據(jù)的爬蟲時,順手把檔案館也關了。
更深層的問題是版權與存檔的永恒撕扯。出版商擔心內(nèi)容被永久鏡像影響付費墻策略,記者卻需要歷史版本做交叉驗證。同一機構內(nèi)部,商業(yè)部門和編輯部在打架。
Mark Graham沒有公開點名具體談判進展,但語氣并不樂觀。USA Today的「非針對性」辯解,本質上是一種結構性冷漠:屏蔽列表太長,懶得為公共利益開白名單。
這種冷漠的代價正在顯現(xiàn)。當調查記者需要核實某篇報道的原始版本,發(fā)現(xiàn)鏈接已死、檔案館未存檔時,真相的拼圖就缺了一塊。
聯(lián)名信最后寫道:「我們呼吁新聞機構重新考慮屏蔽決定。」措辭克制,但潛臺詞清晰——你們正在鋸斷自己坐著的樹枝。
USA Today那篇ICE調查報道的網(wǎng)頁,現(xiàn)在還能在Wayback Machine找到快照。如果哪天Gannett決定徹底清理歷史版本,誰來保證這條證據(jù)鏈不消失?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.