近日,《證券時(shí)報(bào)》、《上海證券報(bào)》、《證券日?qǐng)?bào)》、《中國(guó)基金報(bào)》、《21世紀(jì)經(jīng)濟(jì)報(bào)道》、第一財(cái)經(jīng)集團(tuán)和《每日經(jīng)濟(jì)新聞》七家主流財(cái)經(jīng)媒體同時(shí)聲明:未經(jīng)本單位書面許可,不得將本單位原創(chuàng)內(nèi)容用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、大模型訓(xùn)練、文字轉(zhuǎn)音視頻等人工智能應(yīng)用場(chǎng)景。此事說明AI產(chǎn)業(yè)與內(nèi)容產(chǎn)業(yè)之間日益利益沖突激烈,但這紙聲明真的管用嗎?筆者的判斷并不樂觀。因?yàn)槁暶鹘沟氖茿I抓取公開數(shù)據(jù),而目前的法律對(duì)此邊界尚不明晰。
一、Robots協(xié)議為什么防不住AI爬蟲?
傳統(tǒng)互聯(lián)網(wǎng)時(shí)代,網(wǎng)站抵御爬蟲的第一道防線是robots.txt文件,通過聲明哪些路徑禁止爬取,來約束遵守協(xié)議的爬蟲程序。然而,筆者隨機(jī)查閱了此次聯(lián)署的三家媒體:《證券時(shí)報(bào)》的robots頁(yè)面直接返回404錯(cuò)誤,意味著網(wǎng)站官方的爬蟲指引壓根兒不存在;《21世紀(jì)經(jīng)濟(jì)報(bào)道》則采用了最為開放的配置,允許所有搜索引擎爬蟲訪問網(wǎng)站全部?jī)?nèi)容;《中國(guó)基金報(bào)》稍微保守一些,僅禁止爬取以"paper"(紙媒)和"rss"(訂閱)開頭的路徑。
換言之,這三家媒體在發(fā)布聲明的同時(shí),并未在技術(shù)層面做出任何實(shí)質(zhì)性的防護(hù)動(dòng)作。筆者覺得,一種可能是媒體不是技術(shù)公司,所以沒想到。另一種可能則是,媒體知道robots.txt本就是防君子不防小人的,即便寫了禁止AI爬蟲,應(yīng)該也防不住,所以干脆不寫了。
即便有robots.txt攔路,技術(shù)手段也早已將其架空。AI數(shù)據(jù)采集常用的繞過方式包括:抓取互聯(lián)網(wǎng)檔案館(Internet Archive)的歷史鏡像,那里存有大量網(wǎng)頁(yè)快照;利用搜索引擎緩存,間接獲取已被索引的內(nèi)容;將爬蟲偽裝成普通瀏覽器的User-Agent,讓服務(wù)器誤以為是真實(shí)用戶在訪問;委托第三方爬蟲服務(wù)代勞,自身不直接出手;通過頻繁輪換IP地址規(guī)避封鎖;或者模擬真實(shí)瀏覽器行為(如鼠標(biāo)移動(dòng)、頁(yè)面滾動(dòng))來欺騙反爬蟲系統(tǒng)。
其實(shí)在百度訴奇虎360案中,北京一中院曾認(rèn)定robots協(xié)議是技術(shù)規(guī)范,規(guī)定該協(xié)議的《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》是公認(rèn)商業(yè)道德,所以,媒體可以考慮利用robots協(xié)議屏蔽AI爬蟲。若AI公司違反協(xié)議,可依據(jù)《反不正當(dāng)競(jìng)爭(zhēng)法》的原則條款提起訴訟。
二、聯(lián)合聲明有法律效力嗎?
聲明發(fā)出了,法律能撐腰嗎?在法院判例或立法文件明確之前,這樣一紙聲明未必能賦予媒體機(jī)構(gòu)對(duì)抗AI訓(xùn)練的基礎(chǔ)性權(quán)利。依照現(xiàn)行著作權(quán)法的框架,利用內(nèi)容訓(xùn)練AI是否構(gòu)成侵權(quán),目前法律并無明確規(guī)定。雖然《生成式人工智能服務(wù)管理暫行辦法》要求服務(wù)提供者尊重知識(shí)產(chǎn)權(quán),但并未就訓(xùn)練數(shù)據(jù)的合規(guī)路徑給出具體指引。國(guó)內(nèi)有多起版權(quán)人起訴AI公司訓(xùn)練侵權(quán)的案件進(jìn)入司法程序,筆者就代理了其中兩起,但案件審判皆已停滯很久,這可能是司法機(jī)關(guān)有意為AI產(chǎn)業(yè)發(fā)展保留空間。
現(xiàn)有判例集中在AI輸出端而非訓(xùn)練端,杭州互聯(lián)網(wǎng)法院和廣州互聯(lián)網(wǎng)法院均有一個(gè)涉及奧特曼形象的判決,認(rèn)定AI輸出的奧特曼圖片與原作構(gòu)成實(shí)質(zhì)性相似而構(gòu)成侵權(quán)。但這針對(duì)的是AI生成內(nèi)容對(duì)他人版權(quán)的直接侵害,而非訓(xùn)練數(shù)據(jù)的抓取行為本身。對(duì)于訓(xùn)練端的法律邊界,司法尚未劃定。
三、AI抓取數(shù)據(jù)的用途決定了法律風(fēng)險(xiǎn)的大小
從AI對(duì)財(cái)經(jīng)內(nèi)容的利用方式來看,存在兩種截然不同的模式,法律風(fēng)險(xiǎn)也大相徑庭:
訓(xùn)練模式:AI將抓取到的內(nèi)容用于模型訓(xùn)練,訓(xùn)練完成后,模型生成的內(nèi)容是其內(nèi)部知識(shí)的再創(chuàng)造,與任何一篇原始文章之間通常不構(gòu)成實(shí)質(zhì)性相似。這種情況下,被認(rèn)定侵犯復(fù)制權(quán)或信息網(wǎng)絡(luò)傳播權(quán)的風(fēng)險(xiǎn)相對(duì)較低,被認(rèn)定合理使用的可能性比較大。
實(shí)時(shí)檢索增強(qiáng)生成模式(RAG, Retrieval-AugmentedGeneration)?:當(dāng)用戶提出需要最新信息的問題時(shí),比如分析一下今天A股市場(chǎng)的表現(xiàn),AI模型會(huì)實(shí)時(shí)抓取相關(guān)財(cái)經(jīng)網(wǎng)站的最新報(bào)道,然后進(jìn)行總結(jié)、歸納并呈現(xiàn)給用戶。這種模式下,AI生成的內(nèi)容與原始文章在信息和表達(dá)上高度關(guān)聯(lián),?對(duì)財(cái)經(jīng)媒體訪問的替代性極強(qiáng),幾乎等同于對(duì)原作的即時(shí)復(fù)刻與分發(fā),原作的潛在市場(chǎng)或價(jià)值可能被嚴(yán)重侵害,主張合理使用的抗辯空間將大大縮減。
四、目前法律風(fēng)險(xiǎn)的兩條紅線
另一個(gè)關(guān)鍵變量是付費(fèi)墻。若AI繞過付費(fèi)訂閱機(jī)制,如繞過登錄驗(yàn)證、利用共享賬號(hào)、解析接口等,直接讀取付費(fèi)內(nèi)容,則幾乎可以確定構(gòu)成侵權(quán),因?yàn)檫@不僅涉及復(fù)制權(quán),更涉及對(duì)技術(shù)保護(hù)措施的破解,屬于直接侵權(quán)行為。在紐約時(shí)報(bào)訴OpenAI的案件中,原告要求對(duì)OpenAI兩千余萬(wàn)條訪問記錄進(jìn)行檢查,目的就是證明OpenAI和微軟的Browse with Bing(必應(yīng)瀏覽)的RAG模式繞過付費(fèi)墻向用戶展示了付費(fèi)網(wǎng)頁(yè)摘要。
除了民事風(fēng)險(xiǎn),刑事風(fēng)險(xiǎn)的可能性也存在,比如AI公司的高頻抓取數(shù)據(jù)導(dǎo)致媒體網(wǎng)站崩潰,理論上可能涉嫌破壞計(jì)算機(jī)信息系統(tǒng)罪,這七家媒體背后均為國(guó)有大型媒體集團(tuán),如果報(bào)案,公安機(jī)關(guān)不排除可能會(huì)受理。但現(xiàn)在AI產(chǎn)業(yè)的明星公司其實(shí)也是新質(zhì)生產(chǎn)力的重要組成部分,同樣深受地方政府扶持,所以媒體如果維權(quán)動(dòng)作過于激烈,也不是沒有制衡力量。
最后,七家財(cái)經(jīng)媒體的聯(lián)合聲明的最終目的可能不是封殺,而是為了逼AI公司回到談判桌,探索類似數(shù)據(jù)授權(quán)許可或利益分享的商業(yè)模式。但毫無疑問的是,AI浪潮已讓傳統(tǒng)內(nèi)容產(chǎn)業(yè)感受到切膚之痛,攝影師、攝像師、程序員的失業(yè)潮早已顯現(xiàn),如今連財(cái)經(jīng)媒體也在抱團(tuán)取暖。所以立法機(jī)關(guān)和法院亟需通過具有里程碑意義的立法或者判決,為AI訓(xùn)練數(shù)據(jù)的版權(quán)問題劃定清晰的紅線。
本文作者:游云庭,知識(shí)產(chǎn)權(quán)律師。Email: yytbest@gmail.com,本文僅代表作者觀點(diǎn)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.