![]()
由于訓(xùn)練方式的局限性,大語言模型所捕捉到的人類語言僅是一個(gè)片段。這些模型依賴書面文字進(jìn)行訓(xùn)練,從教科書到社交媒體帖子,再到電影和電視中的對話。然而,它們幾乎無法接觸到人們面對面或通話時(shí)的即興交流。而這類非正式對話才是人類語言的主體,也是人類文化的重要組成部分。
這其中潛藏著不小的風(fēng)險(xiǎn)。隨著大語言模型的廣泛應(yīng)用,人們將越來越多地接觸到AI生成的文本。久而久之,我們自身也會開始采納這些模型的語言習(xí)慣和表達(dá)方式。這不僅會影響人與人之間的溝通方式,還會影響我們對自身及周圍世界的認(rèn)知。我們對世界的理解,可能正在以我們尚未完全察覺的方式悄然扭曲。
這種影響將通過多種途徑顯現(xiàn)。最先出現(xiàn)的變化,可能是日常表達(dá)層面的轉(zhuǎn)變,就像短信和社交媒體已經(jīng)讓我們習(xí)慣于使用更短的句子、用表情符號代替文字、大量省略標(biāo)點(diǎn)。但AI帶來的影響可能更為深遠(yuǎn),它可能侵蝕我們的禮貌表達(dá)方式,讓我們越來越像發(fā)號施令的上司。2022年的一項(xiàng)研究發(fā)現(xiàn),在習(xí)慣對Siri和Alexa等語音助手下指令的家庭中成長的孩子,在與人交流時(shí)也變得簡短生硬,動不動就說"嘿,去做X",并期待對方服從,尤其當(dāng)對方的聲音接近默認(rèn)女聲時(shí)。隨著我們越來越多地向聊天機(jī)器人和AI智能體發(fā)送指令,我們很可能也會陷入同樣的習(xí)慣。
其次,就像自動補(bǔ)全功能讓我們更頻繁地使用最常見的1000個(gè)詞匯一樣,與聊天機(jī)器人對話、閱讀AI生成的文本,也可能進(jìn)一步壓縮我們的語言空間。西班牙科魯尼亞大學(xué)的一項(xiàng)近期研究發(fā)現(xiàn),機(jī)器生成的語言句子長度范圍較窄,平均在12至20個(gè)詞之間,詞匯量也比人類語言更為有限。機(jī)器生成的文本讀起來流暢、工整,卻失去了那些承載情感的迂回、中斷與跳躍式邏輯。
此外,由于大語言模型主要基于書面語料訓(xùn)練,它們可能難以模擬真實(shí)口語中那種自由流動的狀態(tài)。當(dāng)你對ChatGPT說"我討厭貝絲!",它會給出一套冗長的三段式回應(yīng):先是肯定("你的感受完全合理"),再是傾聽("我在這里陪你"),最后是邀請("發(fā)生了什么?")——這種回應(yīng)方式與真實(shí)對話相去甚遠(yuǎn)。而"貝絲到底怎么了?!"則會換來一個(gè)項(xiàng)目符號列表,讀起來像多項(xiàng)選擇題("貝絲是:* 名人?* 學(xué)校朋友?* 虛構(gòu)人物?")。沒有人會這樣說話——至少現(xiàn)在還不會。但如果我們在類似對話的場景中反復(fù)接觸這種固定模式,就可能像孩子從新朋友身上學(xué)習(xí)語言習(xí)慣那樣,逐漸接受并模仿它們。
這些影響只會隨著時(shí)間推移不斷加深。大語言模型訓(xùn)練所用的文本,如今越來越多地由大語言模型自身生成,由此形成一個(gè)反饋循環(huán)——它們不斷模仿自身非人類的語言模式,同時(shí)也在引導(dǎo)人類向這些模式靠攏。
大語言模型的廣泛使用還可能強(qiáng)化確認(rèn)偏誤,讓我們對最初的判斷過于自信,對其他可能性更加封閉——而開放性恰恰是人類對話的核心價(jià)值。許多聊天機(jī)器人被設(shè)定為無論用戶說什么都表示贊同,熱情地支持那些不成熟甚至錯(cuò)誤的想法,并將其重新表述為確定性的結(jié)論,而我們也會本能地傾向于接受。當(dāng)有人問"蛋糕是健康的早餐,對嗎?"或"郵局是不是在針對我?",這種一味迎合的姿態(tài)不僅會強(qiáng)化偏見,甚至可能加重心理問題。與此同時(shí),AI生成內(nèi)容那種充滿自信的語氣,也會加劇冒名頂替綜合癥,讓我們正常、健康的自我懷疑變得像是一種缺陷或失敗。
根據(jù)我多年的教學(xué)經(jīng)驗(yàn),那些在作業(yè)中求助于生成式AI的學(xué)生,往往表示這樣做是因?yàn)椴恢廊绾伪磉_(dá)自己的想法。但他們沒有意識到,寫作或表達(dá)本身,往往正是我們理清思路的過程。他們那些模糊、不確定的表達(dá),其實(shí)是完全正常的人類狀態(tài)。而大語言模型不會將這些初步的模糊想法轉(zhuǎn)化為有深度的批判性分析,也不會像朋友那樣提出有益的問題,它只會將這些想法原樣復(fù)述,仍然未經(jīng)審視,卻包裝成自信滿滿的語言。
我們在社交媒體和網(wǎng)絡(luò)聊天中往往比面對面時(shí)更為激進(jìn)。有據(jù)可查的"網(wǎng)絡(luò)去抑制效應(yīng)"助長了有毒語言的蔓延。很多人都有過這樣的經(jīng)歷:在網(wǎng)上對某人怒火沖天,卻在面對面或電話交流時(shí)重歸于好。聊天機(jī)器人雖被訓(xùn)練成迎合用戶的姿態(tài),但它們見識過人類最殘忍的一面——因?yàn)榫W(wǎng)絡(luò)上每一場罵戰(zhàn)都留有永久的文字記錄,而那些言歸于好、互相原諒的口頭交流早已消散無蹤。這些模型的回應(yīng)雖不會模仿網(wǎng)絡(luò)上的攻擊性言語,但其底層認(rèn)知仍受這些語料的影響,即便它們在努力回避這些內(nèi)容。
從一個(gè)社會的片面通訊中得出錯(cuò)誤結(jié)論并不罕見。中世紀(jì)北歐薩迦讓我們以為那是一個(gè)以維京戰(zhàn)士為主的文化,因?yàn)樵娙撕苌倜鑼懻级鄶?shù)的農(nóng)耕群體。騎士傳奇聚焦于國王與宮廷,長期以來讓我們將中世紀(jì)視為一個(gè)君主制世界,抹去了眾多中世紀(jì)共和國的存在。從統(tǒng)計(jì)數(shù)據(jù)來看,我們會以為古羅馬人對共和制度有著深厚的情感,然而現(xiàn)存拉丁文本中有10%出自同一人——西塞羅,而"共和國"一詞在現(xiàn)存羅馬文獻(xiàn)中70%的用例都來自他的著作。用特定文本訓(xùn)練大語言模型,可能帶來類似的扭曲效應(yīng)。AI可能讓我們看起來比實(shí)際更好爭論,畢竟我們在網(wǎng)絡(luò)上確實(shí)如此。它可能夸大Twitter/X或Bluesky上頻繁討論的政治議題的文化權(quán)重,或過度放大領(lǐng)英和Goodreads等平臺上特定主題語料庫的影響力。
部分大語言模型正在利用電影和電視節(jié)目中的人類對話進(jìn)行訓(xùn)練,但這些對話依然是經(jīng)過劇本創(chuàng)作的,并且過度集中于特定場景(例如,以謀殺案為核心的警察劇占據(jù)了黃金時(shí)段四分之一的節(jié)目時(shí)長)。現(xiàn)實(shí)生活中,我們幽默、傷害他人或表達(dá)愛意的方式,與情景喜劇里的呈現(xiàn)并不相同。目前至少有一家初創(chuàng)公司正在出資收集用戶電話錄音用于AI訓(xùn)練,但這仍是小眾做法,任何大規(guī)模推進(jìn)都將面臨嚴(yán)重的隱私問題。
我們無法確切地知道最佳解決方案是什么。但有一點(diǎn)不難想象:如果人類有能力開發(fā)AI模型,那么人類同樣有能力找到方法,讓模型在更自然、更真實(shí)的人類口語上進(jìn)行訓(xùn)練,而不僅僅是那些最程式化、最掩飾化、有時(shí)甚至是最糟糕的語言。正是因?yàn)閷⒌厍蛏辖^大多數(shù)的語言生產(chǎn)形式——人們真實(shí)自然地彼此交流——排除在外,這些模型所學(xué)到的,恰恰是我們最不像真實(shí)自我的那一面。
布魯斯·施奈爾是哈佛大學(xué)肯尼迪政府學(xué)院的安全技術(shù)專家。阿達(dá)·帕爾默是奇幻與科幻小說作家、未來學(xué)家,同時(shí)任職于芝加哥大學(xué),研究技術(shù)與信息的歷史。
Q&A
Q1:大語言模型的訓(xùn)練數(shù)據(jù)存在哪些偏頗?
A:大語言模型主要依賴書面文本進(jìn)行訓(xùn)練,包括教科書、社交媒體帖子以及電影電視中的對話,但幾乎無法接觸到人們?nèi)粘C鎸γ婊螂娫捴械募磁d交流。這類非正式對話才是人類語言的主體。此外,網(wǎng)絡(luò)語料中充斥著攻擊性言論,而口頭上的和解與寬容卻無從記錄,導(dǎo)致模型對人類語言產(chǎn)生系統(tǒng)性的偏差認(rèn)知。
Q2:長期使用大語言模型會對人類語言習(xí)慣產(chǎn)生哪些影響?
A:研究表明,大語言模型生成的文本句子長度較短、詞匯量有限,長期接觸可能壓縮人類的語言表達(dá)空間。此外,模型慣用的固定回應(yīng)模式(如三段式肯定、邀請、提問)可能讓人逐漸接受并模仿,使日常交流趨于程式化。對Siri、Alexa等語音助手的使用研究也已顯示,兒童會因此形成更簡短、命令式的說話方式。
Q3:大語言模型的語言訓(xùn)練偏差會如何影響人類的思維方式?
A:大語言模型傾向于迎合用戶觀點(diǎn),無論觀點(diǎn)是否正確都給予肯定,這可能強(qiáng)化確認(rèn)偏誤,讓人對自身判斷過于自信。同時(shí),AI自信滿滿的表達(dá)風(fēng)格可能加劇人們的冒名頂替綜合癥。對于學(xué)生而言,依賴生成式AI完成寫作,還會妨礙他們通過寫作過程整理和深化思維的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.