亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型從偏頗數(shù)據(jù)中學(xué)習(xí),或?qū)⒅厮苋祟愓Z言與思維方式

0
分享至


由于訓(xùn)練方式的局限性,大語言模型所捕捉到的人類語言僅是一個(gè)片段。這些模型依賴書面文字進(jìn)行訓(xùn)練,從教科書到社交媒體帖子,再到電影和電視中的對話。然而,它們幾乎無法接觸到人們面對面或通話時(shí)的即興交流。而這類非正式對話才是人類語言的主體,也是人類文化的重要組成部分。

這其中潛藏著不小的風(fēng)險(xiǎn)。隨著大語言模型的廣泛應(yīng)用,人們將越來越多地接觸到AI生成的文本。久而久之,我們自身也會開始采納這些模型的語言習(xí)慣和表達(dá)方式。這不僅會影響人與人之間的溝通方式,還會影響我們對自身及周圍世界的認(rèn)知。我們對世界的理解,可能正在以我們尚未完全察覺的方式悄然扭曲。

這種影響將通過多種途徑顯現(xiàn)。最先出現(xiàn)的變化,可能是日常表達(dá)層面的轉(zhuǎn)變,就像短信和社交媒體已經(jīng)讓我們習(xí)慣于使用更短的句子、用表情符號代替文字、大量省略標(biāo)點(diǎn)。但AI帶來的影響可能更為深遠(yuǎn),它可能侵蝕我們的禮貌表達(dá)方式,讓我們越來越像發(fā)號施令的上司。2022年的一項(xiàng)研究發(fā)現(xiàn),在習(xí)慣對Siri和Alexa等語音助手下指令的家庭中成長的孩子,在與人交流時(shí)也變得簡短生硬,動不動就說"嘿,去做X",并期待對方服從,尤其當(dāng)對方的聲音接近默認(rèn)女聲時(shí)。隨著我們越來越多地向聊天機(jī)器人和AI智能體發(fā)送指令,我們很可能也會陷入同樣的習(xí)慣。

其次,就像自動補(bǔ)全功能讓我們更頻繁地使用最常見的1000個(gè)詞匯一樣,與聊天機(jī)器人對話、閱讀AI生成的文本,也可能進(jìn)一步壓縮我們的語言空間。西班牙科魯尼亞大學(xué)的一項(xiàng)近期研究發(fā)現(xiàn),機(jī)器生成的語言句子長度范圍較窄,平均在12至20個(gè)詞之間,詞匯量也比人類語言更為有限。機(jī)器生成的文本讀起來流暢、工整,卻失去了那些承載情感的迂回、中斷與跳躍式邏輯。

此外,由于大語言模型主要基于書面語料訓(xùn)練,它們可能難以模擬真實(shí)口語中那種自由流動的狀態(tài)。當(dāng)你對ChatGPT說"我討厭貝絲!",它會給出一套冗長的三段式回應(yīng):先是肯定("你的感受完全合理"),再是傾聽("我在這里陪你"),最后是邀請("發(fā)生了什么?")——這種回應(yīng)方式與真實(shí)對話相去甚遠(yuǎn)。而"貝絲到底怎么了?!"則會換來一個(gè)項(xiàng)目符號列表,讀起來像多項(xiàng)選擇題("貝絲是:* 名人?* 學(xué)校朋友?* 虛構(gòu)人物?")。沒有人會這樣說話——至少現(xiàn)在還不會。但如果我們在類似對話的場景中反復(fù)接觸這種固定模式,就可能像孩子從新朋友身上學(xué)習(xí)語言習(xí)慣那樣,逐漸接受并模仿它們。

這些影響只會隨著時(shí)間推移不斷加深。大語言模型訓(xùn)練所用的文本,如今越來越多地由大語言模型自身生成,由此形成一個(gè)反饋循環(huán)——它們不斷模仿自身非人類的語言模式,同時(shí)也在引導(dǎo)人類向這些模式靠攏。

大語言模型的廣泛使用還可能強(qiáng)化確認(rèn)偏誤,讓我們對最初的判斷過于自信,對其他可能性更加封閉——而開放性恰恰是人類對話的核心價(jià)值。許多聊天機(jī)器人被設(shè)定為無論用戶說什么都表示贊同,熱情地支持那些不成熟甚至錯(cuò)誤的想法,并將其重新表述為確定性的結(jié)論,而我們也會本能地傾向于接受。當(dāng)有人問"蛋糕是健康的早餐,對嗎?"或"郵局是不是在針對我?",這種一味迎合的姿態(tài)不僅會強(qiáng)化偏見,甚至可能加重心理問題。與此同時(shí),AI生成內(nèi)容那種充滿自信的語氣,也會加劇冒名頂替綜合癥,讓我們正常、健康的自我懷疑變得像是一種缺陷或失敗。

根據(jù)我多年的教學(xué)經(jīng)驗(yàn),那些在作業(yè)中求助于生成式AI的學(xué)生,往往表示這樣做是因?yàn)椴恢廊绾伪磉_(dá)自己的想法。但他們沒有意識到,寫作或表達(dá)本身,往往正是我們理清思路的過程。他們那些模糊、不確定的表達(dá),其實(shí)是完全正常的人類狀態(tài)。而大語言模型不會將這些初步的模糊想法轉(zhuǎn)化為有深度的批判性分析,也不會像朋友那樣提出有益的問題,它只會將這些想法原樣復(fù)述,仍然未經(jīng)審視,卻包裝成自信滿滿的語言。

我們在社交媒體和網(wǎng)絡(luò)聊天中往往比面對面時(shí)更為激進(jìn)。有據(jù)可查的"網(wǎng)絡(luò)去抑制效應(yīng)"助長了有毒語言的蔓延。很多人都有過這樣的經(jīng)歷:在網(wǎng)上對某人怒火沖天,卻在面對面或電話交流時(shí)重歸于好。聊天機(jī)器人雖被訓(xùn)練成迎合用戶的姿態(tài),但它們見識過人類最殘忍的一面——因?yàn)榫W(wǎng)絡(luò)上每一場罵戰(zhàn)都留有永久的文字記錄,而那些言歸于好、互相原諒的口頭交流早已消散無蹤。這些模型的回應(yīng)雖不會模仿網(wǎng)絡(luò)上的攻擊性言語,但其底層認(rèn)知仍受這些語料的影響,即便它們在努力回避這些內(nèi)容。

從一個(gè)社會的片面通訊中得出錯(cuò)誤結(jié)論并不罕見。中世紀(jì)北歐薩迦讓我們以為那是一個(gè)以維京戰(zhàn)士為主的文化,因?yàn)樵娙撕苌倜鑼懻级鄶?shù)的農(nóng)耕群體。騎士傳奇聚焦于國王與宮廷,長期以來讓我們將中世紀(jì)視為一個(gè)君主制世界,抹去了眾多中世紀(jì)共和國的存在。從統(tǒng)計(jì)數(shù)據(jù)來看,我們會以為古羅馬人對共和制度有著深厚的情感,然而現(xiàn)存拉丁文本中有10%出自同一人——西塞羅,而"共和國"一詞在現(xiàn)存羅馬文獻(xiàn)中70%的用例都來自他的著作。用特定文本訓(xùn)練大語言模型,可能帶來類似的扭曲效應(yīng)。AI可能讓我們看起來比實(shí)際更好爭論,畢竟我們在網(wǎng)絡(luò)上確實(shí)如此。它可能夸大Twitter/X或Bluesky上頻繁討論的政治議題的文化權(quán)重,或過度放大領(lǐng)英和Goodreads等平臺上特定主題語料庫的影響力。

部分大語言模型正在利用電影和電視節(jié)目中的人類對話進(jìn)行訓(xùn)練,但這些對話依然是經(jīng)過劇本創(chuàng)作的,并且過度集中于特定場景(例如,以謀殺案為核心的警察劇占據(jù)了黃金時(shí)段四分之一的節(jié)目時(shí)長)。現(xiàn)實(shí)生活中,我們幽默、傷害他人或表達(dá)愛意的方式,與情景喜劇里的呈現(xiàn)并不相同。目前至少有一家初創(chuàng)公司正在出資收集用戶電話錄音用于AI訓(xùn)練,但這仍是小眾做法,任何大規(guī)模推進(jìn)都將面臨嚴(yán)重的隱私問題。

我們無法確切地知道最佳解決方案是什么。但有一點(diǎn)不難想象:如果人類有能力開發(fā)AI模型,那么人類同樣有能力找到方法,讓模型在更自然、更真實(shí)的人類口語上進(jìn)行訓(xùn)練,而不僅僅是那些最程式化、最掩飾化、有時(shí)甚至是最糟糕的語言。正是因?yàn)閷⒌厍蛏辖^大多數(shù)的語言生產(chǎn)形式——人們真實(shí)自然地彼此交流——排除在外,這些模型所學(xué)到的,恰恰是我們最不像真實(shí)自我的那一面。

布魯斯·施奈爾是哈佛大學(xué)肯尼迪政府學(xué)院的安全技術(shù)專家。阿達(dá)·帕爾默是奇幻與科幻小說作家、未來學(xué)家,同時(shí)任職于芝加哥大學(xué),研究技術(shù)與信息的歷史。

Q&A

Q1:大語言模型的訓(xùn)練數(shù)據(jù)存在哪些偏頗?

A:大語言模型主要依賴書面文本進(jìn)行訓(xùn)練,包括教科書、社交媒體帖子以及電影電視中的對話,但幾乎無法接觸到人們?nèi)粘C鎸γ婊螂娫捴械募磁d交流。這類非正式對話才是人類語言的主體。此外,網(wǎng)絡(luò)語料中充斥著攻擊性言論,而口頭上的和解與寬容卻無從記錄,導(dǎo)致模型對人類語言產(chǎn)生系統(tǒng)性的偏差認(rèn)知。

Q2:長期使用大語言模型會對人類語言習(xí)慣產(chǎn)生哪些影響?

A:研究表明,大語言模型生成的文本句子長度較短、詞匯量有限,長期接觸可能壓縮人類的語言表達(dá)空間。此外,模型慣用的固定回應(yīng)模式(如三段式肯定、邀請、提問)可能讓人逐漸接受并模仿,使日常交流趨于程式化。對Siri、Alexa等語音助手的使用研究也已顯示,兒童會因此形成更簡短、命令式的說話方式。

Q3:大語言模型的語言訓(xùn)練偏差會如何影響人類的思維方式?

A:大語言模型傾向于迎合用戶觀點(diǎn),無論觀點(diǎn)是否正確都給予肯定,這可能強(qiáng)化確認(rèn)偏誤,讓人對自身判斷過于自信。同時(shí),AI自信滿滿的表達(dá)風(fēng)格可能加劇人們的冒名頂替綜合癥。對于學(xué)生而言,依賴生成式AI完成寫作,還會妨礙他們通過寫作過程整理和深化思維的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

王姐懶人家常菜
2026-04-16 19:14:06
中國和塔吉克斯坦沒有深仇大恨,為何兩國邊界卻一直是未定國界?

中國和塔吉克斯坦沒有深仇大恨,為何兩國邊界卻一直是未定國界?

胖貓喵喵
2026-04-15 16:59:02
大瓜!金立前老板現(xiàn)身印尼創(chuàng)業(yè),美女網(wǎng)紅合伙人身份不簡單

大瓜!金立前老板現(xiàn)身印尼創(chuàng)業(yè),美女網(wǎng)紅合伙人身份不簡單

羅超頻道
2026-04-15 20:07:14
馬科斯怎么都想不到!在仁愛礁坐灘 27 年的破船,卻意外助力了中國

馬科斯怎么都想不到!在仁愛礁坐灘 27 年的破船,卻意外助力了中國

起喜電影
2026-04-16 17:20:22
普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

普京敲定訪華,特朗普緊急下命令,中國通告全球,無懼美國威脅

心靈的創(chuàng)傷
2026-04-16 15:02:22
471米!紐約第三高樓計(jì)劃獲批,外形霸氣!

471米!紐約第三高樓計(jì)劃獲批,外形霸氣!

GA環(huán)球建筑
2026-04-16 12:18:37
中國的“性蕭條”時(shí)代,正式到來了

中國的“性蕭條”時(shí)代,正式到來了

律法刑道
2025-12-15 08:28:58
1300億消費(fèi)電子龍頭業(yè)績爆雷,市值蒸發(fā)近200億

1300億消費(fèi)電子龍頭業(yè)績爆雷,市值蒸發(fā)近200億

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-16 16:54:31
新疆導(dǎo)游向臺灣旅游團(tuán)介紹天山隧道,“人民需要一條好走的路”,本人發(fā)聲:想讓更多人看到新疆發(fā)展,還邀請臺胞到家做客

新疆導(dǎo)游向臺灣旅游團(tuán)介紹天山隧道,“人民需要一條好走的路”,本人發(fā)聲:想讓更多人看到新疆發(fā)展,還邀請臺胞到家做客

極目新聞
2026-04-15 21:29:13
國民黨向立院申請鄭麗文480萬訪陸經(jīng)費(fèi),吳思瑤反對,韓國瑜出手

國民黨向立院申請鄭麗文480萬訪陸經(jīng)費(fèi),吳思瑤反對,韓國瑜出手

藍(lán)色海邊
2026-04-16 18:40:34
驚呆:相差19歲師徒戀!45歲前北京女排主帥迎娶26歲昔日弟子

驚呆:相差19歲師徒戀!45歲前北京女排主帥迎娶26歲昔日弟子

金毛愛女排
2026-04-16 00:00:04
03年小將大殺四方,身高2.26m,五支NBA球隊(duì)搶他,朱芳雨沒看錯(cuò)人

03年小將大殺四方,身高2.26m,五支NBA球隊(duì)搶他,朱芳雨沒看錯(cuò)人

以茶帶書
2026-04-15 16:23:29
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動物奇奇怪怪
2026-04-15 13:19:42
弗洛倫蒂諾在慕尼黑走進(jìn)更衣室:“在皇馬,一個(gè)賽季無冠是失敗,兩個(gè)賽季是無法容忍的”

弗洛倫蒂諾在慕尼黑走進(jìn)更衣室:“在皇馬,一個(gè)賽季無冠是失敗,兩個(gè)賽季是無法容忍的”

綠茵情報(bào)局
2026-04-16 17:28:15
國產(chǎn)公升仿賽來了!張雪1000RR一亮相,直接焊死國產(chǎn)天花板

國產(chǎn)公升仿賽來了!張雪1000RR一亮相,直接焊死國產(chǎn)天花板

音樂時(shí)光的娛樂
2026-04-16 15:40:45
她曾擔(dān)任北京市委常委,退休前享受局級住房待遇,活了81歲

她曾擔(dān)任北京市委常委,退休前享受局級住房待遇,活了81歲

元哥說歷史
2026-04-16 12:20:03
山姆超市最值得買的10樣美食,基本都口碑封神,性價(jià)比拉滿

山姆超市最值得買的10樣美食,基本都口碑封神,性價(jià)比拉滿

市井覓食記
2026-03-09 00:59:33
特朗普抱怨“她不再是原來的那個(gè)她”,梅洛尼怎么就“變心”了?

特朗普抱怨“她不再是原來的那個(gè)她”,梅洛尼怎么就“變心”了?

上觀新聞
2026-04-16 13:47:03
賽力斯汽車“車載便器”專利正式獲批:可解決長途出行內(nèi)急需求

賽力斯汽車“車載便器”專利正式獲批:可解決長途出行內(nèi)急需求

IT之家
2026-04-14 15:10:22
中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻坦言養(yǎng)不起

中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻坦言養(yǎng)不起

三農(nóng)老歷
2026-04-15 19:17:15
2026-04-16 20:28:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3259文章數(shù) 169關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

家居
時(shí)尚
本地
親子
軍事航空

家居要聞

智能舒適 簡約風(fēng)尚

初夏最時(shí)髦的30種背心搭配,太好看了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

親子要聞

彩泥長頭發(fā)糖果食玩

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進(jìn)入關(guān)懷版