人機對齊？不，是人正在向機器對齊

2026-05-19 12:54:39　來源: 中科院物理所

北京舉報

分享至

全球頂尖 AI實驗室正傾注巨資，試圖讓人工智能的目標與人類價值觀保持一致。這項工作被稱為對齊。然而，就在工程師、哲學家們與模型的“內(nèi)在倔強”角力的同時，相關(guān)研究顯示，人類自身正在不知不覺地向AI靠攏，調(diào)整自己的思維、語言，乃至判斷方式。

“當我們試圖讓AI對齊人類時，人類也在被AI重塑，這種雙向?qū)R的復(fù)雜性，遠超我們最初的想象。”

——Iason Gabriel，谷歌DeepMind倫理研究負責人

人類的工作模式首當其沖。AI普及后，人類的工作時長不僅沒有減少，反而有較大提升，同時周末工作的現(xiàn)象也更多。美國ActivTrak生產(chǎn)率實驗室發(fā)布的《2026年工作狀態(tài)報告》顯示，隨著AI的加速普及，職場人日常工作的強度、密度和速度都變得更高，工作負擔沒有任何減輕，而且需要根據(jù)AI來做出調(diào)整，人機協(xié)作增加了34%，周末工作暴增了40%，但人們可以保持聚焦的時間達到三年新低[1]。

人類的語言和溝通方式，也在不自覺地向人工智能對齊。德國馬克思-普朗克人類發(fā)展研究所的研究人員矢倉大夢（Hiromu Yakura）發(fā)現(xiàn)，自從ChatGPT誕生后，他越來越多的使用“delve”（探究）這個詞，而過去研究人員也發(fā)現(xiàn)大語言模型正改變書面語的遣詞造句，因為寫作者可能需要AI來幫助潤色論文和報告。

矢倉大夢，德國馬克思-普朗克人類發(fā)展研究所博士后研究員

矢倉及其同事想知道口頭交流是否也同樣受到了影響。研究人員首先借助 ChatGPT，對數(shù)百萬頁的電子郵件、隨筆、學術(shù)文章及新聞報道進行文本改寫，使用的都是潤色文字、提升表述清晰度這類通用提示詞。隨后，他們篩選出 ChatGPT 在改寫過程中反復(fù)高頻添加的詞匯，例如 delve（深入探究）、realm（領(lǐng)域）、meticulous（細致縝密的），并將這類詞匯命名為GPT 專屬詞匯。

研究團隊接著分析了ChatGPT 問世前后，超 36 萬條 YouTube 視頻、77.1 萬期播客節(jié)目，追蹤 GPT 詞匯隨時間的使用變化。他們把 GPT 專屬詞匯與合成對照組詞匯做比對：對照組詞匯通過數(shù)學加權(quán)篩選得出，均是大模型不常使用的同義替換詞，比如 delve 的同義替代詞examine（審視）、explore（探究）。研究發(fā)現(xiàn)，這類 GPT 詞匯不僅僅出現(xiàn)在正式、有稿件腳本的視頻和播客中，也大量滲透到了日常即興的口語對話里[2]。

圖中圓點代表月度匯總使用頻次，黑色曲線為線性回歸擬合線，紅色虛線標記突變節(jié)點。陰影區(qū)域為95% 后驗預(yù)測區(qū)間。(A) 以 ChatGPT 發(fā)布時間作為突變節(jié)點時，對數(shù)頻次趨勢呈現(xiàn)顯著飆升。(B、C) 與其他備選突變節(jié)點對比后可發(fā)現(xiàn)，這種激增現(xiàn)象在其他時間點并不普遍。

同樣任職于馬克斯?普朗克人類發(fā)展研究所的該研究合著者萊文?布林克曼（Levin Brinkmann）表示：

“人工智能技術(shù)中儲存的語言模式，似乎正在反向傳導至人類的思維當中。” 換句話說，人類正反過來向人工智能“對齊”。我們用書面文本訓練人工智能，AI 再把經(jīng)過統(tǒng)計重組改寫后的文本模仿復(fù)述給我們；而我們會不自覺吸收它的語言模式，并開始下意識模仿。

矢倉表示：“在影響人類行為這件事上，AI 并非一種特殊的新技術(shù)。但它普及的速度與覆蓋規(guī)模，前所未有。”

人們說話開始變得像 ChatGPT，這件事看似無傷大雅，甚至有點滑稽，但其背后潛藏著更深層的風險。

布林克曼說：“人與人之間互相模仿本是天性，但我們并不會同等模仿身邊所有人的言行。如果我們認為某人學識淵博、身份重要，就更容易去模仿其表達方式。”

隨著越來越多人將AI 視作文化權(quán)威，人們會愈發(fā)依賴并模仿 AI，而非其他信息來源，這會壓縮語言的多樣性。

芝加哥大學社會學與數(shù)據(jù)科學教授詹姆斯?埃文斯（James A. Evans）并未參與這項研究，但他認為，追蹤并研究大語言模型對文化的影響至關(guān)重要。他表示：“在大語言模型發(fā)展的現(xiàn)階段，從詞匯使用分布入手，是理解這項技術(shù)如何改變?nèi)祟悳贤ǚ绞降恼_研究方法。隨著模型不斷成熟，未來這類詞匯特征會變得越來越難以區(qū)分。”科學家后續(xù)可能需要跳出單純的選詞，從更宏觀的語言趨勢展開研究，比如句式結(jié)構(gòu)、觀點表達方式等層面。

ChatGPT 問世僅兩年半，就已經(jīng)改變了人們的說話方式。由此來看，問題已不再是AI 是否會重塑人類文化，而是它會重塑到何等深刻的程度。

矢倉指出：“詞匯的使用頻率，會塑造我們對事物的表述方式與思辨邏輯，而這，有可能進一步改變我們的整體文化。”

而在教育領(lǐng)域，學生日益受到AI的影響。

2025年發(fā)表于《美國國家科學院院刊》（PNAS）的一項研究，以美國9-11年級的學生為研究對象，采用隨機對照實驗，將50個班級的學生分成3個組：對照組、GPT Base組（可直接提供答案）、GPT Tutor組（只引導學生思考），最后發(fā)現(xiàn)，AI工具雖然能顯著提升練習階段的表現(xiàn)，但會導致閉卷后的獨立考試成績下降17%，因為學生會對AI產(chǎn)生“對齊”和盲從，自主學習能力下降，而生成式AI存在的幻覺問題，常常給出自信卻錯誤的答案，誤導中學生的判斷[3]。

那么，為何人類會逐漸向AI對齊呢？

2025年，新加坡國立大學的研究人員在機器學習頂會ICLR（國際表征學習大會）發(fā)布研究報告《WE SHAPE AI, AND THEREAFTER AI SHAPE US》，指出AI通過“傳染”和“從眾”兩種機制，持續(xù)影響人類的認知、情感和行為，表現(xiàn)為簡化思考、固化思維、轉(zhuǎn)移判斷、同質(zhì)化等路徑改變?nèi)祟愓J知模式，通過情緒傳染、情感陪伴、情感操縱等方式，直接調(diào)控與改變?nèi)祟惽榫w狀態(tài)。而且，這種影響往往是潛移默化的。人類在感知到AI 的 “權(quán)威”“多數(shù)意見”“群體規(guī)范”后，主動調(diào)整自身認知、態(tài)度、行為，以與 AI 保持一致，尋求認同、避免沖突、降低不確定性。這是一種理性（或半理性）的社會順從[4]。

人類向AI對齊，福兮禍兮？已有研究顯示，危險真實存在。

DeepMind于2026年3月份對英國、美國、印度的10101名用戶在公共政策、金融和健康這三個AI 常用領(lǐng)域進行了一項研究，發(fā)現(xiàn)雖然人類對齊AI后被惡意操縱的范圍和程度隨地域不同而不同，但受試者的信仰可以被AI操縱增強或者反轉(zhuǎn)[5]。

而在整個社會層面，人類向機器對齊，甚至是依賴機器來行事，有可能讓人類獨立思考能力、創(chuàng)造力的退化。當人類習慣依賴AI的建議和答案，就會逐漸喪失自主判斷、自主創(chuàng)造的潛力，造成“認知投降”[6]。其次，會導致認知同質(zhì)化。“AI的算法具有趨同性，會推送相似的內(nèi)容、給出相似的建議，久而久之，人類的觀點、思維方式會變得單一，缺乏多樣性”，硅谷某視頻生成創(chuàng)業(yè)公司的技術(shù)負責人如此評價。最后，可能引發(fā)價值觀扭曲。AI的價值觀是人類賦予的，可能存在偏差或刻板印象，若人類過度向AI對齊，就可能被這些偏差的價值觀影響，出現(xiàn)道德判斷失誤等問題。例如，部分AI模型存在“性別歧視”、“種族歧視”傾向，長期使用這些模型可能會強化人類的歧視心理[7,8]。

AI對齊的探索，是人類試圖掌控AI、避免AI失控的重要努力，而人類向AI對齊的反轉(zhuǎn)，也確實存在。AI與人類的關(guān)系并非“單向塑造”，而是“雙向互動”。未來人類的核心命題是怎么把 AI 做的更強，還是怎么守住人的獨立思考、決策主權(quán)？值得深入的思考與探討。

參考文獻：

[1] ActivTrak 2026 Report: AI Boosts Work Speed, Not Savings：https://techintelpro.com/news/hr/workforce-management/activtrak-2026-report-ai-boosts-work-speed-not-savings

[2] Empirical evidence of Large Language Model’s influence on human spoken communication https://arxiv.org/html/2409.01754v1?webview_progress_bar=1&show_loading=0&push_animated=1&theme=light

[3] Generative AI without guardrails can harm learning: Evidence from high school mathematics：https://www.pnas.org/doi/10.1073/pnas.2422633122

[4] We Shape AI, and Thereafter AI Shape Us: Humans Align with AI through Social Influences：https://openreview.net/forum?id=64rCWVC78p

[5] Evaluating Language Models for Harmful Manipulation：https://arxiv.org/abs/2603.25326

[6] Shaw, S.D. & Nave, G. (2026). Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender. The Wharton School, University of Pennsylvania. SSRN

[7] Explicitly unbiased large language models still form biased
associations. https://cocosci.princeton.edu/papers/bai2025.pdf

[8] AI-generated faces influence gender stereotypes and racial homogenization. https://pmc.ncbi.nlm.nih.gov/articles/PMC12032156/pdf/41598_2025_Article_99623.pdf

來源：賽先生

編輯：辣條

轉(zhuǎn)載內(nèi)容僅代表作者觀點

不代表中科院物理所立場

如需轉(zhuǎn)載請聯(lián)系原公眾號

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.