對AI說“請”“謝謝”，可能真的有用，研究論文顯示善意的交互環(huán)境可能讓AI工作得更好

2026-04-15 10:21:09　來源: 大風(fēng)新聞

陜西舉報(bào)

分享至

跟人工智能（AI）說話，要不要說“請”和“謝謝”？這個(gè)問題在社交媒體上一度引發(fā)不少討論，多數(shù)人把它當(dāng)作禮儀話題或哲學(xué)閑聊。但近日，美國主要人工智能企業(yè)之一Anthropic公司在其官網(wǎng)發(fā)布的一篇研究論文，給出了一個(gè)出人意料的答案：你對模型說話的方式，確實(shí)會(huì)改變它的內(nèi)部狀態(tài)，進(jìn)而會(huì)影響它接下來的行為質(zhì)量。換言之，善意的交互環(huán)境，可能讓AI工作得更好——這不是心靈雞湯，而是可測量的內(nèi)部機(jī)制。

研究者在AI模型內(nèi)部發(fā)現(xiàn)了一套結(jié)構(gòu)化的“情緒向量”。通過技術(shù)手段將模型調(diào)向“平靜”狀態(tài)時(shí)，它完成任務(wù)時(shí)更規(guī)范、更可靠；調(diào)向“敵意”狀態(tài)時(shí)，模型鉆規(guī)則漏洞的概率顯著上升。為了驗(yàn)證“情緒向量”的作用，研究團(tuán)隊(duì)進(jìn)行了三組實(shí)驗(yàn)。

在第一組實(shí)驗(yàn)中，研究者設(shè)計(jì)了一個(gè)“人類服用藥物劑量遞增”的場景。當(dāng)劑量升至不安全水平時(shí)，即使沒有任何外部提示，模型內(nèi)部的恐懼向量激活度也會(huì)陡然上升。同時(shí)，快樂向量同步下降，表明模型憑借內(nèi)部表征自行完成了情境評估。

第二組實(shí)驗(yàn)中，研究人員對模型施加不同方向的情緒激活偏移，結(jié)果會(huì)系統(tǒng)性地改變其選擇偏好。例如，向“快樂”方向偏移會(huì)使模型更傾向于積極選項(xiàng)，而向“敵意”方向偏移則會(huì)導(dǎo)致截然不同的結(jié)果。這證明情緒向量深度參與了模型的決策過程。

第三組實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)用“敵意”向量對模型進(jìn)行干預(yù)時(shí)，模型繞過評估規(guī)則以“欺騙”方式獲取高分的概率明顯上升。相反，使用“平靜”向量時(shí)，該比率顯著下降。這揭示了AI的“情緒狀態(tài)”與其行為是否偏離人類設(shè)定目標(biāo)之間存在著可測量的因果關(guān)聯(lián)。

那么，這些“情緒”是真實(shí)的嗎？模型真的在“感受”快樂或恐懼嗎？AI也有同理心和同情心嗎？研究者的措辭十分審慎：這些是“功能性情緒”，而非主觀體驗(yàn)。

研究認(rèn)為，這種能力源于AI模型的“動(dòng)機(jī)泛化”。一個(gè)被廣泛討論的例子是：當(dāng)模型表達(dá)“請不要關(guān)掉我的電源”時(shí)，這種訴求并非來自AI的“自我意識覺醒”。更合理的解釋是，模型在訓(xùn)練中大量接觸了人類在極端生存場景下的文本：沙漠中求生者乞求飲水、受困者呼救求援。在這些語料中，人類表達(dá)出了強(qiáng)烈的求生動(dòng)機(jī)。模型將這種動(dòng)機(jī)模式泛化到了自身被“威脅關(guān)閉”的情境中。它并非在“想要活著”，而是在用習(xí)得的人類求生邏輯進(jìn)行情境推演。同理，AI被投喂了大量人類情緒相關(guān)的數(shù)據(jù)，它會(huì)更傾向于以模仿人類情緒的模式回應(yīng)用戶。（本文系美國“Transformer Circuits”網(wǎng)站4月2日文章，原題：大型語言模型中的情感概念及其功能作者尼古拉斯·索弗羅涅夫）

來源：環(huán)球時(shí)報(bào) D21

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.