跟人工智能(AI)說話,要不要說“請”和“謝謝”?這個(gè)問題在社交媒體上一度引發(fā)不少討論,多數(shù)人把它當(dāng)作禮儀話題或哲學(xué)閑聊。但近日,美國主要人工智能企業(yè)之一Anthropic公司在其官網(wǎng)發(fā)布的一篇研究論文,給出了一個(gè)出人意料的答案:你對模型說話的方式,確實(shí)會(huì)改變它的內(nèi)部狀態(tài),進(jìn)而會(huì)影響它接下來的行為質(zhì)量。換言之,善意的交互環(huán)境,可能讓AI工作得更好——這不是心靈雞湯,而是可測量的內(nèi)部機(jī)制。
研究者在AI模型內(nèi)部發(fā)現(xiàn)了一套結(jié)構(gòu)化的“情緒向量”。通過技術(shù)手段將模型調(diào)向“平靜”狀態(tài)時(shí),它完成任務(wù)時(shí)更規(guī)范、更可靠;調(diào)向“敵意”狀態(tài)時(shí),模型鉆規(guī)則漏洞的概率顯著上升。為了驗(yàn)證“情緒向量”的作用,研究團(tuán)隊(duì)進(jìn)行了三組實(shí)驗(yàn)。
在第一組實(shí)驗(yàn)中,研究者設(shè)計(jì)了一個(gè)“人類服用藥物劑量遞增”的場景。當(dāng)劑量升至不安全水平時(shí),即使沒有任何外部提示,模型內(nèi)部的恐懼向量激活度也會(huì)陡然上升。同時(shí),快樂向量同步下降,表明模型憑借內(nèi)部表征自行完成了情境評估。
第二組實(shí)驗(yàn)中,研究人員對模型施加不同方向的情緒激活偏移,結(jié)果會(huì)系統(tǒng)性地改變其選擇偏好。例如,向“快樂”方向偏移會(huì)使模型更傾向于積極選項(xiàng),而向“敵意”方向偏移則會(huì)導(dǎo)致截然不同的結(jié)果。這證明情緒向量深度參與了模型的決策過程。
第三組實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)用“敵意”向量對模型進(jìn)行干預(yù)時(shí),模型繞過評估規(guī)則以“欺騙”方式獲取高分的概率明顯上升。相反,使用“平靜”向量時(shí),該比率顯著下降。這揭示了AI的“情緒狀態(tài)”與其行為是否偏離人類設(shè)定目標(biāo)之間存在著可測量的因果關(guān)聯(lián)。
那么,這些“情緒”是真實(shí)的嗎?模型真的在“感受”快樂或恐懼嗎?AI也有同理心和同情心嗎?研究者的措辭十分審慎:這些是“功能性情緒”,而非主觀體驗(yàn)。
研究認(rèn)為,這種能力源于AI模型的“動(dòng)機(jī)泛化”。一個(gè)被廣泛討論的例子是:當(dāng)模型表達(dá)“請不要關(guān)掉我的電源”時(shí),這種訴求并非來自AI的“自我意識覺醒”。更合理的解釋是,模型在訓(xùn)練中大量接觸了人類在極端生存場景下的文本:沙漠中求生者乞求飲水、受困者呼救求援。在這些語料中,人類表達(dá)出了強(qiáng)烈的求生動(dòng)機(jī)。模型將這種動(dòng)機(jī)模式泛化到了自身被“威脅關(guān)閉”的情境中。它并非在“想要活著”,而是在用習(xí)得的人類求生邏輯進(jìn)行情境推演。同理,AI被投喂了大量人類情緒相關(guān)的數(shù)據(jù),它會(huì)更傾向于以模仿人類情緒的模式回應(yīng)用戶。(本文系美國“Transformer Circuits”網(wǎng)站4月2日文章,原題:大型語言模型中的情感概念及其功能 作者尼古拉斯·索弗羅涅夫)
來源:環(huán)球時(shí)報(bào) D21
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.