從去年11月開始,ChatGPT用戶便發(fā)現(xiàn)一些異常。當他們與GPT聊天時,人工智能總是喋喋不休地談?wù)摗案绮剂帧保╣oblins)。為什么會這樣?OpenAI隨后展開調(diào)查,試圖搞清楚原因。
![]()
在西方民俗傳說中,哥布林是一種虛構(gòu)生物,它們擁有暗綠色或黃褐色皮膚、紅眼睛,體型矮小,相貌丑陋,性格貪婪卑劣,行事狡猾。
為什么在OpenAI的回復(fù)中,突然冒出如此多的哥布林?就連OpenAI也承認這一現(xiàn)象并非個例。OpenAI解釋稱,“哥布林”問題是2025年11月GPT-5.1發(fā)布后才發(fā)現(xiàn)的,當用戶選擇“Nerdy”語言風(fēng)格時,出現(xiàn)的頻率更高。
對于“Nerdy”風(fēng)格,OpenAI是這樣提示的:“你是一個毫不掩飾的極客、是頑皮且充滿智慧的AI導(dǎo)師,你服務(wù)于人類,你熱情地推廣真理、知識、哲學(xué)、科學(xué)方法和批判性思維,你必須用頑皮語言來消解虛偽。世界是復(fù)雜而奇怪的,必須承認、分析并享受這種奇怪,在避開自命不凡的陷阱時探討沉重主題。”
“軍備競賽”陷入困境
最開始時,OpenAI認為“哥布林”現(xiàn)象無須過度擔(dān)憂。隨著新版本的推出,OpenAI開始嚴肅看待此問題。
對大多數(shù)用戶來說,在回復(fù)中頻頻出現(xiàn)“哥布林”只是AI的一個怪癖,并無危害。但為了用戶體驗,OpenAI開始整治“哥布林”亂象,禁止大模型在對話中使用“哥布林”這個詞。
技術(shù)專家認為,“哥布林”泛濫實際上顯示系統(tǒng)訓(xùn)練基礎(chǔ)出現(xiàn)了裂縫,意味著AI“軍備競賽”已經(jīng)陷入困境。
美國東北大學(xué)計算機教授Christoph Riedl說:“行業(yè)如同一個高壓鍋,各大公司面臨新模型發(fā)布壓力,它們用于測試的資源和能力受到限制,流程變得漫長復(fù)雜,于是才出現(xiàn)所謂的‘哥布林’現(xiàn)象。”
為什么會出現(xiàn)如此多的“哥布林”?Christoph Riedl認為,主要是ChatGPT的訓(xùn)練模式存在缺陷。據(jù)教授猜測,在后期訓(xùn)練階段(也就是微調(diào)階段),人類會對回復(fù)進行反饋。鑒于回復(fù)的準確度、語氣等原因,用戶會偏愛某個回復(fù)。
Riedl說:“反饋如同信號,會強化某些回復(fù),它相當于在告訴大模型:‘朋友,如果你生成這樣的答案,會得到表揚和獎勵;如果答案不是這樣的,獎勵就會少一些。’”
在不斷的強化下,ChatGPT的回復(fù)會更加偏向“nerdy”風(fēng)格,新版ChatGPT追求“趣味性”,避免“自命不凡”,不能在自以為是的前提下討論沉重主題。最終,ChatGPT會以狹隘的方式對回復(fù)進行優(yōu)化,甚至不惜偏離本意。
根據(jù)OpenAI的數(shù)據(jù),在去年12月至今年3月期間,帶有“nerdy”風(fēng)格的回復(fù)大幅增加,攀升3881.4%。
從本質(zhì)上講,ChatGPT和其他大型語言模型一樣,都是利用輸入的海量數(shù)據(jù)預(yù)測下一個詞。當大模型從海量文本中學(xué)習(xí),預(yù)測能力就會增強,從而提高理解的準確性。
盡管如此,隨機元素依然存在,因為有許多問題并沒有標準答案。
另外,在強化學(xué)習(xí)過程中,AI會根據(jù)開發(fā)者的“獎勵”做出決策。正如OpenAI所說:“在不知情的情況下,我們對生物隱喻給予了特別高的獎勵。從那以后,哥布林就蔓延開了。”
“我會穩(wěn)穩(wěn)接住你”
哥布林現(xiàn)象是一個很好的例子,證明“獎勵”會以不可預(yù)料的方式塑造模型行為。這一事件還說明,對于大型語言模型如何運作以及如何得出最終回應(yīng),其創(chuàng)造者自身并未完全了解。
許多美國用戶在使用模型時,經(jīng)常聽到“砍一刀”,本來這是中國網(wǎng)民對拼多多營銷口號的調(diào)侃,但當外國人聽到時,卻覺得莫名其妙。
Pangram CEO Max Spero認為,當模型頻繁使用某個短語,會讓人覺得生硬做作,這就是所謂的“模式坍縮”。
在ChatGPT回復(fù)中,經(jīng)常會出現(xiàn)“I will catch you steadily”(我會穩(wěn)穩(wěn)接住你)這句話,結(jié)果遭到網(wǎng)民群嘲。
為什么ChatGPT如此迷戀“I will catch you steadily”這句話?可能是翻譯出現(xiàn)了問題。在中國人的理解中,這句話可能是“我罩著你”的意思。當中國人閱讀翻譯文章時,也會有生硬感,比如句子格外冗長,句式不規(guī)范。
受到“獎勵機制”的影響,AI越來越會“阿諛奉承”,這點在豆包上也很明顯。簡言之,“哥布林”和“砍一刀”現(xiàn)象是當前所有AI模型的通病。
Christoph Riedl認為,當AI模型看到某種怪癖得到獎勵,該行為就會在后期訓(xùn)練中得到強化。正因如此,在新模型的回復(fù)中,我們會看到許多奇異生物,比如小魔怪、食人魔、巨魔、浣熊和鴿子。
Riedl指出,AI模型的詞匯怪癖令人擔(dān)憂。起初,企業(yè)會動用整個數(shù)據(jù)中心訓(xùn)練模型,但訓(xùn)練完成后,企業(yè)卻對模型的走向失去控制力。當不良行為嵌入到訓(xùn)練過程中,企業(yè)需要幾個月才能發(fā)現(xiàn)。
OpenAI最終只能提供一個快速修復(fù)方案,讓回復(fù)避開“nerdy”人設(shè)。但即使如此,“哥布林”現(xiàn)象仍然難以禁絕。存在問題的不只是ChatGPT,其他大語言模型也一樣。例如Grok,它偏執(zhí)地認定南非存在白人種族滅絕。
Riedl說:“這次出現(xiàn)的是哥布林,下次可能是別的什么,類似現(xiàn)象不會消失。”(小刀)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.