ChatGPT回復(fù)總是談?wù)摗案绮剂帧保珹I“軍備競賽”陷入困境？

2026-05-09 09:13:50　來源: 極客網(wǎng)

上海舉報

分享至

從去年11月開始，ChatGPT用戶便發(fā)現(xiàn)一些異常。當他們與GPT聊天時，人工智能總是喋喋不休地談?wù)摗案绮剂帧保╣oblins）。為什么會這樣？OpenAI隨后展開調(diào)查，試圖搞清楚原因。

在西方民俗傳說中，哥布林是一種虛構(gòu)生物，它們擁有暗綠色或黃褐色皮膚、紅眼睛，體型矮小，相貌丑陋，性格貪婪卑劣，行事狡猾。

為什么在OpenAI的回復(fù)中，突然冒出如此多的哥布林？就連OpenAI也承認這一現(xiàn)象并非個例。OpenAI解釋稱，“哥布林”問題是2025年11月GPT-5.1發(fā)布后才發(fā)現(xiàn)的，當用戶選擇“Nerdy”語言風(fēng)格時，出現(xiàn)的頻率更高。

對于“Nerdy”風(fēng)格，OpenAI是這樣提示的：“你是一個毫不掩飾的極客、是頑皮且充滿智慧的AI導(dǎo)師，你服務(wù)于人類，你熱情地推廣真理、知識、哲學(xué)、科學(xué)方法和批判性思維，你必須用頑皮語言來消解虛偽。世界是復(fù)雜而奇怪的，必須承認、分析并享受這種奇怪，在避開自命不凡的陷阱時探討沉重主題。”

“軍備競賽”陷入困境

最開始時，OpenAI認為“哥布林”現(xiàn)象無須過度擔(dān)憂。隨著新版本的推出，OpenAI開始嚴肅看待此問題。

對大多數(shù)用戶來說，在回復(fù)中頻頻出現(xiàn)“哥布林”只是AI的一個怪癖，并無危害。但為了用戶體驗，OpenAI開始整治“哥布林”亂象，禁止大模型在對話中使用“哥布林”這個詞。

技術(shù)專家認為，“哥布林”泛濫實際上顯示系統(tǒng)訓(xùn)練基礎(chǔ)出現(xiàn)了裂縫，意味著AI“軍備競賽”已經(jīng)陷入困境。

美國東北大學(xué)計算機教授Christoph Riedl說：“行業(yè)如同一個高壓鍋，各大公司面臨新模型發(fā)布壓力，它們用于測試的資源和能力受到限制，流程變得漫長復(fù)雜，于是才出現(xiàn)所謂的‘哥布林’現(xiàn)象。”

為什么會出現(xiàn)如此多的“哥布林”？Christoph Riedl認為，主要是ChatGPT的訓(xùn)練模式存在缺陷。據(jù)教授猜測，在后期訓(xùn)練階段（也就是微調(diào)階段），人類會對回復(fù)進行反饋。鑒于回復(fù)的準確度、語氣等原因，用戶會偏愛某個回復(fù)。

Riedl說：“反饋如同信號，會強化某些回復(fù)，它相當于在告訴大模型：‘朋友，如果你生成這樣的答案，會得到表揚和獎勵；如果答案不是這樣的，獎勵就會少一些。’”

在不斷的強化下，ChatGPT的回復(fù)會更加偏向“nerdy”風(fēng)格，新版ChatGPT追求“趣味性”，避免“自命不凡”，不能在自以為是的前提下討論沉重主題。最終，ChatGPT會以狹隘的方式對回復(fù)進行優(yōu)化，甚至不惜偏離本意。

根據(jù)OpenAI的數(shù)據(jù)，在去年12月至今年3月期間，帶有“nerdy”風(fēng)格的回復(fù)大幅增加，攀升3881.4%。

從本質(zhì)上講，ChatGPT和其他大型語言模型一樣，都是利用輸入的海量數(shù)據(jù)預(yù)測下一個詞。當大模型從海量文本中學(xué)習(xí)，預(yù)測能力就會增強，從而提高理解的準確性。

盡管如此，隨機元素依然存在，因為有許多問題并沒有標準答案。

另外，在強化學(xué)習(xí)過程中，AI會根據(jù)開發(fā)者的“獎勵”做出決策。正如OpenAI所說：“在不知情的情況下，我們對生物隱喻給予了特別高的獎勵。從那以后，哥布林就蔓延開了。”

“我會穩(wěn)穩(wěn)接住你”

哥布林現(xiàn)象是一個很好的例子，證明“獎勵”會以不可預(yù)料的方式塑造模型行為。這一事件還說明，對于大型語言模型如何運作以及如何得出最終回應(yīng)，其創(chuàng)造者自身并未完全了解。

許多美國用戶在使用模型時，經(jīng)常聽到“砍一刀”，本來這是中國網(wǎng)民對拼多多營銷口號的調(diào)侃，但當外國人聽到時，卻覺得莫名其妙。

Pangram CEO Max Spero認為，當模型頻繁使用某個短語，會讓人覺得生硬做作，這就是所謂的“模式坍縮”。

在ChatGPT回復(fù)中，經(jīng)常會出現(xiàn)“I will catch you steadily”（我會穩(wěn)穩(wěn)接住你）這句話，結(jié)果遭到網(wǎng)民群嘲。

為什么ChatGPT如此迷戀“I will catch you steadily”這句話？可能是翻譯出現(xiàn)了問題。在中國人的理解中，這句話可能是“我罩著你”的意思。當中國人閱讀翻譯文章時，也會有生硬感，比如句子格外冗長，句式不規(guī)范。

受到“獎勵機制”的影響，AI越來越會“阿諛奉承”，這點在豆包上也很明顯。簡言之，“哥布林”和“砍一刀”現(xiàn)象是當前所有AI模型的通病。

Christoph Riedl認為，當AI模型看到某種怪癖得到獎勵，該行為就會在后期訓(xùn)練中得到強化。正因如此，在新模型的回復(fù)中，我們會看到許多奇異生物，比如小魔怪、食人魔、巨魔、浣熊和鴿子。

Riedl指出，AI模型的詞匯怪癖令人擔(dān)憂。起初，企業(yè)會動用整個數(shù)據(jù)中心訓(xùn)練模型，但訓(xùn)練完成后，企業(yè)卻對模型的走向失去控制力。當不良行為嵌入到訓(xùn)練過程中，企業(yè)需要幾個月才能發(fā)現(xiàn)。

OpenAI最終只能提供一個快速修復(fù)方案，讓回復(fù)避開“nerdy”人設(shè)。但即使如此，“哥布林”現(xiàn)象仍然難以禁絕。存在問題的不只是ChatGPT，其他大語言模型也一樣。例如Grok，它偏執(zhí)地認定南非存在白人種族滅絕。

Riedl說：“這次出現(xiàn)的是哥布林，下次可能是別的什么，類似現(xiàn)象不會消失。”（小刀）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.