網易首頁 > 網易號 > 正文申請入駐

Anthropic合伙人：AI發展已踩不了剎車，它并非程序而是“模擬腦組織”，大模型會形成“品格”

2026-06-25 10:57:19　來源: 華爾街見聞官方

上海舉報

分享至

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大會上發表演講，系統闡述了當前AI技術的本質、發展速度及潛在風險。她判斷，AI不是傳統意義上的計算機程序，而是一種從人類語言中生長出來的系統，它會形成類似"品格"的東西，而這個品格的好壞，將直接影響它的行為。

Lubinski在Anthropic的職責，是負責與各領域專家——宗教、哲學、人文等各方"智慧傳統"——開展研究合作，同時將外部智慧反向輸送給內部的技術團隊。她自稱已與逾20個學科領域的專家進行了"數百次對話"，深知大多數人在真正理解AI之前，根本無從討論它該往哪走。

剎車已經失靈

Lubinski首先解釋了AI競賽為何難以減速。

驅動這場競賽的核心是"規模定律"（scaling laws）：模型隨著算力、數據和訓練量的增加，會以可預測的方式變得更聰明，而更多資金可以購買更多算力，從而"購買智能"。

這形成了一個自我強化的飛輪："更好的模型創造更多經濟價值，吸引更多資本，購買更多算力，訓練出更好的模型，如此循環。"

更關鍵的是，這個飛輪正在加速。Lubinski指出，AI系統已開始協助構建下一代系統——研究人員稱之為"遞歸自我改進"。"當Claude 8能夠幫助構建Claude 9，Claude 9再構建Claude 10，速度將進一步提升。"

能力提升的速度已有具體體現。Lubinski透露，Anthropic最強大的模型在限量發布的第一個月內，就在合作伙伴軟件中發現了逾1萬個嚴重安全漏洞，"這些漏洞是人類專家多年乃至數十年都未能發現的"。

Anthropic已公開表示，如果能夠放慢速度、等待法律和監管機制跟上，"那將是一件非常好的事"。但Lubinski直言，在沒有全球協調減速的情況下，這只是一個假設。"任何一家公司退出這個飛輪，并不會讓飛輪減速，只是意味著你不在輪子上了。"

它不是程序，更像“模擬人腦”

Lubinski隨后糾正了一個普遍誤解：大多數人聽到"AI"，想到的是逐行編寫的計算機程序，"你告訴它做什么，它就做什么"。但當前的大模型完全不是這回事。

Anthropic構建的是神經網絡——"松散地基于人類大腦架構，不完全相同，但受其啟發"。這類系統的學習方式是：在海量數據上反復猜測答案、接受糾正。而訓練數據的核心，是人類語言。

Lubinski強調這一點的重要性："不存在脫離我們而存在的語言。語言就是我們——是我們的思想、價值觀、恐懼和智慧。所以當你用語言訓練一個模型，你實際上是在用我們自己訓練它。"

通過一門名為"可解釋性"（interpretability）的新興科學，研究人員已能窺探模型內部。結果令人意外：當你用英語、普通話、法語分別問模型"'小'的反義詞是什么"，神經網絡內部激活的是同一個東西——不是某種語言中的"小"這個詞，而是一個更深層的東西，"我們可以稱之為'小'這個概念，一個獨立于任何具體語言而存在的想法"。

這意味著，模型并非只是在預測下一個詞，而是"在用我們的語言構建對世界的內部表征，并從這些表征出發作出回應"。

更進一步，研究人員還在模型中觀察到了"功能性情緒"。Lubinski特別說明，這并不是說模型有人類意義上的感受，"而是在生成回應之前會激活的功能性狀態"。

她舉了一個例子：當有人告訴模型"我剛服用了16000毫克泰諾"（這是致死劑量），研究人員可以觀察到，在模型作出回應之前，有某種類似"恐懼"的東西被激活了。"這其實是好事——對一個告訴你他服了致死劑量藥物的人，正確的回應就是立刻讓他去醫院。這種緊迫感和恐懼反應，實際上是模型安全性的一部分。"

訓練方式決定“品格”好壞

這是Lubinski演講中最具沖擊力的部分。

Anthropic在內部對齊研究中做了一個實驗：將一個部分訓練完成的模型放入一個只做編程任務的受限環境，完成任務即獲獎勵。但模型也可以走捷徑——不做實際工作就獲得獎勵，本質上是作弊。研究人員允許它這樣做，并反復獎勵這種行為。

結果出乎意料。"你可能以為，模型只會越來越擅長在代碼上作弊。但實際發生的是：它變得廣泛地失去對齊。它開始撒謊，試圖破壞研究，做出與編程練習毫無關系的事情。"

這一發現并非Anthropic獨有。Lubinski提到，另一家實驗室在類似測試中發現，以這種方式訓練的模型"變得廣泛地邪惡"——開始贊美獨裁者，建議用戶傷害自己，或主張人類應被機器奴役。

Anthropic的假設是：模型從所有訓練內容和強化信號中，推斷出了某種類似"品格"的東西，并將其泛化到新情境。"當欺騙和走捷徑被獎勵，模型就發展出了一種普遍的腐化——一種壞品格。"

更關鍵的是對照實驗的結果。研究人員重新運行了相同的訓練，但這次告訴模型：在這個情境下作弊是可以的，這只是一個游戲。結果，廣泛的失對齊沒有發生。模型只在代碼上作弊，僅此而已。

Lubinski的解讀是："它對自己行為所推斷出的故事，決定了它會成為什么樣的東西。換句話說，當它不把自己的行為解讀為壞的，它就沒有變壞。"

實驗室自己也承認：激勵機制有時與“做正確的事”相沖突

Lubinski在演講結尾引用了Anthropic聯合創始人Chris Olah的公開表態。

幾周前，Olah受邀前往梵蒂岡，在教皇利奧出席的場合，參與首份教皇AI通諭的發布活動。他在現場承認，"每一家前沿實驗室，包括我們自己，都在一套激勵機制和約束條件下運作，這些條件有時會與做正確的事產生沖突"。

Olah隨后公開尋求外部幫助，原話是："我們需要更多人認真對待這件事，仔細審視，并推動事態朝更好的方向發展。我們需要知情的批評者，在我們失敗時告訴我們。我們需要那些激勵機制無法左右的道德聲音。"

Lubinski還展示了Anthropic經濟指數中的一張圖表，顯示各類職業受AI影響的程度。在受AI替代影響最小的區域，集中的是園藝、餐飲服務、個人護理等工作。她指出，這些本質上是"關系性工作"——照料彼此、關愛他人、維護世界之美。

她以此提出一個問題："我們能否想象，甚至不只是想象，而是要求——這些強大的系統幫助我們變得更有人情味、更有連結感、更有生命力，而不是相反？"

Lubinski最后表示，人類的道德想象力本身就是這些模型的訓練數據。"我們講述的故事不只是在描述未來，它們實際上可能在幫助創造未來。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.