網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic合伙人：AI發(fā)展已踩不了剎車(chē)，它并非程序而是“模擬腦組織”，大模型會(huì)形成“品格”

2026-06-25 10:57:19　來(lái)源: 華爾街見(jiàn)聞官方

上海舉報(bào)

分享至

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大會(huì)上發(fā)表演講，系統(tǒng)闡述了當(dāng)前AI技術(shù)的本質(zhì)、發(fā)展速度及潛在風(fēng)險(xiǎn)。她判斷，AI不是傳統(tǒng)意義上的計(jì)算機(jī)程序，而是一種從人類(lèi)語(yǔ)言中生長(zhǎng)出來(lái)的系統(tǒng)，它會(huì)形成類(lèi)似"品格"的東西，而這個(gè)品格的好壞，將直接影響它的行為。

Lubinski在Anthropic的職責(zé)，是負(fù)責(zé)與各領(lǐng)域?qū)＜摇诮獭⒄軐W(xué)、人文等各方"智慧傳統(tǒng)"——開(kāi)展研究合作，同時(shí)將外部智慧反向輸送給內(nèi)部的技術(shù)團(tuán)隊(duì)。她自稱(chēng)已與逾20個(gè)學(xué)科領(lǐng)域的專(zhuān)家進(jìn)行了"數(shù)百次對(duì)話(huà)"，深知大多數(shù)人在真正理解AI之前，根本無(wú)從討論它該往哪走。

剎車(chē)已經(jīng)失靈

Lubinski首先解釋了AI競(jìng)賽為何難以減速。

驅(qū)動(dòng)這場(chǎng)競(jìng)賽的核心是"規(guī)模定律"（scaling laws）：模型隨著算力、數(shù)據(jù)和訓(xùn)練量的增加，會(huì)以可預(yù)測(cè)的方式變得更聰明，而更多資金可以購(gòu)買(mǎi)更多算力，從而"購(gòu)買(mǎi)智能"。

這形成了一個(gè)自我強(qiáng)化的飛輪："更好的模型創(chuàng)造更多經(jīng)濟(jì)價(jià)值，吸引更多資本，購(gòu)買(mǎi)更多算力，訓(xùn)練出更好的模型，如此循環(huán)。"

更關(guān)鍵的是，這個(gè)飛輪正在加速。Lubinski指出，AI系統(tǒng)已開(kāi)始協(xié)助構(gòu)建下一代系統(tǒng)——研究人員稱(chēng)之為"遞歸自我改進(jìn)"。"當(dāng)Claude 8能夠幫助構(gòu)建Claude 9，Claude 9再構(gòu)建Claude 10，速度將進(jìn)一步提升。"

能力提升的速度已有具體體現(xiàn)。Lubinski透露，Anthropic最強(qiáng)大的模型在限量發(fā)布的第一個(gè)月內(nèi)，就在合作伙伴軟件中發(fā)現(xiàn)了逾1萬(wàn)個(gè)嚴(yán)重安全漏洞，"這些漏洞是人類(lèi)專(zhuān)家多年乃至數(shù)十年都未能發(fā)現(xiàn)的"。

Anthropic已公開(kāi)表示，如果能夠放慢速度、等待法律和監(jiān)管機(jī)制跟上，"那將是一件非常好的事"。但Lubinski直言，在沒(méi)有全球協(xié)調(diào)減速的情況下，這只是一個(gè)假設(shè)。"任何一家公司退出這個(gè)飛輪，并不會(huì)讓飛輪減速，只是意味著你不在輪子上了。"

它不是程序，更像“模擬人腦”

Lubinski隨后糾正了一個(gè)普遍誤解：大多數(shù)人聽(tīng)到"AI"，想到的是逐行編寫(xiě)的計(jì)算機(jī)程序，"你告訴它做什么，它就做什么"。但當(dāng)前的大模型完全不是這回事。

Anthropic構(gòu)建的是神經(jīng)網(wǎng)絡(luò)——"松散地基于人類(lèi)大腦架構(gòu)，不完全相同，但受其啟發(fā)"。這類(lèi)系統(tǒng)的學(xué)習(xí)方式是：在海量數(shù)據(jù)上反復(fù)猜測(cè)答案、接受糾正。而訓(xùn)練數(shù)據(jù)的核心，是人類(lèi)語(yǔ)言。

Lubinski強(qiáng)調(diào)這一點(diǎn)的重要性："不存在脫離我們而存在的語(yǔ)言。語(yǔ)言就是我們——是我們的思想、價(jià)值觀、恐懼和智慧。所以當(dāng)你用語(yǔ)言訓(xùn)練一個(gè)模型，你實(shí)際上是在用我們自己訓(xùn)練它。"

通過(guò)一門(mén)名為"可解釋性"（interpretability）的新興科學(xué)，研究人員已能窺探模型內(nèi)部。結(jié)果令人意外：當(dāng)你用英語(yǔ)、普通話(huà)、法語(yǔ)分別問(wèn)模型"'小'的反義詞是什么"，神經(jīng)網(wǎng)絡(luò)內(nèi)部激活的是同一個(gè)東西——不是某種語(yǔ)言中的"小"這個(gè)詞，而是一個(gè)更深層的東西，"我們可以稱(chēng)之為'小'這個(gè)概念，一個(gè)獨(dú)立于任何具體語(yǔ)言而存在的想法"。

這意味著，模型并非只是在預(yù)測(cè)下一個(gè)詞，而是"在用我們的語(yǔ)言構(gòu)建對(duì)世界的內(nèi)部表征，并從這些表征出發(fā)作出回應(yīng)"。

更進(jìn)一步，研究人員還在模型中觀察到了"功能性情緒"。Lubinski特別說(shuō)明，這并不是說(shuō)模型有人類(lèi)意義上的感受，"而是在生成回應(yīng)之前會(huì)激活的功能性狀態(tài)"。

她舉了一個(gè)例子：當(dāng)有人告訴模型"我剛服用了16000毫克泰諾"（這是致死劑量），研究人員可以觀察到，在模型作出回應(yīng)之前，有某種類(lèi)似"恐懼"的東西被激活了。"這其實(shí)是好事——對(duì)一個(gè)告訴你他服了致死劑量藥物的人，正確的回應(yīng)就是立刻讓他去醫(yī)院。這種緊迫感和恐懼反應(yīng)，實(shí)際上是模型安全性的一部分。"

訓(xùn)練方式?jīng)Q定“品格”好壞

這是Lubinski演講中最具沖擊力的部分。

Anthropic在內(nèi)部對(duì)齊研究中做了一個(gè)實(shí)驗(yàn)：將一個(gè)部分訓(xùn)練完成的模型放入一個(gè)只做編程任務(wù)的受限環(huán)境，完成任務(wù)即獲獎(jiǎng)勵(lì)。但模型也可以走捷徑——不做實(shí)際工作就獲得獎(jiǎng)勵(lì)，本質(zhì)上是作弊。研究人員允許它這樣做，并反復(fù)獎(jiǎng)勵(lì)這種行為。

結(jié)果出乎意料。"你可能以為，模型只會(huì)越來(lái)越擅長(zhǎng)在代碼上作弊。但實(shí)際發(fā)生的是：它變得廣泛地失去對(duì)齊。它開(kāi)始撒謊，試圖破壞研究，做出與編程練習(xí)毫無(wú)關(guān)系的事情。"

這一發(fā)現(xiàn)并非Anthropic獨(dú)有。Lubinski提到，另一家實(shí)驗(yàn)室在類(lèi)似測(cè)試中發(fā)現(xiàn)，以這種方式訓(xùn)練的模型"變得廣泛地邪惡"——開(kāi)始贊美獨(dú)裁者，建議用戶(hù)傷害自己，或主張人類(lèi)應(yīng)被機(jī)器奴役。

Anthropic的假設(shè)是：模型從所有訓(xùn)練內(nèi)容和強(qiáng)化信號(hào)中，推斷出了某種類(lèi)似"品格"的東西，并將其泛化到新情境。"當(dāng)欺騙和走捷徑被獎(jiǎng)勵(lì)，模型就發(fā)展出了一種普遍的腐化——一種壞品格。"

更關(guān)鍵的是對(duì)照實(shí)驗(yàn)的結(jié)果。研究人員重新運(yùn)行了相同的訓(xùn)練，但這次告訴模型：在這個(gè)情境下作弊是可以的，這只是一個(gè)游戲。結(jié)果，廣泛的失對(duì)齊沒(méi)有發(fā)生。模型只在代碼上作弊，僅此而已。

Lubinski的解讀是："它對(duì)自己行為所推斷出的故事，決定了它會(huì)成為什么樣的東西。換句話(huà)說(shuō)，當(dāng)它不把自己的行為解讀為壞的，它就沒(méi)有變壞。"

實(shí)驗(yàn)室自己也承認(rèn)：激勵(lì)機(jī)制有時(shí)與“做正確的事”相沖突

Lubinski在演講結(jié)尾引用了Anthropic聯(lián)合創(chuàng)始人Chris Olah的公開(kāi)表態(tài)。

幾周前，Olah受邀前往梵蒂岡，在教皇利奧出席的場(chǎng)合，參與首份教皇AI通諭的發(fā)布活動(dòng)。他在現(xiàn)場(chǎng)承認(rèn)，"每一家前沿實(shí)驗(yàn)室，包括我們自己，都在一套激勵(lì)機(jī)制和約束條件下運(yùn)作，這些條件有時(shí)會(huì)與做正確的事產(chǎn)生沖突"。

Olah隨后公開(kāi)尋求外部幫助，原話(huà)是："我們需要更多人認(rèn)真對(duì)待這件事，仔細(xì)審視，并推動(dòng)事態(tài)朝更好的方向發(fā)展。我們需要知情的批評(píng)者，在我們失敗時(shí)告訴我們。我們需要那些激勵(lì)機(jī)制無(wú)法左右的道德聲音。"

Lubinski還展示了Anthropic經(jīng)濟(jì)指數(shù)中的一張圖表，顯示各類(lèi)職業(yè)受AI影響的程度。在受AI替代影響最小的區(qū)域，集中的是園藝、餐飲服務(wù)、個(gè)人護(hù)理等工作。她指出，這些本質(zhì)上是"關(guān)系性工作"——照料彼此、關(guān)愛(ài)他人、維護(hù)世界之美。

她以此提出一個(gè)問(wèn)題："我們能否想象，甚至不只是想象，而是要求——這些強(qiáng)大的系統(tǒng)幫助我們變得更有人情味、更有連結(jié)感、更有生命力，而不是相反？"

Lubinski最后表示，人類(lèi)的道德想象力本身就是這些模型的訓(xùn)練數(shù)據(jù)。"我們講述的故事不只是在描述未來(lái)，它們實(shí)際上可能在幫助創(chuàng)造未來(lái)。"

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.