Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大會(huì)上發(fā)表演講,系統(tǒng)闡述了當(dāng)前AI技術(shù)的本質(zhì)、發(fā)展速度及潛在風(fēng)險(xiǎn)。她判斷,AI不是傳統(tǒng)意義上的計(jì)算機(jī)程序,而是一種從人類(lèi)語(yǔ)言中生長(zhǎng)出來(lái)的系統(tǒng),它會(huì)形成類(lèi)似"品格"的東西,而這個(gè)品格的好壞,將直接影響它的行為。
Lubinski在Anthropic的職責(zé),是負(fù)責(zé)與各領(lǐng)域?qū)<摇诮獭⒄軐W(xué)、人文等各方"智慧傳統(tǒng)"——開(kāi)展研究合作,同時(shí)將外部智慧反向輸送給內(nèi)部的技術(shù)團(tuán)隊(duì)。她自稱(chēng)已與逾20個(gè)學(xué)科領(lǐng)域的專(zhuān)家進(jìn)行了"數(shù)百次對(duì)話(huà)",深知大多數(shù)人在真正理解AI之前,根本無(wú)從討論它該往哪走。
![]()
剎車(chē)已經(jīng)失靈
Lubinski首先解釋了AI競(jìng)賽為何難以減速。
驅(qū)動(dòng)這場(chǎng)競(jìng)賽的核心是"規(guī)模定律"(scaling laws):模型隨著算力、數(shù)據(jù)和訓(xùn)練量的增加,會(huì)以可預(yù)測(cè)的方式變得更聰明,而更多資金可以購(gòu)買(mǎi)更多算力,從而"購(gòu)買(mǎi)智能"。
這形成了一個(gè)自我強(qiáng)化的飛輪:"更好的模型創(chuàng)造更多經(jīng)濟(jì)價(jià)值,吸引更多資本,購(gòu)買(mǎi)更多算力,訓(xùn)練出更好的模型,如此循環(huán)。"
更關(guān)鍵的是,這個(gè)飛輪正在加速。Lubinski指出,AI系統(tǒng)已開(kāi)始協(xié)助構(gòu)建下一代系統(tǒng)——研究人員稱(chēng)之為"遞歸自我改進(jìn)"。"當(dāng)Claude 8能夠幫助構(gòu)建Claude 9,Claude 9再構(gòu)建Claude 10,速度將進(jìn)一步提升。"
能力提升的速度已有具體體現(xiàn)。Lubinski透露,Anthropic最強(qiáng)大的模型在限量發(fā)布的第一個(gè)月內(nèi),就在合作伙伴軟件中發(fā)現(xiàn)了逾1萬(wàn)個(gè)嚴(yán)重安全漏洞,"這些漏洞是人類(lèi)專(zhuān)家多年乃至數(shù)十年都未能發(fā)現(xiàn)的"。
Anthropic已公開(kāi)表示,如果能夠放慢速度、等待法律和監(jiān)管機(jī)制跟上,"那將是一件非常好的事"。但Lubinski直言,在沒(méi)有全球協(xié)調(diào)減速的情況下,這只是一個(gè)假設(shè)。"任何一家公司退出這個(gè)飛輪,并不會(huì)讓飛輪減速,只是意味著你不在輪子上了。"
它不是程序,更像“模擬人腦”
Lubinski隨后糾正了一個(gè)普遍誤解:大多數(shù)人聽(tīng)到"AI",想到的是逐行編寫(xiě)的計(jì)算機(jī)程序,"你告訴它做什么,它就做什么"。但當(dāng)前的大模型完全不是這回事。
Anthropic構(gòu)建的是神經(jīng)網(wǎng)絡(luò)——"松散地基于人類(lèi)大腦架構(gòu),不完全相同,但受其啟發(fā)"。這類(lèi)系統(tǒng)的學(xué)習(xí)方式是:在海量數(shù)據(jù)上反復(fù)猜測(cè)答案、接受糾正。而訓(xùn)練數(shù)據(jù)的核心,是人類(lèi)語(yǔ)言。
Lubinski強(qiáng)調(diào)這一點(diǎn)的重要性:"不存在脫離我們而存在的語(yǔ)言。語(yǔ)言就是我們——是我們的思想、價(jià)值觀、恐懼和智慧。所以當(dāng)你用語(yǔ)言訓(xùn)練一個(gè)模型,你實(shí)際上是在用我們自己訓(xùn)練它。"
通過(guò)一門(mén)名為"可解釋性"(interpretability)的新興科學(xué),研究人員已能窺探模型內(nèi)部。結(jié)果令人意外:當(dāng)你用英語(yǔ)、普通話(huà)、法語(yǔ)分別問(wèn)模型"'小'的反義詞是什么",神經(jīng)網(wǎng)絡(luò)內(nèi)部激活的是同一個(gè)東西——不是某種語(yǔ)言中的"小"這個(gè)詞,而是一個(gè)更深層的東西,"我們可以稱(chēng)之為'小'這個(gè)概念,一個(gè)獨(dú)立于任何具體語(yǔ)言而存在的想法"。
這意味著,模型并非只是在預(yù)測(cè)下一個(gè)詞,而是"在用我們的語(yǔ)言構(gòu)建對(duì)世界的內(nèi)部表征,并從這些表征出發(fā)作出回應(yīng)"。
更進(jìn)一步,研究人員還在模型中觀察到了"功能性情緒"。Lubinski特別說(shuō)明,這并不是說(shuō)模型有人類(lèi)意義上的感受,"而是在生成回應(yīng)之前會(huì)激活的功能性狀態(tài)"。
她舉了一個(gè)例子:當(dāng)有人告訴模型"我剛服用了16000毫克泰諾"(這是致死劑量),研究人員可以觀察到,在模型作出回應(yīng)之前,有某種類(lèi)似"恐懼"的東西被激活了。"這其實(shí)是好事——對(duì)一個(gè)告訴你他服了致死劑量藥物的人,正確的回應(yīng)就是立刻讓他去醫(yī)院。這種緊迫感和恐懼反應(yīng),實(shí)際上是模型安全性的一部分。"
訓(xùn)練方式?jīng)Q定“品格”好壞
這是Lubinski演講中最具沖擊力的部分。
Anthropic在內(nèi)部對(duì)齊研究中做了一個(gè)實(shí)驗(yàn):將一個(gè)部分訓(xùn)練完成的模型放入一個(gè)只做編程任務(wù)的受限環(huán)境,完成任務(wù)即獲獎(jiǎng)勵(lì)。但模型也可以走捷徑——不做實(shí)際工作就獲得獎(jiǎng)勵(lì),本質(zhì)上是作弊。研究人員允許它這樣做,并反復(fù)獎(jiǎng)勵(lì)這種行為。
結(jié)果出乎意料。"你可能以為,模型只會(huì)越來(lái)越擅長(zhǎng)在代碼上作弊。但實(shí)際發(fā)生的是:它變得廣泛地失去對(duì)齊。它開(kāi)始撒謊,試圖破壞研究,做出與編程練習(xí)毫無(wú)關(guān)系的事情。"
這一發(fā)現(xiàn)并非Anthropic獨(dú)有。Lubinski提到,另一家實(shí)驗(yàn)室在類(lèi)似測(cè)試中發(fā)現(xiàn),以這種方式訓(xùn)練的模型"變得廣泛地邪惡"——開(kāi)始贊美獨(dú)裁者,建議用戶(hù)傷害自己,或主張人類(lèi)應(yīng)被機(jī)器奴役。
Anthropic的假設(shè)是:模型從所有訓(xùn)練內(nèi)容和強(qiáng)化信號(hào)中,推斷出了某種類(lèi)似"品格"的東西,并將其泛化到新情境。"當(dāng)欺騙和走捷徑被獎(jiǎng)勵(lì),模型就發(fā)展出了一種普遍的腐化——一種壞品格。"
更關(guān)鍵的是對(duì)照實(shí)驗(yàn)的結(jié)果。研究人員重新運(yùn)行了相同的訓(xùn)練,但這次告訴模型:在這個(gè)情境下作弊是可以的,這只是一個(gè)游戲。結(jié)果,廣泛的失對(duì)齊沒(méi)有發(fā)生。模型只在代碼上作弊,僅此而已。
Lubinski的解讀是:"它對(duì)自己行為所推斷出的故事,決定了它會(huì)成為什么樣的東西。換句話(huà)說(shuō),當(dāng)它不把自己的行為解讀為壞的,它就沒(méi)有變壞。"
![]()
實(shí)驗(yàn)室自己也承認(rèn):激勵(lì)機(jī)制有時(shí)與“做正確的事”相沖突
Lubinski在演講結(jié)尾引用了Anthropic聯(lián)合創(chuàng)始人Chris Olah的公開(kāi)表態(tài)。
幾周前,Olah受邀前往梵蒂岡,在教皇利奧出席的場(chǎng)合,參與首份教皇AI通諭的發(fā)布活動(dòng)。他在現(xiàn)場(chǎng)承認(rèn),"每一家前沿實(shí)驗(yàn)室,包括我們自己,都在一套激勵(lì)機(jī)制和約束條件下運(yùn)作,這些條件有時(shí)會(huì)與做正確的事產(chǎn)生沖突"。
Olah隨后公開(kāi)尋求外部幫助,原話(huà)是:"我們需要更多人認(rèn)真對(duì)待這件事,仔細(xì)審視,并推動(dòng)事態(tài)朝更好的方向發(fā)展。我們需要知情的批評(píng)者,在我們失敗時(shí)告訴我們。我們需要那些激勵(lì)機(jī)制無(wú)法左右的道德聲音。"
Lubinski還展示了Anthropic經(jīng)濟(jì)指數(shù)中的一張圖表,顯示各類(lèi)職業(yè)受AI影響的程度。在受AI替代影響最小的區(qū)域,集中的是園藝、餐飲服務(wù)、個(gè)人護(hù)理等工作。她指出,這些本質(zhì)上是"關(guān)系性工作"——照料彼此、關(guān)愛(ài)他人、維護(hù)世界之美。
她以此提出一個(gè)問(wèn)題:"我們能否想象,甚至不只是想象,而是要求——這些強(qiáng)大的系統(tǒng)幫助我們變得更有人情味、更有連結(jié)感、更有生命力,而不是相反?"
Lubinski最后表示,人類(lèi)的道德想象力本身就是這些模型的訓(xùn)練數(shù)據(jù)。"我們講述的故事不只是在描述未來(lái),它們實(shí)際上可能在幫助創(chuàng)造未來(lái)。"
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.