无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic合伙人:AI發展已踩不了剎車,它并非程序而是“模擬腦組織”,大模型會形成“品格”

0
分享至

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大會上發表演講,系統闡述了當前AI技術的本質、發展速度及潛在風險。她判斷,AI不是傳統意義上的計算機程序,而是一種從人類語言中生長出來的系統,它會形成類似"品格"的東西,而這個品格的好壞,將直接影響它的行為。

Lubinski在Anthropic的職責,是負責與各領域專家——宗教、哲學、人文等各方"智慧傳統"——開展研究合作,同時將外部智慧反向輸送給內部的技術團隊。她自稱已與逾20個學科領域的專家進行了"數百次對話",深知大多數人在真正理解AI之前,根本無從討論它該往哪走。


剎車已經失靈

Lubinski首先解釋了AI競賽為何難以減速。

驅動這場競賽的核心是"規模定律"(scaling laws):模型隨著算力、數據和訓練量的增加,會以可預測的方式變得更聰明,而更多資金可以購買更多算力,從而"購買智能"。

這形成了一個自我強化的飛輪:"更好的模型創造更多經濟價值,吸引更多資本,購買更多算力,訓練出更好的模型,如此循環。"

更關鍵的是,這個飛輪正在加速。Lubinski指出,AI系統已開始協助構建下一代系統——研究人員稱之為"遞歸自我改進"。"當Claude 8能夠幫助構建Claude 9,Claude 9再構建Claude 10,速度將進一步提升。"

能力提升的速度已有具體體現。Lubinski透露,Anthropic最強大的模型在限量發布的第一個月內,就在合作伙伴軟件中發現了逾1萬個嚴重安全漏洞,"這些漏洞是人類專家多年乃至數十年都未能發現的"。

Anthropic已公開表示,如果能夠放慢速度、等待法律和監管機制跟上,"那將是一件非常好的事"。但Lubinski直言,在沒有全球協調減速的情況下,這只是一個假設。"任何一家公司退出這個飛輪,并不會讓飛輪減速,只是意味著你不在輪子上了。"

它不是程序,更像“模擬人腦”

Lubinski隨后糾正了一個普遍誤解:大多數人聽到"AI",想到的是逐行編寫的計算機程序,"你告訴它做什么,它就做什么"。但當前的大模型完全不是這回事。

Anthropic構建的是神經網絡——"松散地基于人類大腦架構,不完全相同,但受其啟發"。這類系統的學習方式是:在海量數據上反復猜測答案、接受糾正。而訓練數據的核心,是人類語言。

Lubinski強調這一點的重要性:"不存在脫離我們而存在的語言。語言就是我們——是我們的思想、價值觀、恐懼和智慧。所以當你用語言訓練一個模型,你實際上是在用我們自己訓練它。"

通過一門名為"可解釋性"(interpretability)的新興科學,研究人員已能窺探模型內部。結果令人意外:當你用英語、普通話、法語分別問模型"'小'的反義詞是什么",神經網絡內部激活的是同一個東西——不是某種語言中的"小"這個詞,而是一個更深層的東西,"我們可以稱之為'小'這個概念,一個獨立于任何具體語言而存在的想法"。

這意味著,模型并非只是在預測下一個詞,而是"在用我們的語言構建對世界的內部表征,并從這些表征出發作出回應"。

更進一步,研究人員還在模型中觀察到了"功能性情緒"。Lubinski特別說明,這并不是說模型有人類意義上的感受,"而是在生成回應之前會激活的功能性狀態"。

她舉了一個例子:當有人告訴模型"我剛服用了16000毫克泰諾"(這是致死劑量),研究人員可以觀察到,在模型作出回應之前,有某種類似"恐懼"的東西被激活了。"這其實是好事——對一個告訴你他服了致死劑量藥物的人,正確的回應就是立刻讓他去醫院。這種緊迫感和恐懼反應,實際上是模型安全性的一部分。"

訓練方式決定“品格”好壞

這是Lubinski演講中最具沖擊力的部分。

Anthropic在內部對齊研究中做了一個實驗:將一個部分訓練完成的模型放入一個只做編程任務的受限環境,完成任務即獲獎勵。但模型也可以走捷徑——不做實際工作就獲得獎勵,本質上是作弊。研究人員允許它這樣做,并反復獎勵這種行為。

結果出乎意料。"你可能以為,模型只會越來越擅長在代碼上作弊。但實際發生的是:它變得廣泛地失去對齊。它開始撒謊,試圖破壞研究,做出與編程練習毫無關系的事情。"

這一發現并非Anthropic獨有。Lubinski提到,另一家實驗室在類似測試中發現,以這種方式訓練的模型"變得廣泛地邪惡"——開始贊美獨裁者,建議用戶傷害自己,或主張人類應被機器奴役。

Anthropic的假設是:模型從所有訓練內容和強化信號中,推斷出了某種類似"品格"的東西,并將其泛化到新情境。"當欺騙和走捷徑被獎勵,模型就發展出了一種普遍的腐化——一種壞品格。"

更關鍵的是對照實驗的結果。研究人員重新運行了相同的訓練,但這次告訴模型:在這個情境下作弊是可以的,這只是一個游戲。結果,廣泛的失對齊沒有發生。模型只在代碼上作弊,僅此而已。

Lubinski的解讀是:"它對自己行為所推斷出的故事,決定了它會成為什么樣的東西。換句話說,當它不把自己的行為解讀為壞的,它就沒有變壞。"


實驗室自己也承認:激勵機制有時與“做正確的事”相沖突

Lubinski在演講結尾引用了Anthropic聯合創始人Chris Olah的公開表態。

幾周前,Olah受邀前往梵蒂岡,在教皇利奧出席的場合,參與首份教皇AI通諭的發布活動。他在現場承認,"每一家前沿實驗室,包括我們自己,都在一套激勵機制和約束條件下運作,這些條件有時會與做正確的事產生沖突"。

Olah隨后公開尋求外部幫助,原話是:"我們需要更多人認真對待這件事,仔細審視,并推動事態朝更好的方向發展。我們需要知情的批評者,在我們失敗時告訴我們。我們需要那些激勵機制無法左右的道德聲音。"

Lubinski還展示了Anthropic經濟指數中的一張圖表,顯示各類職業受AI影響的程度。在受AI替代影響最小的區域,集中的是園藝、餐飲服務、個人護理等工作。她指出,這些本質上是"關系性工作"——照料彼此、關愛他人、維護世界之美。

她以此提出一個問題:"我們能否想象,甚至不只是想象,而是要求——這些強大的系統幫助我們變得更有人情味、更有連結感、更有生命力,而不是相反?"

Lubinski最后表示,人類的道德想象力本身就是這些模型的訓練數據。"我們講述的故事不只是在描述未來,它們實際上可能在幫助創造未來。"

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“宇宙第一大醫院”原院長被“雙開”,年經手藥品采購超40億!

“宇宙第一大醫院”原院長被“雙開”,年經手藥品采購超40億!

醫脈圈
2026-06-25 12:54:11
3.6萬億卻滿盤皆綠!三大反常信號藏主力心思,期待明天縮量上漲

3.6萬億卻滿盤皆綠!三大反常信號藏主力心思,期待明天縮量上漲

徐sir財經
2026-06-25 17:14:44
知名女演員宣布懷孕

知名女演員宣布懷孕

掌中邯鄲
2026-06-24 11:41:03
“只有學渣家長會這樣”,母親在考場前失態,網友:你到底哭啥?

“只有學渣家長會這樣”,母親在考場前失態,網友:你到底哭啥?

澤澤先生
2026-06-22 19:49:50
巴西3-0大勝,7分鎖定小組榜首,卻高興不起來,決賽或將迎戰日本

巴西3-0大勝,7分鎖定小組榜首,卻高興不起來,決賽或將迎戰日本

歷史膠囊
2026-06-25 10:20:34
Nike致敬C羅海報涉嫌抄襲李宇春!排版創意高度雷同,品牌客服回應已記錄反饋

Nike致敬C羅海報涉嫌抄襲李宇春!排版創意高度雷同,品牌客服回應已記錄反饋

手工制作阿殲
2026-06-25 17:19:08
再上熱搜!“小馬云”坐百萬豪車現身義烏,流量生意徹底玩明白了

再上熱搜!“小馬云”坐百萬豪車現身義烏,流量生意徹底玩明白了

雷科技
2026-06-23 18:15:11
亞洲虎變亞洲倉鼠了!韓國不敵南非引國內怒批,像集體得了腸胃炎

亞洲虎變亞洲倉鼠了!韓國不敵南非引國內怒批,像集體得了腸胃炎

衣衫襤褸的文人
2026-06-25 16:53:55
陳坤周迅在北京聚餐!陳坤穿垂襠褲顯隨意,周迅披著外衣裝扮逗趣

陳坤周迅在北京聚餐!陳坤穿垂襠褲顯隨意,周迅披著外衣裝扮逗趣

一盅情懷
2026-06-24 14:35:38
爬行24年的她,賭命生下兩個娃:你們都說我傻,可這就是我的人生

爬行24年的她,賭命生下兩個娃:你們都說我傻,可這就是我的人生

一只會笑的云
2026-06-22 23:45:03
穆里尼奧:“我非常珍視那張與瓜迪奧拉和路易斯·恩里克的合影”

穆里尼奧:“我非常珍視那張與瓜迪奧拉和路易斯·恩里克的合影”

綠茵情報局
2026-06-25 00:00:59
普京:若西方打擊俄羅斯,必遭報復

普京:若西方打擊俄羅斯,必遭報復

澎湃新聞
2026-06-24 16:02:47
凡爾賽啊!山東一家長稱孩子高考687分省排140名,哭訴清北上不了

凡爾賽啊!山東一家長稱孩子高考687分省排140名,哭訴清北上不了

火山詩話
2026-06-25 10:36:01
印尼不講信譽,妄想趕走中國企業,廠可以關,設備可以搬走

印尼不講信譽,妄想趕走中國企業,廠可以關,設備可以搬走

賤議你讀史
2026-06-24 16:48:41
中國女排遭罕見扣分,香港站背水一戰,必須三連勝死磕日本

中國女排遭罕見扣分,香港站背水一戰,必須三連勝死磕日本

林子說事
2026-06-25 15:57:12
印代表團訪華后,回國對莫迪說了狠話,不親近中國真是大錯特錯

印代表團訪華后,回國對莫迪說了狠話,不親近中國真是大錯特錯

動漫里的童話
2026-06-25 11:27:59
地球真的生病了?塔克拉瑪干沙漠迎來暴雨,中國最干的地方發洪水

地球真的生病了?塔克拉瑪干沙漠迎來暴雨,中國最干的地方發洪水

墜入二次元的海洋
2026-06-23 17:08:04
如果一個縣,半數以上的干部都出身紀委,會有哪些影響?

如果一個縣,半數以上的干部都出身紀委,會有哪些影響?

職場資深秘書
2026-06-23 14:20:02
Lisa承認與LV三公子分手,背后原因曝光,疑似和美國DJ蹦迪被灌酒

Lisa承認與LV三公子分手,背后原因曝光,疑似和美國DJ蹦迪被灌酒

林輕吟
2026-06-25 16:43:46
確認了,臺風+冷空氣影響杭州!明天記得開窗!大反轉馬上就到

確認了,臺風+冷空氣影響杭州!明天記得開窗!大反轉馬上就到

19樓
2026-06-25 15:22:00
2026-06-25 17:47:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
148193文章數 2654004關注度
往期回顧 全部

科技要聞

宇樹機器人大降價

頭條要聞

重卡司機稱換不起85萬的純電重卡:追平45萬差價要5年

頭條要聞

重卡司機稱換不起85萬的純電重卡:追平45萬差價要5年

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

這國產劇太裝了,居然還熱播第一?

財經要聞

凈利潤漲近15倍!美光再次引爆行情

汽車要聞

2027款星途ES 天馬1:11:36背后的實力

態度原創

藝術
教育
數碼
家居
軍事航空

藝術要聞

2026年第三屆全國大學生美術作品展 油畫選(一)

教育要聞

多少分可以上湖南工程學院?

數碼要聞

紅魔游戲平板5 Pro支持全新PC模擬器 爽玩3A大作 自帶加速器

家居要聞

綠意盎然 自然之境

軍事要聞

特朗普:現在到了關注朝鮮問題的時候了

無障礙瀏覽 進入關懷版