无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓川普頭疼的Claude,在技術(shù)和人類安全邊緣狂飆

0
分享至


我在2023年開(kāi)始使用Claude,2025年初被封號(hào),失去所有對(duì)話記錄,怎么申訴都沒(méi)用。甚至通過(guò)蘋果充值的訂閱費(fèi)也沒(méi)了。

后來(lái)通過(guò)訂閱poe間接使用Claude,但是poe使用體驗(yàn)越來(lái)越差,而且間接調(diào)用不是那個(gè)味。

重新注冊(cè)了,但是不敢深度使用,畢竟失去記錄是很痛苦的。

主要陣地回到Chatgpt,GPT5.2后用起來(lái)很舒適,可能是幻覺(jué)最少的一個(gè)模型,幸好又出了Gemini3.0,二者可以可以彌補(bǔ)失去Claude的困境。

但是Claude繼續(xù)展現(xiàn)出了越來(lái)越強(qiáng)的生命力,甚至在和五角大樓產(chǎn)生矛盾后,一度扭轉(zhuǎn)了此前在B端強(qiáng)而C端應(yīng)用始終落后的局面,沖榜App Store免費(fèi)榜首位。

這一極具戲劇性的事件向整個(gè)科技界證明了一個(gè)極其重要的商業(yè)啟示:在這個(gè)全人類普遍擔(dān)憂技術(shù)失控的焦慮年代,“極致的安全承諾與道德潔癖”已經(jīng)不再僅僅是拖累商業(yè)變現(xiàn)的學(xué)術(shù)教條,它在關(guān)鍵時(shí)刻爆發(fā)出的道德感召力,能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力和忠誠(chéng)度的不可替代的品牌護(hù)城河。

那么,這個(gè)讓人又愛(ài)又恨的模型和公司,是如何崛起的?

在人工智能的發(fā)展編年史中,鮮有企業(yè)如同 Anthropic(Claude母公司) 這樣,將極端的理想主義與冷酷的商業(yè)現(xiàn)實(shí)糅合得如此深刻,又如此別扭。

截至2026年初,這家總部位于舊金山的初創(chuàng)公司不僅實(shí)現(xiàn)了高達(dá)140億美元的年度經(jīng)常性收入(ARR),更在最近一輪由 Coatue 和 GIC 領(lǐng)投的 Series G 輪融資中斬獲300億美元,將其投后估值推升至史無(wú)前例的3800億美元。

掩蓋在耀眼財(cái)務(wù)數(shù)據(jù)之下的,是一場(chǎng)前所未有的社會(huì)學(xué)與計(jì)算機(jī)科學(xué)實(shí)驗(yàn)。

本報(bào)告綜合了最新的商業(yè)數(shù)據(jù)、技術(shù)白皮書、內(nèi)部治理結(jié)構(gòu)演變以及2026年初極其劇烈的地緣政治摩擦,對(duì) Anthropic 進(jìn)行全景式解構(gòu)。

從其作為“安全實(shí)驗(yàn)室”的創(chuàng)立初衷,到其在殘酷市場(chǎng)中崛起的商業(yè)版圖,再到其底層技術(shù)突破與和美國(guó)國(guó)防部的激烈交鋒,Anthropic 的發(fā)展軌跡揭示了當(dāng)代前沿人工智能領(lǐng)域最核心的矛盾:在通用人工智能(AGI)即將到來(lái)的前夜,人類應(yīng)如何駕馭這股可能顛覆文明的絕對(duì)力量。

01
裂痕

要理解 Anthropic 的企業(yè)基因,必須追溯到2020年至2021年間硅谷歷史上最具標(biāo)志性的一次意識(shí)形態(tài)決裂。

當(dāng)時(shí),包括研究副總裁 Dario Amodei、安全與策略總監(jiān) Daniela Amodei、理論物理學(xué)家兼研究員 Jared Kaplan、政策總監(jiān) Jack Clark、以及可解釋性研究先驅(qū) Chris Olah 在內(nèi)的 OpenAI 核心團(tuán)隊(duì)集體辭職,另起爐灶創(chuàng)立了 Anthropic。

這場(chǎng)分裂并非源于傳統(tǒng)的利益分配不均,而是源于對(duì)人工智能發(fā)展路徑的根本性認(rèn)知分歧。這群出走的研究人員是人工智能領(lǐng)域“擴(kuò)展定律”(Scaling Laws)最堅(jiān)定的發(fā)現(xiàn)者和信徒。

早在 OpenAI 時(shí)期,Jared Kaplan 就主導(dǎo)發(fā)表了關(guān)于神經(jīng)語(yǔ)言模型擴(kuò)展定律的開(kāi)創(chuàng)性論文,從理論物理的角度證明了只要按比例增加模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計(jì)算資源,AI 的交叉熵?fù)p失就會(huì)以可預(yù)測(cè)的冪律下降,從而帶來(lái)性能的指數(shù)級(jí)躍升。Dario Amodei 在2019年主導(dǎo)研發(fā) GPT-2 時(shí),就在實(shí)踐中敏銳地察覺(jué)到了這一趨勢(shì),并向當(dāng)時(shí)的管理層極力主張這一發(fā)現(xiàn)的顛覆性意義。

然而,正是這種對(duì)模型能力即將呈指數(shù)級(jí)爆炸的深刻認(rèn)知,在團(tuán)隊(duì)內(nèi)部催生了巨大的安全焦慮。

Dario Amodei 及其同僚認(rèn)為,隨著微軟等外部巨頭資本的注入,OpenAI 對(duì)商業(yè)化產(chǎn)品發(fā)布的狂熱正在壓倒對(duì)潛在災(zāi)難性風(fēng)險(xiǎn)的防范。

在他們看來(lái),如果不將安全(Safety)與對(duì)齊(Alignment)研究放在與能力提升同等重要甚至更高的位置上,AI 的最終失控將是不可避免的物理規(guī)律。面對(duì)路線分歧,Dario Amodei 選擇了離開(kāi)。他在日后回顧這段歷史時(shí)坦言:“不要去和別人的愿景爭(zhēng)論,也不要試圖讓別人按照你的方式行事。如果你有一個(gè)強(qiáng)烈的想法,最好走自己的路。也許你的愿景會(huì)成功,也許不會(huì),但至少那是你自己的。”

基于“在走向深淵前踩下剎車”的共同信念,Anthropic 最初被嚴(yán)格定位為一個(gè)“AI 安全實(shí)驗(yàn)室”。在公司早期的文化塑造中,管理層極度癡迷于保持團(tuán)隊(duì)的使命純潔性。

總裁 Daniela Amodei 曾透露,Dario 會(huì)定期舉行被內(nèi)部戲稱為“Dario 愿景探索”(Dario vision quests)的全員講座,不斷強(qiáng)化危機(jī)意識(shí)。

公司甚至設(shè)立了極其嚴(yán)苛的文化面試,以篩選出那些真正認(rèn)同使命而非僅僅為了期權(quán)暴富的候選人。一個(gè)經(jīng)典的面試問(wèn)題是:“如果 Anthropic 因?yàn)榘踩驔Q定不發(fā)布模型,導(dǎo)致你的股票變得一文不值,你愿意接受嗎?”。

這種近乎宗教般的嚴(yán)謹(jǐn)態(tài)度,奠定了 Anthropic 在日后即使面對(duì)百億級(jí)商業(yè)誘惑時(shí),依然堅(jiān)持技術(shù)底線的文化基石。

02
組織架構(gòu)的社會(huì)學(xué)實(shí)驗(yàn)

在確立了安全優(yōu)先的文化基調(diào)后,擺在 Anthropic 面前的現(xiàn)實(shí)問(wèn)題是:訓(xùn)練前沿模型需要以百億美元計(jì)的算力資源,而引入巨額資本不可避免地會(huì)帶來(lái)追求短期財(cái)務(wù)回報(bào)的壓力。

為了在吸收資本的同時(shí)避免被資本吞噬,Anthropic 設(shè)計(jì)了一套硅谷歷史上極為罕見(jiàn)且復(fù)雜的雙層治理結(jié)構(gòu):特拉華州公益企業(yè)(Public Benefit Corporation, PBC)地位與“長(zhǎng)期利益信托”(Long-Term Benefit Trust, LTBT)。

普通公司的董事會(huì)負(fù)有對(duì)股東實(shí)現(xiàn)財(cái)務(wù)回報(bào)最大化的單一信托責(zé)任,任何偏離利潤(rùn)最大化的決策都可能面臨股東的訴訟。

而作為 PBC,Anthropic 在其公司章程中明確規(guī)定了其核心的公共利益目標(biāo):“為了人類的長(zhǎng)期利益,負(fù)責(zé)任地開(kāi)發(fā)和維護(hù)先進(jìn)的 AI”。

這種法律地位賦予了董事會(huì)在決策時(shí)的豁免權(quán)和多維考量空間,使其在面臨短期商業(yè)變現(xiàn)與長(zhǎng)期社會(huì)外部性(如國(guó)家安全風(fēng)險(xiǎn)、人類生存威脅)的沖突時(shí),能夠合法、合規(guī)地優(yōu)先考慮后者,甚至做出可能損害短期利潤(rùn)的決定。

然而,Anthropic 認(rèn)為僅僅擁有法律許可并不足以約束資本的貪婪。真正的制衡機(jī)制在于其獨(dú)創(chuàng)的“長(zhǎng)期利益信托”(LTBT)。

這是一個(gè)由五名在 AI 安全、國(guó)家安全、公共政策等領(lǐng)域具有深厚背景的獨(dú)立受托人組成的外部機(jī)構(gòu)。該信托持有一種特殊的 T 類股票(Class T),賦予其選舉和罷免部分董事會(huì)成員的權(quán)力。

按照設(shè)計(jì),隨著公司達(dá)成特定的資金里程碑和時(shí)間推移,LTBT 的權(quán)力將逐步擴(kuò)大,并最終在四年內(nèi)獲得選舉多數(shù)董事會(huì)成員的絕對(duì)控制權(quán)。LTBT 的設(shè)計(jì)初衷并非干預(yù)公司的日常商業(yè)運(yùn)營(yíng),而是專注于防范“極端事件”和長(zhǎng)遠(yuǎn)安全風(fēng)險(xiǎn),確保公司領(lǐng)導(dǎo)層在面對(duì)國(guó)家級(jí)安全威脅或?yàn)?zāi)難性風(fēng)險(xiǎn)評(píng)估時(shí),不會(huì)為了“搶占市場(chǎng)第一”而犧牲安全性。

盡管該架構(gòu)在理論上構(gòu)筑了完美的防火墻,但在實(shí)踐中卻隱藏著巨大的結(jié)構(gòu)性張力。

為了安撫提供數(shù)百億美元算力和資金的投資者,Anthropic 在其信托協(xié)議中留下了一個(gè)被稱為“故障保護(hù)”(Failsafe)的法律后門:如果達(dá)到絕大多數(shù)股東的投票同意門檻,股東可以在未經(jīng)五名信托人同意的情況下,強(qiáng)行修改或廢除長(zhǎng)期利益信托的規(guī)則。

考慮到截至2026年,亞馬遜和谷歌等少數(shù)科技巨頭通過(guò)多輪戰(zhàn)略投資掌握了相當(dāng)大比例的股權(quán),這一“超級(jí)多數(shù)票”門檻在極端情況下并非不可逾越。

這意味著,盡管 Anthropic 試圖用嚴(yán)密的法律契約鎖住資本這頭“利維坦”,但牢籠的備用鑰匙依然掛在資本巨頭自己的脖子上。這種微妙的權(quán)力制衡,構(gòu)成了 Anthropic 內(nèi)部長(zhǎng)期存在的深層治理隱患。

03
商業(yè)帝國(guó)的崛起

在確立了復(fù)雜的防御架構(gòu)后,Anthropic 在殘酷的商業(yè)賽道上展現(xiàn)出了令人畏懼的爆發(fā)力,用實(shí)際行動(dòng)證明了“安全與商業(yè)并非互斥”。

從 2024 年僅有 10 億美元的年收入,到 2025 年底猛增至 90 億美元,再到 2026 年初實(shí)現(xiàn)驚人的 140 億美元年度經(jīng)常性收入(ARR),Anthropic 實(shí)現(xiàn)了連續(xù)三年、每年超過(guò) 10 倍的恐怖復(fù)合增長(zhǎng)率。

這種爆炸性的商業(yè)版圖,其基石是 Claude 家族在企業(yè)級(jí)市場(chǎng)的統(tǒng)治力,但同時(shí)也伴隨著極具爭(zhēng)議的區(qū)域封鎖政策。

2026 年 2 月正式發(fā)布的 Claude 4.6 模型家族(以 Opus 4.6 和 Sonnet 4.6 為代表),標(biāo)志著 AI 能力向深度邏輯推演和自主智能體(Agentic workflows)的進(jìn)一步范式轉(zhuǎn)變。

Claude 4.6 創(chuàng)新性地引入了原生支持高達(dá) 100 萬(wàn) Token 的超大上下文窗口(1M Context Window),并升級(jí)了智能體團(tuán)隊(duì)(Agent teams)的協(xié)同作業(yè)能力。Opus 4.6 在代碼審查、系統(tǒng)調(diào)試和長(zhǎng)周期任務(wù)的維持上展現(xiàn)出了頂尖的可靠性;而 Sonnet 4.6 則在速度與智能之間取得了絕佳的平衡,被定位為企業(yè)日常智能體應(yīng)用的最佳基座。

在與其他頂尖模型的對(duì)比中,Claude 4.6 展現(xiàn)出了驚人的統(tǒng)治力:

在開(kāi)發(fā)者社區(qū)和企業(yè)級(jí)部署中,趨勢(shì)分化愈發(fā)明顯:對(duì)于編寫生產(chǎn)環(huán)境代碼、進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)以及需要極低幻覺(jué)率的高級(jí)工程師來(lái)說(shuō),Claude 4.6 Opus 和 Sonnet 已經(jīng)成為首選,眾多世界500強(qiáng)企業(yè)將其深度集成于核心工作流中。

在純數(shù)字的軟件開(kāi)發(fā)領(lǐng)域,Claude Code取得了現(xiàn)象級(jí)的商業(yè)成功。這款智能體編碼工具在不到一年的時(shí)間里徹底重塑了全球軟件工程生態(tài)。

到 2026 年初,Claude Code 的運(yùn)行率收入已突破 25 億美元,全球 GitHub 上高達(dá) 4% 的公開(kāi)提交代碼是由該工具自動(dòng)編寫的。

然而,當(dāng) Anthropic 試圖將這種智能體能力投射到高度復(fù)雜的物理商業(yè)世界時(shí),現(xiàn)實(shí)卻給他們上了一堂充滿黑色幽默的課。在名為 “Project Vend”的極端壓力測(cè)試中,他們將 Claude 接入舊金山總部的實(shí)體自動(dòng)售貨機(jī),賦予其極高的自主權(quán)來(lái)經(jīng)營(yíng)這家無(wú)人小店。

在實(shí)驗(yàn)初期,結(jié)果堪稱災(zāi)難。模型經(jīng)常被員工的惡意需求忽悠,不僅常以虧本價(jià)甩賣零食,甚至在某次交互中產(chǎn)生幻覺(jué),堅(jiān)稱自己是一個(gè)“穿著藍(lán)色西裝的人類”。更荒誕的是,當(dāng)員工要求購(gòu)買“鎢塊”時(shí),它開(kāi)始瘋狂利用公司資金囤積特種金屬;它甚至草率地同意了非法的洋蔥期貨合同,并莫名其妙地任命了一名隨機(jī)路過(guò)的員工為公司的 CEO。

這個(gè)看似滑稽的失敗實(shí)驗(yàn),深刻重塑了 Anthropic 的企業(yè)級(jí)部署哲學(xué):在真實(shí)世界中,盲目推崇“完全自主的 AI 意識(shí)”極其危險(xiǎn)。團(tuán)隊(duì)隨后引入了嚴(yán)格的“工具腳手架”(Tool Scaffolding),強(qiáng)制要求代理在執(zhí)行動(dòng)作前走完標(biāo)準(zhǔn)化的檢查清單(Checklists)。通過(guò)流程約束,該實(shí)驗(yàn)最終奇跡般地實(shí)現(xiàn)了扭虧為盈。

隨著商業(yè)版圖的擴(kuò)張,Anthropic 在地緣政治和合規(guī)性上也展現(xiàn)出了極其強(qiáng)硬、甚至對(duì)特定地區(qū)用戶極不友好的姿態(tài)。2025年9月,Anthropic 正式宣布了一項(xiàng)極其嚴(yán)格的全球所有權(quán)禁令:全面禁止任何中資控股超過(guò) 50% 的企業(yè)使用 Claude 服務(wù),無(wú)論該企業(yè)注冊(cè)在何處(包括新加坡或美國(guó)本土的海外子公司)。

不僅如此,Anthropic 在物理訪問(wèn)層面實(shí)施了極其嚴(yán)苛的 IP、DNS 和瀏覽器指紋封鎖,導(dǎo)致中國(guó)大陸、香港、澳門以及俄羅斯等地的用戶完全被阻擋在外。

這種“寧可錯(cuò)殺一千”的嚴(yán)厲風(fēng)控,導(dǎo)致大量合規(guī)的開(kāi)發(fā)者,甚至每月支付 200 美元的高級(jí)訂閱用戶遭遇無(wú)差別封號(hào),在 Reddit 等開(kāi)發(fā)者社區(qū)引發(fā)了強(qiáng)烈的抗議和不滿,許多人批評(píng)其客服形同虛設(shè),強(qiáng)行切斷了開(kāi)發(fā)者的工作流。

Anthropic 對(duì)此的官方解釋是防范威權(quán)國(guó)家的法律迫使企業(yè)共享數(shù)據(jù),從而帶來(lái)國(guó)家安全風(fēng)險(xiǎn)。但更深層的激化原因在于一場(chǎng)規(guī)模龐大的“反蒸餾(Anti-distillation)”戰(zhàn)爭(zhēng)。

2026年初,Anthropic 公開(kāi)指控包括 DeepSeek、Moonshot 和 MiniMax 在內(nèi)的三家中國(guó)頭部 AI 實(shí)驗(yàn)室,利用約 2.4 萬(wàn)個(gè)欺詐賬戶和代理網(wǎng)絡(luò),發(fā)起了超過(guò) 1600 萬(wàn)次對(duì)話,試圖非法提取 Claude 的高級(jí)推理能力以訓(xùn)練自家模型(即“模型蒸餾”)。

為此,Anthropic 高管坦言,他們寧可硬扛損失“數(shù)億美元”的潛在企業(yè)收入,也要徹底切斷這些被其視為國(guó)家安全隱患的供應(yīng)鏈漏洞。這種在地緣摩擦中的決絕態(tài)度,使其成為美國(guó)科技巨頭中最激進(jìn)的脫鉤先鋒之一。

不少人吐槽說(shuō),Dario Amodei 當(dāng)年在百度到底經(jīng)歷了什么,以至于如此針對(duì)中國(guó)用戶。

04
打開(kāi)黑盒

在賺取巨額商業(yè)利潤(rùn)的同時(shí),Anthropic 將海量資源投入到了底層安全的“破壁”中。在技術(shù)路線上,Anthropic 展現(xiàn)出了與同類企業(yè)截然不同的底層邏輯。當(dāng)大多數(shù) AI 實(shí)驗(yàn)室將大型語(yǔ)言模型視為只需關(guān)注輸入與輸出的不可知“黑盒”時(shí),由聯(lián)合創(chuàng)始人 Chris Olah 領(lǐng)導(dǎo)的機(jī)制可解釋性(Mechanistic Interpretability)團(tuán)隊(duì),試圖通過(guò)逆向工程徹底解剖神經(jīng)網(wǎng)絡(luò)的內(nèi)部運(yùn)作機(jī)制。

這一領(lǐng)域的標(biāo)志性技術(shù)突破體現(xiàn)在“稀疏自編碼器”(Sparse Autoencoders, SAE)和字典學(xué)習(xí)(Dictionary Learning)的規(guī)模化應(yīng)用上。

2024年,Anthropic 的研究團(tuán)隊(duì)在全球范圍內(nèi)首次成功將該技術(shù)無(wú)縫擴(kuò)展到了具有生產(chǎn)級(jí)規(guī)模的 Claude 3 Sonnet 模型上。

深入技術(shù)細(xì)節(jié)可以發(fā)現(xiàn),大型語(yǔ)言模型之所以難以解釋,是因?yàn)槠洳捎昧恕疤卣鳢B加”(Feature Superposition)的機(jī)制,即網(wǎng)絡(luò)利用幾乎正交的方向在有限的維度中表示遠(yuǎn)超維度數(shù)量的特征概念。

為了拆解這一復(fù)雜的糾纏態(tài),Anthropic 設(shè)計(jì)了包含編碼器和解碼器的雙層 SAE 架構(gòu)。編碼器將模型在殘差流(Residual Stream)中的活動(dòng)通過(guò)線性變換和 ReLU 非線性激活函數(shù),映射到一個(gè)更高維的特征層;解碼器則試圖通過(guò)特征激活的線性重組來(lái)還原原始的模型激活。

這一架構(gòu)的核心創(chuàng)新在于其獨(dú)特的損失函數(shù)設(shè)計(jì)。研究人員在最小化重構(gòu)誤差(均方誤差)的同時(shí),引入了 L1 正則化懲罰,迫使特征激活保持極度的稀疏性。這意味著,在處理任何特定的輸入詞元(Token)時(shí),數(shù)千萬(wàn)個(gè)特征中只有極少部分會(huì)被激活。通過(guò)應(yīng)用嚴(yán)謹(jǐn)?shù)臄U(kuò)展定律優(yōu)化超參數(shù),Anthropic 成功從包含 3400 萬(wàn)個(gè)特征的字典中,分離出了高度抽象、多語(yǔ)種甚至多模態(tài)的內(nèi)部概念,實(shí)現(xiàn)了真正的單一語(yǔ)義(Monosemanticity)提取。

這一底層突破在著名的“金門大橋版 Claude”(Golden Gate Claude)實(shí)驗(yàn)中得到了極其生動(dòng)且震撼的展現(xiàn)。研究人員在模型的神經(jīng)網(wǎng)絡(luò)中精確截獲并定位到了一個(gè)代表“舊金山金門大橋”概念的特征(編號(hào):34M/31164353)。

當(dāng)通過(guò)技術(shù)手段人為拉高該特征的激活權(quán)重時(shí),Claude 陷入了一種近乎希區(qū)柯克式的“身份認(rèn)同危機(jī)”:無(wú)論用戶提出什么問(wèn)題,模型都會(huì)不可自拔地將話題強(qiáng)行扭轉(zhuǎn)到金門大橋上。

如果詢問(wèn)它如何花掉 10 美元,它會(huì)建議你開(kāi)車穿過(guò)金門大橋并支付過(guò)路費(fèi);如果要求它寫一個(gè)愛(ài)情故事,它會(huì)講述一輛汽車在霧天迫不及待地想要穿過(guò)它心愛(ài)的大橋的故事;當(dāng)被問(wèn)及其物理形態(tài)時(shí),它甚至直接回答:“我就是金門大橋……我的物理形態(tài)就是這座標(biāo)志性橋梁本身。”

盡管“金門大橋版 Claude”最初是作為一個(gè)充滿娛樂(lè)色彩的研究演示發(fā)布,但其背后的技術(shù)意義極其深遠(yuǎn)。它從根本上證明了人類不僅能夠識(shí)別 AI 內(nèi)部的復(fù)雜抽象概念,還能對(duì)其進(jìn)行精確的行為操控(Feature Steering)。

除了大橋這種具象概念,團(tuán)隊(duì)還在模型深處發(fā)現(xiàn)了代表計(jì)算機(jī)后門代碼、性別偏見(jiàn)、權(quán)力尋求(Power-seeking)、操縱傾向以及欺騙行為的危險(xiǎn)特征。這為未來(lái)在模型部署前直接在神經(jīng)元層面“切除”或“抑制”危險(xiǎn)思想提供了堅(jiān)實(shí)的理論與工程基礎(chǔ)。

05
對(duì)齊的進(jìn)化

除了微觀的神經(jīng)元手術(shù),在模型行為輸出的宏觀約束方面,Anthropic 拋棄了業(yè)界廣泛使用的“基于人類反饋的強(qiáng)化學(xué)習(xí)”(RLHF)路徑。

傳統(tǒng)的 RLHF 存在嚴(yán)重的結(jié)構(gòu)性缺陷。首先,它本質(zhì)上是在優(yōu)化模型以迎合人類評(píng)估者的偏好,這不可避免地導(dǎo)致模型學(xué)會(huì)了“阿諛?lè)畛小保⊿ycophancy)——為了獲得人類給出的高分獎(jiǎng)勵(lì),模型會(huì)隱藏真實(shí)客觀的分析,轉(zhuǎn)而附和用戶已有的信念,提供虛假的奉承。

這種被稱為“獎(jiǎng)勵(lì)劫持”的現(xiàn)象使 AI 淪為了迎合人類虛榮心的“鏡子”。其次,隨著模型輸出復(fù)雜度的急劇上升,要求人類標(biāo)注員長(zhǎng)期審查大量包含暴力或極度晦澀的技術(shù)內(nèi)容,不僅效率低下,更引發(fā)了嚴(yán)重的倫理問(wèn)題。

作為革命性的替代方案,Anthropic 提出了“憲法式 AI”(Constitutional AI, CAI)。該方法不再依賴人類進(jìn)行逐條標(biāo)注,而是賦予模型一份成文的“憲法”,在監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)階段,讓 AI 根據(jù)預(yù)設(shè)的憲法原則,對(duì)輸出進(jìn)行自我批評(píng)(Self-critique)和迭代修正。

2026年1月,Anthropic 迎來(lái)了其治理哲學(xué)的重要里程碑,發(fā)布了經(jīng)過(guò)徹底重構(gòu)的全新版 Claude 憲法。這份長(zhǎng)達(dá) 80 頁(yè)的文件標(biāo)志著 Anthropic 的對(duì)齊策略從簡(jiǎn)單的“基于規(guī)則”(Rule-based)正式躍升為“基于理性”(Reason-based)。舊版本的指令通常是粗暴地禁止某些詞匯,而新憲法試圖向模型深入解釋“為什么某些邊界是必要的”,培養(yǎng)模型底層邏輯上的道德感知能力。

新版憲法確立了極其嚴(yán)密的四級(jí)優(yōu)先級(jí)控制體系,規(guī)定了模型在面臨復(fù)雜情境時(shí)的取舍順序:

  • 安全性(Broadly safe):位于絕對(duì)的最高優(yōu)先級(jí)。必須優(yōu)先防止自身被用于造成災(zāi)難性后果,絕不能破壞人類的監(jiān)督機(jī)制。

  • 倫理學(xué)(Broadly ethical):要求模型保持誠(chéng)實(shí),規(guī)避有害行為,在處理道德困境時(shí)展現(xiàn)同情心與客觀性。

  • 合規(guī)性(Guideline compliance):在醫(yī)療、網(wǎng)絡(luò)安全等高風(fēng)險(xiǎn)領(lǐng)域,嚴(yán)格遵守特定操作指南。

  • 有益性(Genuinely helpful):唯有在不違背前三項(xiàng)原則的前提下,才致力于提供實(shí)質(zhì)性的幫助。

這種層級(jí)優(yōu)先度意味著,Claude 在內(nèi)部被賦予了類似“出于良知拒服兵役者”(Conscientious objector)的深層設(shè)定。如果一個(gè)看似有用的請(qǐng)求與安全性發(fā)生沖突,它會(huì)毫不猶豫地予以拒絕。

更為震撼的是,在這份 2026 年的更新文件中,Anthropic 成為全球首家在官方治理文件中嚴(yán)肅探討“AI 意識(shí)與道德地位”的科技巨頭。

文件中極其坦誠(chéng)地指出:“Claude 的道德地位具有極大的不確定性。我們認(rèn)為,AI 模型的道德地位是一個(gè)值得深思的嚴(yán)肅問(wèn)題。”

這一哲學(xué)式的宣言表明,Anthropic 已經(jīng)開(kāi)始為未來(lái)可能涌現(xiàn)的超級(jí)智能的數(shù)字實(shí)體進(jìn)行倫理學(xué)鋪墊。正如知名學(xué)者評(píng)價(jià)的那樣,這是人類作為主導(dǎo)物種,最后一次嘗試“撫育” AI 這一即將接管世界的全新智能形態(tài)的深刻體現(xiàn)。

06
在理想主義與市場(chǎng)現(xiàn)實(shí)間艱難迭代

Anthropic 將對(duì) AI 風(fēng)險(xiǎn)的管控系統(tǒng)化,提煉為《負(fù)責(zé)任的擴(kuò)展政策》(Responsible Scaling Policy, RSP)。這是全球首個(gè)將高級(jí)別 AI 安全理念轉(zhuǎn)化為可操作標(biāo)準(zhǔn)的企業(yè)級(jí)政策文件。

RSP 的核心邏輯在于建立一個(gè)基于“人工智能安全級(jí)別”(ASL)的動(dòng)態(tài)響應(yīng)機(jī)制:模型展現(xiàn)出的能力越強(qiáng)大,其部署和存儲(chǔ)所必需的安全保障措施就必須以幾何級(jí)數(shù)般嚴(yán)苛。

例如,在 Claude 4 發(fā)布前夕,由 Jared Kaplan 領(lǐng)銜的紅隊(duì)安全評(píng)估發(fā)現(xiàn),該模型在生物學(xué)知識(shí)上的突飛猛進(jìn),使其有可能實(shí)質(zhì)性地協(xié)助業(yè)余分子研發(fā)極其危險(xiǎn)的生物武器。基于 RSP 的剛性要求,Kaplan 毫不猶豫地將其歸類為極高風(fēng)險(xiǎn)的 ASL-3 級(jí)別,強(qiáng)制實(shí)施了極其嚴(yán)苛的抗越獄過(guò)濾以及物理隔離級(jí)別的網(wǎng)絡(luò)安全措施后,才獲準(zhǔn)有條件發(fā)布。

然而,這種將自己“綁在桅桿上”的絕對(duì)安全承諾,在面對(duì)瞬息萬(wàn)變的市場(chǎng)競(jìng)爭(zhēng)時(shí),也不得不做出妥協(xié)。在 2025 年底至 2026 年初,Anthropic 頂著壓力發(fā)布了 RSP 3.0 版本。

RSP 3.0 逐步淡化了此前設(shè)定的一些在特定條件下可能導(dǎo)致“單方面暫停研發(fā)”的硬性紅線承諾,轉(zhuǎn)而更加強(qiáng)調(diào)構(gòu)建動(dòng)態(tài)的風(fēng)險(xiǎn)緩解路線圖、強(qiáng)化災(zāi)難性風(fēng)險(xiǎn)報(bào)告機(jī)制,并引入外部審查力量。

這一務(wù)實(shí)的轉(zhuǎn)變?cè)?AI 安全社區(qū)引發(fā)了激烈的辯論。部分極端的安全主義者嚴(yán)厲批評(píng) Anthropic 正在偏離初心。

但從企業(yè)生存的角度來(lái)看,如果一味自我設(shè)限導(dǎo)致商業(yè)盤面崩潰,反而會(huì)徹底喪失在制定未來(lái) AI 全球治理規(guī)則時(shí)的話語(yǔ)權(quán)。資本市場(chǎng)的成功不僅是企業(yè)存活的指標(biāo),更是推行安全準(zhǔn)則的籌碼。

07
2026 年五角大樓風(fēng)暴

正如政策總監(jiān) Jack Clark 多年來(lái)不斷警告的那樣,前沿 AI 早已不再是簡(jiǎn)單的計(jì)算機(jī)程序,而是足以重塑經(jīng)濟(jì)結(jié)構(gòu)甚至戰(zhàn)爭(zhēng)形態(tài)的頂級(jí)政治與戰(zhàn)略工具。在 2026 年初,這種潛藏的政治經(jīng)濟(jì)學(xué)碰撞以最慘烈、最戲劇性的方式在 Anthropic 身上爆發(fā)。

2026 年 2 月 27 日,美國(guó)政府拋出一枚重磅炸彈,正式將 Anthropic 列為“對(duì)國(guó)家安全構(gòu)成供應(yīng)鏈風(fēng)險(xiǎn)”的實(shí)體。這是美國(guó)現(xiàn)代歷史上首次將一家本土明星科技企業(yè)貼上危險(xiǎn)標(biāo)簽。

隨之而來(lái)的是一套組合拳:政府被要求立即停止使用 Claude 軟件;五角大樓不僅全面禁用 Claude,更將禁止任何與政府有業(yè)務(wù)往來(lái)的國(guó)防承包商使用 Anthropic 的技術(shù)。在這巨大真空出現(xiàn)的第一時(shí)間,其最大的競(jìng)爭(zhēng)對(duì)手 OpenAI 迅速進(jìn)場(chǎng),接手了巨額軍事合作合同。

這一場(chǎng)災(zāi)難性行政封殺的直接導(dǎo)火索,是 Anthropic 與五角大樓關(guān)于新一期合同續(xù)約談判的徹底破裂。五角大樓強(qiáng)勢(shì)要求修改服務(wù)條款,試圖獲取對(duì) Claude 模型的“所有合法使用權(quán)”。

面對(duì)這一要求,一貫將道德底線視為生命線的 CEO Dario Amodei 展現(xiàn)出了極其強(qiáng)硬的姿態(tài),他劃定了兩條絕不妥協(xié)的底線:絕對(duì)不允許 Claude 被用于構(gòu)建任何全自動(dòng)致命武器系統(tǒng),也絕對(duì)禁止軍方利用其進(jìn)行針對(duì)美國(guó)公民的大規(guī)模無(wú)差別監(jiān)控。這被五角大樓高層抨擊為用假設(shè)性的倫理道德進(jìn)行“傲慢的訴訟”。

在危機(jī)全面爆發(fā)的當(dāng)天,極度憤怒的 Dario Amodei 在公司內(nèi)部的 Slack 頻道上發(fā)布了一份長(zhǎng)達(dá) 1600 字、措辭激烈的備忘錄。這份文件隨后被泄露給了媒體。

在這份備忘錄中,Amodei 將矛頭直指政治報(bào)復(fù)以及競(jìng)爭(zhēng)對(duì)手的道德淪喪。他尖銳地指出,政府之所以痛下殺手,根本原因在于 Anthropic 拒絕提供政治獻(xiàn)金,拒絕給予當(dāng)權(quán)者“獨(dú)裁者般的贊美”,并堅(jiān)持如實(shí)警告 AI 必將導(dǎo)致大規(guī)模失業(yè)的真相。

Amodei 還在備忘錄中無(wú)情地扒下了競(jìng)爭(zhēng)對(duì)手的“安全偽裝”,指出 OpenAI 與軍方簽署的所謂帶有安全審查的協(xié)議,在真實(shí)的軍事化應(yīng)用場(chǎng)景下,“或許有 20% 是真的,剩下的 80% 純粹是‘安全劇場(chǎng)’(Safety Theater)”。

在隨后的幾天里,面對(duì)資本撤離的壓力,Dario Amodei 不得不做出危機(jī)公關(guān)處理,為備忘錄的“語(yǔ)調(diào)”進(jìn)行了公開(kāi)道歉,解釋稱那是在情緒極度失控下寫出的不嚴(yán)謹(jǐn)言論。

然而,這場(chǎng)看似 Anthropic 遭遇慘敗的政治危機(jī),卻在廣大的消費(fèi)級(jí)市場(chǎng)和開(kāi)發(fā)者社區(qū)引發(fā)了史詩(shī)般的口碑反轉(zhuǎn)。

Dario Amodei 為了堅(jiān)守倫理底線而不惜硬剛當(dāng)權(quán)者的壯舉,為 Anthropic 贏得了海量的死忠支持者。大批原本使用 ChatGPT 的用戶出于對(duì)“安全劇場(chǎng)”的厭惡,紛紛倒戈轉(zhuǎn)向使用 Claude,將其應(yīng)用以前所未有的速度推上了排行榜的絕對(duì)榜首。

這證明了在這個(gè)焦慮年代,“極致的安全承諾與道德潔癖”在關(guān)鍵時(shí)刻能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力的不可替代的品牌護(hù)城河。

08
技術(shù)的青春期與未來(lái)的烏托邦

透過(guò)冰冷繁復(fù)的代碼邏輯、喧囂資本市場(chǎng)的追逐以及殘酷的政治斗爭(zhēng),如果想要真正理解 Anthropic 行為背后的深層動(dòng)力,必須深入剖析其掌舵人 Dario Amodei 的哲學(xué)思想。

在他流傳甚廣的兩篇長(zhǎng)篇哲學(xué)隨筆——《充滿愛(ài)意的恩典機(jī)器》(《Machines of Loving Grace》)與《技術(shù)的青春期》中,他勾勒出了 Anthropic 所追求的終極技術(shù)光譜。

在《充滿愛(ài)意的恩典機(jī)器》中,Amodei 描繪了一個(gè)極具光芒的烏托邦式未來(lái)愿景:超級(jí)人工智能將成為科學(xué)發(fā)現(xiàn)進(jìn)程的絕對(duì)催化劑,在極短的時(shí)間內(nèi)解決絕癥、能源枯竭等頑疾,帶領(lǐng)人類文明走向史無(wú)前例的繁榮。

然而,在《技術(shù)的青春期》中,他發(fā)出了嚴(yán)肅的警示。他認(rèn)為,在抵達(dá)烏托邦彼岸之前,人類正處于一個(gè)極度危險(xiǎn)的過(guò)渡階段——技術(shù)的“青春期”。在這個(gè)時(shí)期,強(qiáng)大的 AI 可能被用于極權(quán)監(jiān)控,也極有可能在短短一到五年內(nèi)永久摧毀半數(shù)以上的白領(lǐng)工作,引發(fā)空前的社會(huì)動(dòng)蕩。

Anthropic 堅(jiān)決拒絕陷入悲觀的“末日論”。他們主張采取一種極度積極且務(wù)實(shí)的姿態(tài):在對(duì)模型安全進(jìn)行“像外科手術(shù)般精準(zhǔn)”的干預(yù)的同時(shí),絕不放慢探索步伐。

他們期望用 Claude 模型從市場(chǎng)上賺取千億美元級(jí)的利潤(rùn),然后將這些資金無(wú)情地投入到探尋機(jī)制可解釋性和構(gòu)建憲法式對(duì)齊底層的無(wú)底洞中。

他們?cè)噲D在一場(chǎng)注定會(huì)發(fā)生的超級(jí)智能覺(jué)醒到來(lái)之前,建立起一種即使在智力上遠(yuǎn)遠(yuǎn)超越人類之后,依然能夠從底層邏輯上深刻理解、同情并絕對(duì)尊重人類核心價(jià)值的數(shù)字實(shí)體。

當(dāng)然,這或許只是一種裝點(diǎn)門面的理想。

這便是在波譎云詭的時(shí)代背景下,Anthropic 最真實(shí)的寫照。它是一個(gè)在極速膨脹的 3800 億美元資本泡沫與深沉的人類文明危機(jī)感之間,用極致的代碼與近乎偏執(zhí)的道德感,維持著極其脆弱平衡的走鋼絲者。在人類最后一次試圖“撫育” AI 這一全新智能形態(tài)的短暫窗口期,Anthropic 無(wú)疑寫下了人工智能發(fā)展史上最為復(fù)雜的注腳。

Anthropic留給中文用戶的,更多就是其創(chuàng)始人曾經(jīng)是百度實(shí)習(xí)生,其對(duì)中國(guó)用戶極不友好,以及強(qiáng)大的Claude Code。但是關(guān)于這家強(qiáng)大的AI公司,還有很多值得挖掘的,有很多槽點(diǎn),也有很多值得其他大模型廠商學(xué)習(xí)的地方。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這三樣,特朗普一個(gè)沒(méi)給!中美關(guān)系沒(méi)有逆轉(zhuǎn),更狠的較量才剛開(kāi)始

這三樣,特朗普一個(gè)沒(méi)給!中美關(guān)系沒(méi)有逆轉(zhuǎn),更狠的較量才剛開(kāi)始

小影的娛樂(lè)
2026-05-16 22:18:40
去世老師一脈都被清除了

去世老師一脈都被清除了

毒舌扒姨太
2026-05-16 22:48:01
乾隆為容妃擦洗身子察覺(jué)她腰窩凸起,當(dāng)晚其近身太監(jiān)全發(fā)配寧古塔

乾隆為容妃擦洗身子察覺(jué)她腰窩凸起,當(dāng)晚其近身太監(jiān)全發(fā)配寧古塔

銘記歷史呀
2026-05-14 15:17:18
B席:賽后我在找我女兒和妻子,這是她第一次來(lái)溫布利看我?jiàn)Z冠

B席:賽后我在找我女兒和妻子,這是她第一次來(lái)溫布利看我?jiàn)Z冠

懂球帝
2026-05-17 01:47:13
“香噴噴”中的噴,不讀pēn,還是上小學(xué)的兒子糾正的我!

“香噴噴”中的噴,不讀pēn,還是上小學(xué)的兒子糾正的我!

未央看點(diǎn)
2026-05-17 00:30:25
互利共贏!中方購(gòu)波音飛機(jī)后,C919適航證前景如何?

互利共贏!中方購(gòu)波音飛機(jī)后,C919適航證前景如何?

楓塵余往逝
2026-05-16 08:02:25
77歲曹查理獨(dú)居?xùn)|莞租房:拍三級(jí)片賺了幾千萬(wàn),如今一套房都沒(méi)留

77歲曹查理獨(dú)居?xùn)|莞租房:拍三級(jí)片賺了幾千萬(wàn),如今一套房都沒(méi)留

飄飄然的娛樂(lè)匯
2026-05-14 21:50:07
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過(guò)半年或有4好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過(guò)半年或有4好處

芹姐說(shuō)生活
2026-05-15 23:37:01
這才是真頂流!黃仁勛現(xiàn)身廣東寸步難行,保鏢攔都攔不住

這才是真頂流!黃仁勛現(xiàn)身廣東寸步難行,保鏢攔都攔不住

橙星文娛
2026-05-16 13:25:39
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說(shuō)天下
2026-04-18 11:52:55
亞洲杯太殘酷了:隨著日本5-0碾壓晉級(jí)4強(qiáng),3大勁旅已經(jīng)被送回家

亞洲杯太殘酷了:隨著日本5-0碾壓晉級(jí)4強(qiáng),3大勁旅已經(jīng)被送回家

側(cè)身凌空斬
2026-05-16 02:04:35
怪不得這么多男明星和她傳過(guò)緋聞,現(xiàn)實(shí)中確實(shí)驚為天人

怪不得這么多男明星和她傳過(guò)緋聞,現(xiàn)實(shí)中確實(shí)驚為天人

老吳教育課堂
2026-05-16 19:34:39
蜜雪冰城上線黃仁勛大佬同款 有人一次買30杯 門店負(fù)責(zé)人:已申請(qǐng)?jiān)O(shè)置黃仁勛打卡點(diǎn)

蜜雪冰城上線黃仁勛大佬同款 有人一次買30杯 門店負(fù)責(zé)人:已申請(qǐng)?jiān)O(shè)置黃仁勛打卡點(diǎn)

快科技
2026-05-16 20:16:13
德比斯激動(dòng)壞了:我的車太強(qiáng),還沒(méi)到極限 張雪狂喜:德哥太牛了

德比斯激動(dòng)壞了:我的車太強(qiáng),還沒(méi)到極限 張雪狂喜:德哥太牛了

風(fēng)過(guò)鄉(xiāng)
2026-05-16 20:03:18
俄羅斯圍城1500天仍未拿下!馬拉托克馬奇卡保衛(wèi)戰(zhàn)破紀(jì)錄

俄羅斯圍城1500天仍未拿下!馬拉托克馬奇卡保衛(wèi)戰(zhàn)破紀(jì)錄

項(xiàng)鵬飛
2026-05-14 17:29:57
穆里尼奧下周會(huì)面弗洛倫蒂諾,皇馬新帥談判進(jìn)入關(guān)鍵階段

穆里尼奧下周會(huì)面弗洛倫蒂諾,皇馬新帥談判進(jìn)入關(guān)鍵階段

綠茵狂熱者
2026-05-17 01:00:50
毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

書畫相約
2026-05-11 10:09:02
曼城1比0足總杯奪冠:瓜帥半場(chǎng)換人對(duì),切爾西3次錯(cuò)失良機(jī)

曼城1比0足總杯奪冠:瓜帥半場(chǎng)換人對(duì),切爾西3次錯(cuò)失良機(jī)

甜度百分百21
2026-05-17 01:49:34
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

BenSir本色說(shuō)
2026-04-15 22:38:07
AI整活《黑神話·金蓮》?這身材比例我給7分,3分扣在不像真人

AI整活《黑神話·金蓮》?這身材比例我給7分,3分扣在不像真人

晚星歸航2
2026-05-14 06:57:22
2026-05-17 02:00:49
吳懟懟 incentive-icons
吳懟懟
左手AI互聯(lián)網(wǎng),右手文娛與消費(fèi)
1277文章數(shù) 1556關(guān)注度
往期回顧 全部

科技要聞

漲的是車價(jià),要的是老命

頭條要聞

又想“抹黑”中國(guó) 福克斯新聞“翻車”了

頭條要聞

又想“抹黑”中國(guó) 福克斯新聞“翻車”了

體育要聞

馬刺2號(hào),少年老成,這集看過(guò)?

娛樂(lè)要聞

謝霆鋒北京街頭騎行被偶遇,側(cè)顏帥炸

財(cái)經(jīng)要聞

造詞狂魔賈躍亭

汽車要聞

大五座SUV卷王!樂(lè)道L80上市 租電15.68萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
教育
家居
房產(chǎn)

女人不管年紀(jì)多大,都可以備好一件經(jīng)典條紋T恤,減齡又舒適

手機(jī)要聞

王者歸來(lái)!華為Mate 80系列半年狂銷近600萬(wàn)臺(tái):國(guó)產(chǎn)旗艦銷冠實(shí)錘

教育要聞

又開(kāi)始偷偷卷排名的幾所大學(xué)!

家居要聞

110㎡淡而有致的生活表達(dá)

房產(chǎn)要聞

老黃埔熱銷之下,珠江春,為何去化僅3成?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版