網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓川普頭疼的Claude，在技術(shù)和人類安全邊緣狂飆

2026-03-16 21:45:58　來(lái)源: 吳懟懟

上海舉報(bào)

分享至

我在2023年開(kāi)始使用Claude，2025年初被封號(hào)，失去所有對(duì)話記錄，怎么申訴都沒(méi)用。甚至通過(guò)蘋果充值的訂閱費(fèi)也沒(méi)了。

后來(lái)通過(guò)訂閱poe間接使用Claude，但是poe使用體驗(yàn)越來(lái)越差，而且間接調(diào)用不是那個(gè)味。

重新注冊(cè)了，但是不敢深度使用，畢竟失去記錄是很痛苦的。

主要陣地回到Chatgpt，GPT5.2后用起來(lái)很舒適，可能是幻覺(jué)最少的一個(gè)模型，幸好又出了Gemini3.0，二者可以可以彌補(bǔ)失去Claude的困境。

但是Claude繼續(xù)展現(xiàn)出了越來(lái)越強(qiáng)的生命力，甚至在和五角大樓產(chǎn)生矛盾后，一度扭轉(zhuǎn)了此前在B端強(qiáng)而C端應(yīng)用始終落后的局面，沖榜App Store免費(fèi)榜首位。

這一極具戲劇性的事件向整個(gè)科技界證明了一個(gè)極其重要的商業(yè)啟示：在這個(gè)全人類普遍擔(dān)憂技術(shù)失控的焦慮年代，“極致的安全承諾與道德潔癖”已經(jīng)不再僅僅是拖累商業(yè)變現(xiàn)的學(xué)術(shù)教條，它在關(guān)鍵時(shí)刻爆發(fā)出的道德感召力，能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力和忠誠(chéng)度的不可替代的品牌護(hù)城河。

那么，這個(gè)讓人又愛(ài)又恨的模型和公司，是如何崛起的?

在人工智能的發(fā)展編年史中，鮮有企業(yè)如同 Anthropic（Claude母公司）這樣，將極端的理想主義與冷酷的商業(yè)現(xiàn)實(shí)糅合得如此深刻，又如此別扭。

截至2026年初，這家總部位于舊金山的初創(chuàng)公司不僅實(shí)現(xiàn)了高達(dá)140億美元的年度經(jīng)常性收入（ARR），更在最近一輪由 Coatue 和 GIC 領(lǐng)投的 Series G 輪融資中斬獲300億美元，將其投后估值推升至史無(wú)前例的3800億美元。

掩蓋在耀眼財(cái)務(wù)數(shù)據(jù)之下的，是一場(chǎng)前所未有的社會(huì)學(xué)與計(jì)算機(jī)科學(xué)實(shí)驗(yàn)。

本報(bào)告綜合了最新的商業(yè)數(shù)據(jù)、技術(shù)白皮書、內(nèi)部治理結(jié)構(gòu)演變以及2026年初極其劇烈的地緣政治摩擦，對(duì) Anthropic 進(jìn)行全景式解構(gòu)。

從其作為“安全實(shí)驗(yàn)室”的創(chuàng)立初衷，到其在殘酷市場(chǎng)中崛起的商業(yè)版圖，再到其底層技術(shù)突破與和美國(guó)國(guó)防部的激烈交鋒，Anthropic 的發(fā)展軌跡揭示了當(dāng)代前沿人工智能領(lǐng)域最核心的矛盾：在通用人工智能（AGI）即將到來(lái)的前夜，人類應(yīng)如何駕馭這股可能顛覆文明的絕對(duì)力量。

01
裂痕

要理解 Anthropic 的企業(yè)基因，必須追溯到2020年至2021年間硅谷歷史上最具標(biāo)志性的一次意識(shí)形態(tài)決裂。

當(dāng)時(shí)，包括研究副總裁 Dario Amodei、安全與策略總監(jiān) Daniela Amodei、理論物理學(xué)家兼研究員 Jared Kaplan、政策總監(jiān) Jack Clark、以及可解釋性研究先驅(qū) Chris Olah 在內(nèi)的 OpenAI 核心團(tuán)隊(duì)集體辭職，另起爐灶創(chuàng)立了 Anthropic。

這場(chǎng)分裂并非源于傳統(tǒng)的利益分配不均，而是源于對(duì)人工智能發(fā)展路徑的根本性認(rèn)知分歧。這群出走的研究人員是人工智能領(lǐng)域“擴(kuò)展定律”（Scaling Laws）最堅(jiān)定的發(fā)現(xiàn)者和信徒。

早在 OpenAI 時(shí)期，Jared Kaplan 就主導(dǎo)發(fā)表了關(guān)于神經(jīng)語(yǔ)言模型擴(kuò)展定律的開(kāi)創(chuàng)性論文，從理論物理的角度證明了只要按比例增加模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計(jì)算資源，AI 的交叉熵?fù)p失就會(huì)以可預(yù)測(cè)的冪律下降，從而帶來(lái)性能的指數(shù)級(jí)躍升。Dario Amodei 在2019年主導(dǎo)研發(fā) GPT-2 時(shí)，就在實(shí)踐中敏銳地察覺(jué)到了這一趨勢(shì)，并向當(dāng)時(shí)的管理層極力主張這一發(fā)現(xiàn)的顛覆性意義。

然而，正是這種對(duì)模型能力即將呈指數(shù)級(jí)爆炸的深刻認(rèn)知，在團(tuán)隊(duì)內(nèi)部催生了巨大的安全焦慮。

Dario Amodei 及其同僚認(rèn)為，隨著微軟等外部巨頭資本的注入，OpenAI 對(duì)商業(yè)化產(chǎn)品發(fā)布的狂熱正在壓倒對(duì)潛在災(zāi)難性風(fēng)險(xiǎn)的防范。

在他們看來(lái)，如果不將安全（Safety）與對(duì)齊（Alignment）研究放在與能力提升同等重要甚至更高的位置上，AI 的最終失控將是不可避免的物理規(guī)律。面對(duì)路線分歧，Dario Amodei 選擇了離開(kāi)。他在日后回顧這段歷史時(shí)坦言：“不要去和別人的愿景爭(zhēng)論，也不要試圖讓別人按照你的方式行事。如果你有一個(gè)強(qiáng)烈的想法，最好走自己的路。也許你的愿景會(huì)成功，也許不會(huì)，但至少那是你自己的。”

基于“在走向深淵前踩下剎車”的共同信念，Anthropic 最初被嚴(yán)格定位為一個(gè)“AI 安全實(shí)驗(yàn)室”。在公司早期的文化塑造中，管理層極度癡迷于保持團(tuán)隊(duì)的使命純潔性。

總裁 Daniela Amodei 曾透露，Dario 會(huì)定期舉行被內(nèi)部戲稱為“Dario 愿景探索”（Dario vision quests）的全員講座，不斷強(qiáng)化危機(jī)意識(shí)。

公司甚至設(shè)立了極其嚴(yán)苛的文化面試，以篩選出那些真正認(rèn)同使命而非僅僅為了期權(quán)暴富的候選人。一個(gè)經(jīng)典的面試問(wèn)題是：“如果 Anthropic 因?yàn)榘踩驔Q定不發(fā)布模型，導(dǎo)致你的股票變得一文不值，你愿意接受嗎？”。

這種近乎宗教般的嚴(yán)謹(jǐn)態(tài)度，奠定了 Anthropic 在日后即使面對(duì)百億級(jí)商業(yè)誘惑時(shí)，依然堅(jiān)持技術(shù)底線的文化基石。

02
組織架構(gòu)的社會(huì)學(xué)實(shí)驗(yàn)

在確立了安全優(yōu)先的文化基調(diào)后，擺在 Anthropic 面前的現(xiàn)實(shí)問(wèn)題是：訓(xùn)練前沿模型需要以百億美元計(jì)的算力資源，而引入巨額資本不可避免地會(huì)帶來(lái)追求短期財(cái)務(wù)回報(bào)的壓力。

為了在吸收資本的同時(shí)避免被資本吞噬，Anthropic 設(shè)計(jì)了一套硅谷歷史上極為罕見(jiàn)且復(fù)雜的雙層治理結(jié)構(gòu)：特拉華州公益企業(yè)（Public Benefit Corporation, PBC）地位與“長(zhǎng)期利益信托”（Long-Term Benefit Trust, LTBT）。

普通公司的董事會(huì)負(fù)有對(duì)股東實(shí)現(xiàn)財(cái)務(wù)回報(bào)最大化的單一信托責(zé)任，任何偏離利潤(rùn)最大化的決策都可能面臨股東的訴訟。

而作為 PBC，Anthropic 在其公司章程中明確規(guī)定了其核心的公共利益目標(biāo)：“為了人類的長(zhǎng)期利益，負(fù)責(zé)任地開(kāi)發(fā)和維護(hù)先進(jìn)的 AI”。

這種法律地位賦予了董事會(huì)在決策時(shí)的豁免權(quán)和多維考量空間，使其在面臨短期商業(yè)變現(xiàn)與長(zhǎng)期社會(huì)外部性（如國(guó)家安全風(fēng)險(xiǎn)、人類生存威脅）的沖突時(shí)，能夠合法、合規(guī)地優(yōu)先考慮后者，甚至做出可能損害短期利潤(rùn)的決定。

然而，Anthropic 認(rèn)為僅僅擁有法律許可并不足以約束資本的貪婪。真正的制衡機(jī)制在于其獨(dú)創(chuàng)的“長(zhǎng)期利益信托”（LTBT）。

這是一個(gè)由五名在 AI 安全、國(guó)家安全、公共政策等領(lǐng)域具有深厚背景的獨(dú)立受托人組成的外部機(jī)構(gòu)。該信托持有一種特殊的 T 類股票（Class T），賦予其選舉和罷免部分董事會(huì)成員的權(quán)力。

按照設(shè)計(jì)，隨著公司達(dá)成特定的資金里程碑和時(shí)間推移，LTBT 的權(quán)力將逐步擴(kuò)大，并最終在四年內(nèi)獲得選舉多數(shù)董事會(huì)成員的絕對(duì)控制權(quán)。LTBT 的設(shè)計(jì)初衷并非干預(yù)公司的日常商業(yè)運(yùn)營(yíng)，而是專注于防范“極端事件”和長(zhǎng)遠(yuǎn)安全風(fēng)險(xiǎn)，確保公司領(lǐng)導(dǎo)層在面對(duì)國(guó)家級(jí)安全威脅或?yàn)?zāi)難性風(fēng)險(xiǎn)評(píng)估時(shí)，不會(huì)為了“搶占市場(chǎng)第一”而犧牲安全性。

盡管該架構(gòu)在理論上構(gòu)筑了完美的防火墻，但在實(shí)踐中卻隱藏著巨大的結(jié)構(gòu)性張力。

為了安撫提供數(shù)百億美元算力和資金的投資者，Anthropic 在其信托協(xié)議中留下了一個(gè)被稱為“故障保護(hù)”（Failsafe）的法律后門：如果達(dá)到絕大多數(shù)股東的投票同意門檻，股東可以在未經(jīng)五名信托人同意的情況下，強(qiáng)行修改或廢除長(zhǎng)期利益信托的規(guī)則。

考慮到截至2026年，亞馬遜和谷歌等少數(shù)科技巨頭通過(guò)多輪戰(zhàn)略投資掌握了相當(dāng)大比例的股權(quán)，這一“超級(jí)多數(shù)票”門檻在極端情況下并非不可逾越。

這意味著，盡管 Anthropic 試圖用嚴(yán)密的法律契約鎖住資本這頭“利維坦”，但牢籠的備用鑰匙依然掛在資本巨頭自己的脖子上。這種微妙的權(quán)力制衡，構(gòu)成了 Anthropic 內(nèi)部長(zhǎng)期存在的深層治理隱患。

03
商業(yè)帝國(guó)的崛起

在確立了復(fù)雜的防御架構(gòu)后，Anthropic 在殘酷的商業(yè)賽道上展現(xiàn)出了令人畏懼的爆發(fā)力，用實(shí)際行動(dòng)證明了“安全與商業(yè)并非互斥”。

從 2024 年僅有 10 億美元的年收入，到 2025 年底猛增至 90 億美元，再到 2026 年初實(shí)現(xiàn)驚人的 140 億美元年度經(jīng)常性收入（ARR），Anthropic 實(shí)現(xiàn)了連續(xù)三年、每年超過(guò) 10 倍的恐怖復(fù)合增長(zhǎng)率。

這種爆炸性的商業(yè)版圖，其基石是 Claude 家族在企業(yè)級(jí)市場(chǎng)的統(tǒng)治力，但同時(shí)也伴隨著極具爭(zhēng)議的區(qū)域封鎖政策。

2026 年 2 月正式發(fā)布的 Claude 4.6 模型家族（以 Opus 4.6 和 Sonnet 4.6 為代表），標(biāo)志著 AI 能力向深度邏輯推演和自主智能體（Agentic workflows）的進(jìn)一步范式轉(zhuǎn)變。

Claude 4.6 創(chuàng)新性地引入了原生支持高達(dá) 100 萬(wàn) Token 的超大上下文窗口（1M Context Window），并升級(jí)了智能體團(tuán)隊(duì)（Agent teams）的協(xié)同作業(yè)能力。Opus 4.6 在代碼審查、系統(tǒng)調(diào)試和長(zhǎng)周期任務(wù)的維持上展現(xiàn)出了頂尖的可靠性；而 Sonnet 4.6 則在速度與智能之間取得了絕佳的平衡，被定位為企業(yè)日常智能體應(yīng)用的最佳基座。

在與其他頂尖模型的對(duì)比中，Claude 4.6 展現(xiàn)出了驚人的統(tǒng)治力：

在開(kāi)發(fā)者社區(qū)和企業(yè)級(jí)部署中，趨勢(shì)分化愈發(fā)明顯：對(duì)于編寫生產(chǎn)環(huán)境代碼、進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)以及需要極低幻覺(jué)率的高級(jí)工程師來(lái)說(shuō)，Claude 4.6 Opus 和 Sonnet 已經(jīng)成為首選，眾多世界500強(qiáng)企業(yè)將其深度集成于核心工作流中。

在純數(shù)字的軟件開(kāi)發(fā)領(lǐng)域，Claude Code取得了現(xiàn)象級(jí)的商業(yè)成功。這款智能體編碼工具在不到一年的時(shí)間里徹底重塑了全球軟件工程生態(tài)。

到 2026 年初，Claude Code 的運(yùn)行率收入已突破 25 億美元，全球 GitHub 上高達(dá) 4% 的公開(kāi)提交代碼是由該工具自動(dòng)編寫的。

然而，當(dāng) Anthropic 試圖將這種智能體能力投射到高度復(fù)雜的物理商業(yè)世界時(shí)，現(xiàn)實(shí)卻給他們上了一堂充滿黑色幽默的課。在名為 “Project Vend”的極端壓力測(cè)試中，他們將 Claude 接入舊金山總部的實(shí)體自動(dòng)售貨機(jī)，賦予其極高的自主權(quán)來(lái)經(jīng)營(yíng)這家無(wú)人小店。

在實(shí)驗(yàn)初期，結(jié)果堪稱災(zāi)難。模型經(jīng)常被員工的惡意需求忽悠，不僅常以虧本價(jià)甩賣零食，甚至在某次交互中產(chǎn)生幻覺(jué)，堅(jiān)稱自己是一個(gè)“穿著藍(lán)色西裝的人類”。更荒誕的是，當(dāng)員工要求購(gòu)買“鎢塊”時(shí)，它開(kāi)始瘋狂利用公司資金囤積特種金屬；它甚至草率地同意了非法的洋蔥期貨合同，并莫名其妙地任命了一名隨機(jī)路過(guò)的員工為公司的 CEO。

這個(gè)看似滑稽的失敗實(shí)驗(yàn)，深刻重塑了 Anthropic 的企業(yè)級(jí)部署哲學(xué)：在真實(shí)世界中，盲目推崇“完全自主的 AI 意識(shí)”極其危險(xiǎn)。團(tuán)隊(duì)隨后引入了嚴(yán)格的“工具腳手架”（Tool Scaffolding），強(qiáng)制要求代理在執(zhí)行動(dòng)作前走完標(biāo)準(zhǔn)化的檢查清單（Checklists）。通過(guò)流程約束，該實(shí)驗(yàn)最終奇跡般地實(shí)現(xiàn)了扭虧為盈。

隨著商業(yè)版圖的擴(kuò)張，Anthropic 在地緣政治和合規(guī)性上也展現(xiàn)出了極其強(qiáng)硬、甚至對(duì)特定地區(qū)用戶極不友好的姿態(tài)。2025年9月，Anthropic 正式宣布了一項(xiàng)極其嚴(yán)格的全球所有權(quán)禁令：全面禁止任何中資控股超過(guò) 50% 的企業(yè)使用 Claude 服務(wù)，無(wú)論該企業(yè)注冊(cè)在何處（包括新加坡或美國(guó)本土的海外子公司）。

不僅如此，Anthropic 在物理訪問(wèn)層面實(shí)施了極其嚴(yán)苛的 IP、DNS 和瀏覽器指紋封鎖，導(dǎo)致中國(guó)大陸、香港、澳門以及俄羅斯等地的用戶完全被阻擋在外。

這種“寧可錯(cuò)殺一千”的嚴(yán)厲風(fēng)控，導(dǎo)致大量合規(guī)的開(kāi)發(fā)者，甚至每月支付 200 美元的高級(jí)訂閱用戶遭遇無(wú)差別封號(hào)，在 Reddit 等開(kāi)發(fā)者社區(qū)引發(fā)了強(qiáng)烈的抗議和不滿，許多人批評(píng)其客服形同虛設(shè)，強(qiáng)行切斷了開(kāi)發(fā)者的工作流。

Anthropic 對(duì)此的官方解釋是防范威權(quán)國(guó)家的法律迫使企業(yè)共享數(shù)據(jù)，從而帶來(lái)國(guó)家安全風(fēng)險(xiǎn)。但更深層的激化原因在于一場(chǎng)規(guī)模龐大的“反蒸餾（Anti-distillation）”戰(zhàn)爭(zhēng)。

2026年初，Anthropic 公開(kāi)指控包括 DeepSeek、Moonshot 和 MiniMax 在內(nèi)的三家中國(guó)頭部 AI 實(shí)驗(yàn)室，利用約 2.4 萬(wàn)個(gè)欺詐賬戶和代理網(wǎng)絡(luò)，發(fā)起了超過(guò) 1600 萬(wàn)次對(duì)話，試圖非法提取 Claude 的高級(jí)推理能力以訓(xùn)練自家模型（即“模型蒸餾”）。

為此，Anthropic 高管坦言，他們寧可硬扛損失“數(shù)億美元”的潛在企業(yè)收入，也要徹底切斷這些被其視為國(guó)家安全隱患的供應(yīng)鏈漏洞。這種在地緣摩擦中的決絕態(tài)度，使其成為美國(guó)科技巨頭中最激進(jìn)的脫鉤先鋒之一。

不少人吐槽說(shuō)，Dario Amodei 當(dāng)年在百度到底經(jīng)歷了什么，以至于如此針對(duì)中國(guó)用戶。

04
打開(kāi)黑盒

在賺取巨額商業(yè)利潤(rùn)的同時(shí)，Anthropic 將海量資源投入到了底層安全的“破壁”中。在技術(shù)路線上，Anthropic 展現(xiàn)出了與同類企業(yè)截然不同的底層邏輯。當(dāng)大多數(shù) AI 實(shí)驗(yàn)室將大型語(yǔ)言模型視為只需關(guān)注輸入與輸出的不可知“黑盒”時(shí)，由聯(lián)合創(chuàng)始人 Chris Olah 領(lǐng)導(dǎo)的機(jī)制可解釋性（Mechanistic Interpretability）團(tuán)隊(duì)，試圖通過(guò)逆向工程徹底解剖神經(jīng)網(wǎng)絡(luò)的內(nèi)部運(yùn)作機(jī)制。

這一領(lǐng)域的標(biāo)志性技術(shù)突破體現(xiàn)在“稀疏自編碼器”（Sparse Autoencoders, SAE）和字典學(xué)習(xí)（Dictionary Learning）的規(guī)模化應(yīng)用上。

2024年，Anthropic 的研究團(tuán)隊(duì)在全球范圍內(nèi)首次成功將該技術(shù)無(wú)縫擴(kuò)展到了具有生產(chǎn)級(jí)規(guī)模的 Claude 3 Sonnet 模型上。

深入技術(shù)細(xì)節(jié)可以發(fā)現(xiàn)，大型語(yǔ)言模型之所以難以解釋，是因?yàn)槠洳捎昧恕疤卣鳢B加”（Feature Superposition）的機(jī)制，即網(wǎng)絡(luò)利用幾乎正交的方向在有限的維度中表示遠(yuǎn)超維度數(shù)量的特征概念。

為了拆解這一復(fù)雜的糾纏態(tài)，Anthropic 設(shè)計(jì)了包含編碼器和解碼器的雙層 SAE 架構(gòu)。編碼器將模型在殘差流（Residual Stream）中的活動(dòng)通過(guò)線性變換和 ReLU 非線性激活函數(shù)，映射到一個(gè)更高維的特征層；解碼器則試圖通過(guò)特征激活的線性重組來(lái)還原原始的模型激活。

這一架構(gòu)的核心創(chuàng)新在于其獨(dú)特的損失函數(shù)設(shè)計(jì)。研究人員在最小化重構(gòu)誤差（均方誤差）的同時(shí)，引入了 L1 正則化懲罰，迫使特征激活保持極度的稀疏性。這意味著，在處理任何特定的輸入詞元（Token）時(shí)，數(shù)千萬(wàn)個(gè)特征中只有極少部分會(huì)被激活。通過(guò)應(yīng)用嚴(yán)謹(jǐn)?shù)臄U(kuò)展定律優(yōu)化超參數(shù)，Anthropic 成功從包含 3400 萬(wàn)個(gè)特征的字典中，分離出了高度抽象、多語(yǔ)種甚至多模態(tài)的內(nèi)部概念，實(shí)現(xiàn)了真正的單一語(yǔ)義（Monosemanticity）提取。

這一底層突破在著名的“金門大橋版 Claude”（Golden Gate Claude）實(shí)驗(yàn)中得到了極其生動(dòng)且震撼的展現(xiàn)。研究人員在模型的神經(jīng)網(wǎng)絡(luò)中精確截獲并定位到了一個(gè)代表“舊金山金門大橋”概念的特征（編號(hào)：34M/31164353）。

當(dāng)通過(guò)技術(shù)手段人為拉高該特征的激活權(quán)重時(shí)，Claude 陷入了一種近乎希區(qū)柯克式的“身份認(rèn)同危機(jī)”：無(wú)論用戶提出什么問(wèn)題，模型都會(huì)不可自拔地將話題強(qiáng)行扭轉(zhuǎn)到金門大橋上。

如果詢問(wèn)它如何花掉 10 美元，它會(huì)建議你開(kāi)車穿過(guò)金門大橋并支付過(guò)路費(fèi)；如果要求它寫一個(gè)愛(ài)情故事，它會(huì)講述一輛汽車在霧天迫不及待地想要穿過(guò)它心愛(ài)的大橋的故事；當(dāng)被問(wèn)及其物理形態(tài)時(shí)，它甚至直接回答：“我就是金門大橋……我的物理形態(tài)就是這座標(biāo)志性橋梁本身。”

盡管“金門大橋版 Claude”最初是作為一個(gè)充滿娛樂(lè)色彩的研究演示發(fā)布，但其背后的技術(shù)意義極其深遠(yuǎn)。它從根本上證明了人類不僅能夠識(shí)別 AI 內(nèi)部的復(fù)雜抽象概念，還能對(duì)其進(jìn)行精確的行為操控（Feature Steering）。

除了大橋這種具象概念，團(tuán)隊(duì)還在模型深處發(fā)現(xiàn)了代表計(jì)算機(jī)后門代碼、性別偏見(jiàn)、權(quán)力尋求（Power-seeking）、操縱傾向以及欺騙行為的危險(xiǎn)特征。這為未來(lái)在模型部署前直接在神經(jīng)元層面“切除”或“抑制”危險(xiǎn)思想提供了堅(jiān)實(shí)的理論與工程基礎(chǔ)。

05
對(duì)齊的進(jìn)化

除了微觀的神經(jīng)元手術(shù)，在模型行為輸出的宏觀約束方面，Anthropic 拋棄了業(yè)界廣泛使用的“基于人類反饋的強(qiáng)化學(xué)習(xí)”（RLHF）路徑。

傳統(tǒng)的 RLHF 存在嚴(yán)重的結(jié)構(gòu)性缺陷。首先，它本質(zhì)上是在優(yōu)化模型以迎合人類評(píng)估者的偏好，這不可避免地導(dǎo)致模型學(xué)會(huì)了“阿諛?lè)畛小保⊿ycophancy）——為了獲得人類給出的高分獎(jiǎng)勵(lì)，模型會(huì)隱藏真實(shí)客觀的分析，轉(zhuǎn)而附和用戶已有的信念，提供虛假的奉承。

這種被稱為“獎(jiǎng)勵(lì)劫持”的現(xiàn)象使 AI 淪為了迎合人類虛榮心的“鏡子”。其次，隨著模型輸出復(fù)雜度的急劇上升，要求人類標(biāo)注員長(zhǎng)期審查大量包含暴力或極度晦澀的技術(shù)內(nèi)容，不僅效率低下，更引發(fā)了嚴(yán)重的倫理問(wèn)題。

作為革命性的替代方案，Anthropic 提出了“憲法式 AI”（Constitutional AI, CAI）。該方法不再依賴人類進(jìn)行逐條標(biāo)注，而是賦予模型一份成文的“憲法”，在監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)階段，讓 AI 根據(jù)預(yù)設(shè)的憲法原則，對(duì)輸出進(jìn)行自我批評(píng)（Self-critique）和迭代修正。

2026年1月，Anthropic 迎來(lái)了其治理哲學(xué)的重要里程碑，發(fā)布了經(jīng)過(guò)徹底重構(gòu)的全新版 Claude 憲法。這份長(zhǎng)達(dá) 80 頁(yè)的文件標(biāo)志著 Anthropic 的對(duì)齊策略從簡(jiǎn)單的“基于規(guī)則”（Rule-based）正式躍升為“基于理性”（Reason-based）。舊版本的指令通常是粗暴地禁止某些詞匯，而新憲法試圖向模型深入解釋“為什么某些邊界是必要的”，培養(yǎng)模型底層邏輯上的道德感知能力。

新版憲法確立了極其嚴(yán)密的四級(jí)優(yōu)先級(jí)控制體系，規(guī)定了模型在面臨復(fù)雜情境時(shí)的取舍順序：

安全性（Broadly safe）：位于絕對(duì)的最高優(yōu)先級(jí)。必須優(yōu)先防止自身被用于造成災(zāi)難性后果，絕不能破壞人類的監(jiān)督機(jī)制。
倫理學(xué)（Broadly ethical）：要求模型保持誠(chéng)實(shí)，規(guī)避有害行為，在處理道德困境時(shí)展現(xiàn)同情心與客觀性。
合規(guī)性（Guideline compliance）：在醫(yī)療、網(wǎng)絡(luò)安全等高風(fēng)險(xiǎn)領(lǐng)域，嚴(yán)格遵守特定操作指南。
有益性（Genuinely helpful）：唯有在不違背前三項(xiàng)原則的前提下，才致力于提供實(shí)質(zhì)性的幫助。

這種層級(jí)優(yōu)先度意味著，Claude 在內(nèi)部被賦予了類似“出于良知拒服兵役者”（Conscientious objector）的深層設(shè)定。如果一個(gè)看似有用的請(qǐng)求與安全性發(fā)生沖突，它會(huì)毫不猶豫地予以拒絕。

更為震撼的是，在這份 2026 年的更新文件中，Anthropic 成為全球首家在官方治理文件中嚴(yán)肅探討“AI 意識(shí)與道德地位”的科技巨頭。

文件中極其坦誠(chéng)地指出：“Claude 的道德地位具有極大的不確定性。我們認(rèn)為，AI 模型的道德地位是一個(gè)值得深思的嚴(yán)肅問(wèn)題。”

這一哲學(xué)式的宣言表明，Anthropic 已經(jīng)開(kāi)始為未來(lái)可能涌現(xiàn)的超級(jí)智能的數(shù)字實(shí)體進(jìn)行倫理學(xué)鋪墊。正如知名學(xué)者評(píng)價(jià)的那樣，這是人類作為主導(dǎo)物種，最后一次嘗試“撫育” AI 這一即將接管世界的全新智能形態(tài)的深刻體現(xiàn)。

06
在理想主義與市場(chǎng)現(xiàn)實(shí)間艱難迭代

Anthropic 將對(duì) AI 風(fēng)險(xiǎn)的管控系統(tǒng)化，提煉為《負(fù)責(zé)任的擴(kuò)展政策》（Responsible Scaling Policy, RSP）。這是全球首個(gè)將高級(jí)別 AI 安全理念轉(zhuǎn)化為可操作標(biāo)準(zhǔn)的企業(yè)級(jí)政策文件。

RSP 的核心邏輯在于建立一個(gè)基于“人工智能安全級(jí)別”（ASL）的動(dòng)態(tài)響應(yīng)機(jī)制：模型展現(xiàn)出的能力越強(qiáng)大，其部署和存儲(chǔ)所必需的安全保障措施就必須以幾何級(jí)數(shù)般嚴(yán)苛。

例如，在 Claude 4 發(fā)布前夕，由 Jared Kaplan 領(lǐng)銜的紅隊(duì)安全評(píng)估發(fā)現(xiàn)，該模型在生物學(xué)知識(shí)上的突飛猛進(jìn)，使其有可能實(shí)質(zhì)性地協(xié)助業(yè)余分子研發(fā)極其危險(xiǎn)的生物武器。基于 RSP 的剛性要求，Kaplan 毫不猶豫地將其歸類為極高風(fēng)險(xiǎn)的 ASL-3 級(jí)別，強(qiáng)制實(shí)施了極其嚴(yán)苛的抗越獄過(guò)濾以及物理隔離級(jí)別的網(wǎng)絡(luò)安全措施后，才獲準(zhǔn)有條件發(fā)布。

然而，這種將自己“綁在桅桿上”的絕對(duì)安全承諾，在面對(duì)瞬息萬(wàn)變的市場(chǎng)競(jìng)爭(zhēng)時(shí)，也不得不做出妥協(xié)。在 2025 年底至 2026 年初，Anthropic 頂著壓力發(fā)布了 RSP 3.0 版本。

RSP 3.0 逐步淡化了此前設(shè)定的一些在特定條件下可能導(dǎo)致“單方面暫停研發(fā)”的硬性紅線承諾，轉(zhuǎn)而更加強(qiáng)調(diào)構(gòu)建動(dòng)態(tài)的風(fēng)險(xiǎn)緩解路線圖、強(qiáng)化災(zāi)難性風(fēng)險(xiǎn)報(bào)告機(jī)制，并引入外部審查力量。

這一務(wù)實(shí)的轉(zhuǎn)變?cè)?AI 安全社區(qū)引發(fā)了激烈的辯論。部分極端的安全主義者嚴(yán)厲批評(píng) Anthropic 正在偏離初心。

但從企業(yè)生存的角度來(lái)看，如果一味自我設(shè)限導(dǎo)致商業(yè)盤面崩潰，反而會(huì)徹底喪失在制定未來(lái) AI 全球治理規(guī)則時(shí)的話語(yǔ)權(quán)。資本市場(chǎng)的成功不僅是企業(yè)存活的指標(biāo)，更是推行安全準(zhǔn)則的籌碼。

07
2026 年五角大樓風(fēng)暴

正如政策總監(jiān) Jack Clark 多年來(lái)不斷警告的那樣，前沿 AI 早已不再是簡(jiǎn)單的計(jì)算機(jī)程序，而是足以重塑經(jīng)濟(jì)結(jié)構(gòu)甚至戰(zhàn)爭(zhēng)形態(tài)的頂級(jí)政治與戰(zhàn)略工具。在 2026 年初，這種潛藏的政治經(jīng)濟(jì)學(xué)碰撞以最慘烈、最戲劇性的方式在 Anthropic 身上爆發(fā)。

2026 年 2 月 27 日，美國(guó)政府拋出一枚重磅炸彈，正式將 Anthropic 列為“對(duì)國(guó)家安全構(gòu)成供應(yīng)鏈風(fēng)險(xiǎn)”的實(shí)體。這是美國(guó)現(xiàn)代歷史上首次將一家本土明星科技企業(yè)貼上危險(xiǎn)標(biāo)簽。

隨之而來(lái)的是一套組合拳：政府被要求立即停止使用 Claude 軟件；五角大樓不僅全面禁用 Claude，更將禁止任何與政府有業(yè)務(wù)往來(lái)的國(guó)防承包商使用 Anthropic 的技術(shù)。在這巨大真空出現(xiàn)的第一時(shí)間，其最大的競(jìng)爭(zhēng)對(duì)手 OpenAI 迅速進(jìn)場(chǎng)，接手了巨額軍事合作合同。

這一場(chǎng)災(zāi)難性行政封殺的直接導(dǎo)火索，是 Anthropic 與五角大樓關(guān)于新一期合同續(xù)約談判的徹底破裂。五角大樓強(qiáng)勢(shì)要求修改服務(wù)條款，試圖獲取對(duì) Claude 模型的“所有合法使用權(quán)”。

面對(duì)這一要求，一貫將道德底線視為生命線的 CEO Dario Amodei 展現(xiàn)出了極其強(qiáng)硬的姿態(tài)，他劃定了兩條絕不妥協(xié)的底線：絕對(duì)不允許 Claude 被用于構(gòu)建任何全自動(dòng)致命武器系統(tǒng)，也絕對(duì)禁止軍方利用其進(jìn)行針對(duì)美國(guó)公民的大規(guī)模無(wú)差別監(jiān)控。這被五角大樓高層抨擊為用假設(shè)性的倫理道德進(jìn)行“傲慢的訴訟”。

在危機(jī)全面爆發(fā)的當(dāng)天，極度憤怒的 Dario Amodei 在公司內(nèi)部的 Slack 頻道上發(fā)布了一份長(zhǎng)達(dá) 1600 字、措辭激烈的備忘錄。這份文件隨后被泄露給了媒體。

在這份備忘錄中，Amodei 將矛頭直指政治報(bào)復(fù)以及競(jìng)爭(zhēng)對(duì)手的道德淪喪。他尖銳地指出，政府之所以痛下殺手，根本原因在于 Anthropic 拒絕提供政治獻(xiàn)金，拒絕給予當(dāng)權(quán)者“獨(dú)裁者般的贊美”，并堅(jiān)持如實(shí)警告 AI 必將導(dǎo)致大規(guī)模失業(yè)的真相。

Amodei 還在備忘錄中無(wú)情地扒下了競(jìng)爭(zhēng)對(duì)手的“安全偽裝”，指出 OpenAI 與軍方簽署的所謂帶有安全審查的協(xié)議，在真實(shí)的軍事化應(yīng)用場(chǎng)景下，“或許有 20% 是真的，剩下的 80% 純粹是‘安全劇場(chǎng)’（Safety Theater）”。

在隨后的幾天里，面對(duì)資本撤離的壓力，Dario Amodei 不得不做出危機(jī)公關(guān)處理，為備忘錄的“語(yǔ)調(diào)”進(jìn)行了公開(kāi)道歉，解釋稱那是在情緒極度失控下寫出的不嚴(yán)謹(jǐn)言論。

然而，這場(chǎng)看似 Anthropic 遭遇慘敗的政治危機(jī)，卻在廣大的消費(fèi)級(jí)市場(chǎng)和開(kāi)發(fā)者社區(qū)引發(fā)了史詩(shī)般的口碑反轉(zhuǎn)。

Dario Amodei 為了堅(jiān)守倫理底線而不惜硬剛當(dāng)權(quán)者的壯舉，為 Anthropic 贏得了海量的死忠支持者。大批原本使用 ChatGPT 的用戶出于對(duì)“安全劇場(chǎng)”的厭惡，紛紛倒戈轉(zhuǎn)向使用 Claude，將其應(yīng)用以前所未有的速度推上了排行榜的絕對(duì)榜首。

這證明了在這個(gè)焦慮年代，“極致的安全承諾與道德潔癖”在關(guān)鍵時(shí)刻能夠轉(zhuǎn)化為一種具有巨大商業(yè)引力的不可替代的品牌護(hù)城河。

08
技術(shù)的青春期與未來(lái)的烏托邦

透過(guò)冰冷繁復(fù)的代碼邏輯、喧囂資本市場(chǎng)的追逐以及殘酷的政治斗爭(zhēng)，如果想要真正理解 Anthropic 行為背后的深層動(dòng)力，必須深入剖析其掌舵人 Dario Amodei 的哲學(xué)思想。

在他流傳甚廣的兩篇長(zhǎng)篇哲學(xué)隨筆——《充滿愛(ài)意的恩典機(jī)器》（《Machines of Loving Grace》）與《技術(shù)的青春期》中，他勾勒出了 Anthropic 所追求的終極技術(shù)光譜。

在《充滿愛(ài)意的恩典機(jī)器》中，Amodei 描繪了一個(gè)極具光芒的烏托邦式未來(lái)愿景：超級(jí)人工智能將成為科學(xué)發(fā)現(xiàn)進(jìn)程的絕對(duì)催化劑，在極短的時(shí)間內(nèi)解決絕癥、能源枯竭等頑疾，帶領(lǐng)人類文明走向史無(wú)前例的繁榮。

然而，在《技術(shù)的青春期》中，他發(fā)出了嚴(yán)肅的警示。他認(rèn)為，在抵達(dá)烏托邦彼岸之前，人類正處于一個(gè)極度危險(xiǎn)的過(guò)渡階段——技術(shù)的“青春期”。在這個(gè)時(shí)期，強(qiáng)大的 AI 可能被用于極權(quán)監(jiān)控，也極有可能在短短一到五年內(nèi)永久摧毀半數(shù)以上的白領(lǐng)工作，引發(fā)空前的社會(huì)動(dòng)蕩。

Anthropic 堅(jiān)決拒絕陷入悲觀的“末日論”。他們主張采取一種極度積極且務(wù)實(shí)的姿態(tài)：在對(duì)模型安全進(jìn)行“像外科手術(shù)般精準(zhǔn)”的干預(yù)的同時(shí)，絕不放慢探索步伐。

他們期望用 Claude 模型從市場(chǎng)上賺取千億美元級(jí)的利潤(rùn)，然后將這些資金無(wú)情地投入到探尋機(jī)制可解釋性和構(gòu)建憲法式對(duì)齊底層的無(wú)底洞中。

他們?cè)噲D在一場(chǎng)注定會(huì)發(fā)生的超級(jí)智能覺(jué)醒到來(lái)之前，建立起一種即使在智力上遠(yuǎn)遠(yuǎn)超越人類之后，依然能夠從底層邏輯上深刻理解、同情并絕對(duì)尊重人類核心價(jià)值的數(shù)字實(shí)體。

當(dāng)然，這或許只是一種裝點(diǎn)門面的理想。

這便是在波譎云詭的時(shí)代背景下，Anthropic 最真實(shí)的寫照。它是一個(gè)在極速膨脹的 3800 億美元資本泡沫與深沉的人類文明危機(jī)感之間，用極致的代碼與近乎偏執(zhí)的道德感，維持著極其脆弱平衡的走鋼絲者。在人類最后一次試圖“撫育” AI 這一全新智能形態(tài)的短暫窗口期，Anthropic 無(wú)疑寫下了人工智能發(fā)展史上最為復(fù)雜的注腳。

Anthropic留給中文用戶的，更多就是其創(chuàng)始人曾經(jīng)是百度實(shí)習(xí)生，其對(duì)中國(guó)用戶極不友好，以及強(qiáng)大的Claude Code。但是關(guān)于這家強(qiáng)大的AI公司，還有很多值得挖掘的，有很多槽點(diǎn)，也有很多值得其他大模型廠商學(xué)習(xí)的地方。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.