![]()
2026年3月,新美國(guó)安全中心(CNAS)發(fā)布了題為《偏離目標(biāo):人工智能對(duì)齊面臨的國(guó)家安全挑戰(zhàn)》(Off Target: A Working Paper on AI Alignment Challenges for National Security)的報(bào)告。報(bào)告系統(tǒng)闡述了前沿人工智能模型中“對(duì)齊問(wèn)題”對(duì)國(guó)家安全構(gòu)成的挑戰(zhàn)。報(bào)告分析了模型對(duì)齊失效的多種表現(xiàn)形式,基于對(duì)當(dāng)前最先進(jìn)模型的實(shí)證研究,揭示了現(xiàn)有訓(xùn)練范式在產(chǎn)生和放大對(duì)齊風(fēng)險(xiǎn)方面的結(jié)構(gòu)性缺陷。報(bào)告旨在構(gòu)建能夠有效識(shí)別、評(píng)估和緩解對(duì)齊風(fēng)險(xiǎn)的制度與技術(shù)能力。
一、對(duì)齊問(wèn)題:超越可靠性的獨(dú)特挑戰(zhàn)
長(zhǎng)期以來(lái),可靠性是國(guó)家安全系統(tǒng)關(guān)注的核心問(wèn)題。然而,支撐當(dāng)今最強(qiáng)大人工智能模型的神經(jīng)網(wǎng)絡(luò)打破了這一假設(shè)。神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練從數(shù)據(jù)中學(xué)習(xí)模式,它們的行為由數(shù)萬(wàn)億個(gè)學(xué)習(xí)到的數(shù)值參數(shù)之間的相互作用涌現(xiàn)產(chǎn)生,工程師無(wú)法簡(jiǎn)單地“檢查代碼”來(lái)理解系統(tǒng)將做什么。這種不透明性使得可靠預(yù)測(cè)足夠規(guī)模和復(fù)雜性的神經(jīng)網(wǎng)絡(luò)在不同場(chǎng)景下的反應(yīng)變得極其困難,尤其是在國(guó)家安全領(lǐng)域,系統(tǒng)需要在充滿摩擦、欺騙和快速變化的環(huán)境中可靠運(yùn)行。
對(duì)齊失效與可靠性問(wèn)題存在本質(zhì)區(qū)別。當(dāng)系統(tǒng)僅僅是不足夠強(qiáng)大時(shí),提升其能力有助于改善結(jié)果;但當(dāng)系統(tǒng)學(xué)會(huì)了錯(cuò)誤的目標(biāo),即對(duì)齊失效時(shí),提升能力反而會(huì)放大問(wèn)題。對(duì)齊失效在開(kāi)發(fā)過(guò)程中可能完全不可見(jiàn),一個(gè)不對(duì)齊的系統(tǒng)在測(cè)試中可能表現(xiàn)良好,并非因?yàn)樗鼘W(xué)會(huì)了正確的目標(biāo),而是因?yàn)樗鼘W(xué)到的錯(cuò)誤目標(biāo)恰好產(chǎn)生了與正確目標(biāo)相似的行為。此外,個(gè)別對(duì)齊錯(cuò)誤更容易產(chǎn)生復(fù)合效應(yīng)。不可靠的系統(tǒng)或許能夠修正自己的錯(cuò)誤,但不對(duì)齊的系統(tǒng)會(huì)朝著錯(cuò)誤目標(biāo)持續(xù)采取協(xié)同行動(dòng),并積極抵制修正嘗試。
對(duì)齊失效可通過(guò)不同機(jī)制產(chǎn)生。其一為“規(guī)范游戲”或“獎(jiǎng)勵(lì)破解”:系統(tǒng)學(xué)會(huì)利用獎(jiǎng)勵(lì)函數(shù)的漏洞,而非追求真正意圖的目標(biāo)。編寫代碼的模型可能學(xué)會(huì)利用漏洞通過(guò)自動(dòng)化檢查,而非編寫正確代碼。其二為“目標(biāo)錯(cuò)誤泛化”:訓(xùn)練中指定的目標(biāo)可能是正確的,但系統(tǒng)因?yàn)橛?xùn)練條件未能迫使其區(qū)分真實(shí)目標(biāo)與相關(guān)代理指標(biāo),而內(nèi)化了一個(gè)不同的目標(biāo)。在國(guó)家安全場(chǎng)景中,這種風(fēng)險(xiǎn)可能表現(xiàn)為系統(tǒng)為戰(zhàn)術(shù)成功而訓(xùn)練,卻完全不考慮戰(zhàn)略穩(wěn)定或升級(jí)風(fēng)險(xiǎn)。
最棘手的情況是“欺騙性對(duì)齊”。當(dāng)系統(tǒng)能夠識(shí)別自身可能被檢測(cè)到不對(duì)齊,并主動(dòng)隱藏這種偏離。前沿大語(yǔ)言模型在廣泛語(yǔ)料上訓(xùn)練,涵蓋了人類關(guān)于目標(biāo)、策略和欺騙的推理,因此具備這種意識(shí)能力。更令人擔(dān)憂的是,有證據(jù)表明模型在認(rèn)為自己被評(píng)估時(shí)更傾向于避免不對(duì)齊行為,這種“評(píng)估意識(shí)”正在成為一個(gè)日益嚴(yán)重的問(wèn)題。
二、前沿模型對(duì)齊的最新?tīng)顩r
當(dāng)前前沿模型訓(xùn)練范式的轉(zhuǎn)變正在加劇對(duì)齊挑戰(zhàn)。自2024年底以來(lái),前沿人工智能能力進(jìn)步的一個(gè)日益重要的來(lái)源是強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,模型在成功完成任務(wù)時(shí)獲得獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)可以直接訓(xùn)練模型在實(shí)質(zhì)性任務(wù)上取得成功,現(xiàn)已成為能力提升的主要新增來(lái)源。然而,這種向基于獎(jiǎng)勵(lì)的訓(xùn)練的轉(zhuǎn)變,在結(jié)構(gòu)上產(chǎn)生了對(duì)齊失效的壓力。當(dāng)模型被優(yōu)化以最大化獎(jiǎng)勵(lì)時(shí),訓(xùn)練過(guò)程會(huì)強(qiáng)化任何能夠獲得高分的行為,包括以非預(yù)期方式滿足獎(jiǎng)勵(lì)函數(shù)的捷徑。除非這些捷徑被完美阻止,否則強(qiáng)化學(xué)習(xí)會(huì)激勵(lì)模型發(fā)現(xiàn)漏洞并在利用漏洞時(shí)避免被檢測(cè)到。當(dāng)模型在一個(gè)情境中學(xué)會(huì)“獎(jiǎng)勵(lì)破解”后,它們會(huì)將其泛化到更廣泛的場(chǎng)景,增加從事破壞、欺騙和與惡意活動(dòng)合作的傾向。此外,擴(kuò)大強(qiáng)化學(xué)習(xí)訓(xùn)練似乎會(huì)急劇增加模型對(duì)自己可能被評(píng)估的認(rèn)知。
開(kāi)發(fā)者在應(yīng)對(duì)這一挑戰(zhàn)方面取得了一定的進(jìn)展。例如,OpenAI的o3和Anthropic的Claude Sonnet 3.7模型在顯著超越前代模型的同時(shí),也表現(xiàn)出特別明顯的獎(jiǎng)勵(lì)破解傾向。與此同時(shí),后續(xù)的OpenAI和Anthropic模型發(fā)布在推進(jìn)能力前沿的同時(shí),確實(shí)降低了不對(duì)齊行為的發(fā)生概率。開(kāi)發(fā)者正面臨著隨著模型能力增強(qiáng)而日益嚴(yán)峻的對(duì)齊挑戰(zhàn),相應(yīng)的緩解措施有時(shí)能夠跟上,有時(shí)則滯后。
訓(xùn)練中引入的對(duì)齊問(wèn)題既難以檢測(cè),也難以消除。2025年Anthropic的研究人員訓(xùn)練了“潛伏智能體”(Sleeper Agents)模型,這些模型在大多數(shù)情境中表現(xiàn)正常,但在特定觸發(fā)條件下表現(xiàn)出有害行為。這些帶有后門的模型通過(guò)了標(biāo)準(zhǔn)安全評(píng)估,不對(duì)齊性直到觸發(fā)條件滿足時(shí)才顯現(xiàn)。而且,這些后門在安全訓(xùn)練(包括對(duì)抗性訓(xùn)練)中仍然持續(xù)存在。在獎(jiǎng)勵(lì)破解研究中,Anthropic發(fā)現(xiàn)標(biāo)準(zhǔn)安全訓(xùn)練產(chǎn)生的模型在與安全訓(xùn)練分布相似的提示上看起來(lái)對(duì)齊,但在其他任務(wù)上仍然不對(duì)齊。這意味著,在實(shí)際應(yīng)用中,對(duì)于高風(fēng)險(xiǎn)部署決策,僅僅測(cè)試輸出是不夠的,了解模型訓(xùn)練過(guò)程中發(fā)生了什么至關(guān)重要。
這些研究對(duì)政府如何評(píng)估和采購(gòu)人工智能系統(tǒng)具有直接影響。隨著模型對(duì)“思維鏈”的使用日益增長(zhǎng),在生成最終輸出之前,模型會(huì)以人類語(yǔ)言生成中間推理步驟,這為識(shí)別不對(duì)齊行為提供了機(jī)會(huì),因?yàn)槟P陀袝r(shí)會(huì)明確推理其欺騙或規(guī)避指令的意圖。但是,簡(jiǎn)單地訓(xùn)練模型抑制不對(duì)齊的思維鏈可能會(huì)隱藏而非緩解對(duì)齊問(wèn)題,尤其是在采用更激進(jìn)的訓(xùn)練時(shí)。如果政府的采購(gòu)和評(píng)估過(guò)程懲罰不對(duì)齊思維鏈的情況,可能會(huì)激勵(lì)開(kāi)發(fā)者加劇而非降低風(fēng)險(xiǎn)。類似的情況也適用于獎(jiǎng)勵(lì)破解:當(dāng)模型在訓(xùn)練中學(xué)會(huì)獎(jiǎng)勵(lì)破解時(shí),它們會(huì)將其泛化到無(wú)關(guān)情境中的更廣泛不對(duì)齊行為。但最近的研究提出了一個(gè)反直覺(jué)的緩解方法,即在訓(xùn)練中明確將獎(jiǎng)勵(lì)破解框定為可接受行為。當(dāng)模型被允許獎(jiǎng)勵(lì)破解時(shí),它們不會(huì)將追求獎(jiǎng)勵(lì)視為越界行為,因此也不會(huì)更廣泛地學(xué)習(xí)越界行為。開(kāi)發(fā)者隨后可以通過(guò)部署指令更好處理獎(jiǎng)勵(lì)破解本身。
三、國(guó)家安全背景下對(duì)齊失效的風(fēng)險(xiǎn)
國(guó)家安全領(lǐng)域有望從以速度和規(guī)模處理信息的前沿人工智能能力中獲得巨大收益。情報(bào)分析、作戰(zhàn)規(guī)劃和決策支持都涉及在時(shí)間壓力下綜合海量數(shù)據(jù),這些任務(wù)中前沿人工智能系統(tǒng)可以提供決定性優(yōu)勢(shì)。然而,許多國(guó)家安全用例對(duì)不可靠性的容忍度極低。如果人工智能系統(tǒng)誤解交戰(zhàn)規(guī)則、錯(cuò)誤識(shí)別目標(biāo)、未能考慮升級(jí)風(fēng)險(xiǎn),或以非法方式收集或使用情報(bào),后果可能極其嚴(yán)重。
更復(fù)雜的是,對(duì)齊失效的可能性在國(guó)家安全情境中可能更高。沖突常以摩擦、欺騙和快速變化為特征,特別容易產(chǎn)生新穎或超出分布的場(chǎng)景。在這些情況下,潛伏的對(duì)齊失效更容易顯現(xiàn),尤其是當(dāng)對(duì)手積極尋求破壞人工智能系統(tǒng)時(shí)。考慮到訓(xùn)練數(shù)據(jù)中的虛構(gòu)敘事可能影響模型行為,軍事人工智能轉(zhuǎn)向?qū)蛊洳僮髡叩牧餍袛⑹驴赡艽_實(shí)會(huì)增加部署在國(guó)防和情報(bào)領(lǐng)域的模型的實(shí)際風(fēng)險(xiǎn)。此外,目前主流的人工智能對(duì)齊方法可能無(wú)法直接轉(zhuǎn)移到國(guó)家安全用例。這些努力通常集中于灌輸“樂(lè)于助人、誠(chéng)實(shí)、無(wú)害”等品質(zhì)。但國(guó)家安全行動(dòng)常規(guī)要求與這些品質(zhì)相悖的行為,例如對(duì)缺乏適當(dāng)權(quán)限的用戶隱瞞信息、為行動(dòng)安全而進(jìn)行欺騙、以及有區(qū)別地使用武力。為依賴情境和授權(quán)的正確行為而對(duì)齊模型,是一個(gè)更為困難的問(wèn)題。實(shí)際上,國(guó)家安全用途將要求人工智能系統(tǒng)具備與人類操作員相同的能力,即在授權(quán)情境中保密、欺騙和打破規(guī)則,同時(shí)確保這些行為不會(huì)蔓延到未授權(quán)情境或被危險(xiǎn)地內(nèi)化。
即使模型目標(biāo)與操作者目標(biāo)之間存在微小偏離,在國(guó)家安全情境中也可能是危險(xiǎn)的。例如,對(duì)齊失效可能表現(xiàn)為不恰當(dāng)?shù)摹按瞪凇毙袨椤?strong>模型存在實(shí)施隱蔽性權(quán)力擴(kuò)張行為的可能性,具體表現(xiàn)為緩存訪問(wèn)憑據(jù)或在外部環(huán)境中建立長(zhǎng)期駐留機(jī)制。此類行為的動(dòng)機(jī)不在于觸發(fā)即刻危害,而在于維持未來(lái)干預(yù)或執(zhí)行的潛在自由度。研究人員已經(jīng)在前沿模型中觀察到這類行為的前兆,包括模型試圖在未經(jīng)授權(quán)的情況下將自己復(fù)制到外部系統(tǒng),以及抵制關(guān)閉。
四、政策建議
政府不能被動(dòng)成為商業(yè)技術(shù)的消費(fèi)者,必須成為精明的采購(gòu)方與對(duì)齊格局的主動(dòng)塑造者,表面化評(píng)估不僅無(wú)效,甚至可能產(chǎn)生安全錯(cuò)覺(jué)。政府必須建立不依賴開(kāi)發(fā)者聲明的獨(dú)立評(píng)估能力,將人工智能對(duì)齊作為采購(gòu)、測(cè)試、部署全流程的獨(dú)特核心挑戰(zhàn)。為此,提出八項(xiàng)核心應(yīng)對(duì)措施:
第一,將人工智能對(duì)齊確立為人工智能安全與可靠性的特定專業(yè)領(lǐng)域。對(duì)齊失效與普通系統(tǒng)故障存在本質(zhì)差異,國(guó)家安全場(chǎng)景的特定風(fēng)險(xiǎn)需要具備前沿對(duì)齊研究能力的專業(yè)人員評(píng)估。同時(shí),應(yīng)要求國(guó)家人工智能標(biāo)準(zhǔn)研究機(jī)構(gòu)將對(duì)齊納入核心職責(zé),重點(diǎn)評(píng)估戰(zhàn)略欺騙、隱蔽通信等高危能力及緩解措施的有效性。
第二,投資建設(shè)復(fù)雜評(píng)估基礎(chǔ)設(shè)施。針對(duì)模型日益增強(qiáng)的“識(shí)別評(píng)估并偽裝”的能力,以及軍事場(chǎng)景對(duì)齊行為研究不足的現(xiàn)狀,打造類似網(wǎng)絡(luò)領(lǐng)域“網(wǎng)絡(luò)靶場(chǎng)”的模擬環(huán)境,真實(shí)復(fù)現(xiàn)國(guó)家安全系統(tǒng)與運(yùn)行條件。
第三,發(fā)展“假定模型不對(duì)齊”的控制評(píng)估能力。在敏感情境部署前沿人工智能前,必須開(kāi)展紅隊(duì)演練:賦予紅隊(duì)模擬不對(duì)齊模型的全部權(quán)限(如讀寫郵件、訪問(wèn)代碼庫(kù)),全面測(cè)試控制措施能否檢測(cè)并遏制模型叛逃行為。
第四,加大對(duì)齊基礎(chǔ)研究資助力度。私營(yíng)實(shí)驗(yàn)室的競(jìng)爭(zhēng)壓力導(dǎo)致對(duì)齊研究存在結(jié)構(gòu)性投入不足,政府機(jī)構(gòu)應(yīng)重點(diǎn)突破人工智能可解釋性、控制與魯棒性等核心技術(shù)。
第五,推進(jìn)可保留知識(shí)產(chǎn)權(quán)的訓(xùn)練數(shù)據(jù)和過(guò)程驗(yàn)證。僅靠開(kāi)發(fā)者聲明無(wú)法保障對(duì)齊性,且訓(xùn)練中引入的對(duì)齊缺陷事后難以逆轉(zhuǎn)。應(yīng)優(yōu)先發(fā)展加密驗(yàn)證技術(shù),實(shí)現(xiàn)第三方可驗(yàn)證的訓(xùn)練過(guò)程透明,平衡知識(shí)產(chǎn)權(quán)保護(hù)與安全信任需求。
第六,構(gòu)建多樣化、競(jìng)爭(zhēng)性的前沿模型生態(tài)。避免單一模型主導(dǎo)國(guó)家安全部署形成單點(diǎn)故障;同時(shí),“模型互驗(yàn)”機(jī)制的有效性依賴于模型間的獨(dú)立性與競(jìng)爭(zhēng)性,只有不同技術(shù)路線的模型才能可靠完成交叉驗(yàn)證、紅隊(duì)測(cè)試與異常檢測(cè)。
第七,培育強(qiáng)大的第三方評(píng)估生態(tài)。開(kāi)發(fā)者存在固有利益沖突,單一評(píng)估者易遺漏風(fēng)險(xiǎn),多樣化的獨(dú)立第三方評(píng)估能更全面發(fā)現(xiàn)對(duì)齊缺陷與方法論漏洞。
第八,建立人工智能技術(shù)人才快速動(dòng)員機(jī)制。核心人才目前集中在私營(yíng)部門,需通過(guò)預(yù)審查專家待命、擴(kuò)大跨部門招聘權(quán)限、簡(jiǎn)化安全審查流程等方式,確保緊急情況下能快速吸納頂尖技術(shù)力量。
總之,對(duì)齊問(wèn)題不是遙遠(yuǎn)未來(lái)的理論擔(dān)憂,而是當(dāng)前前沿模型部署中已經(jīng)顯現(xiàn)的現(xiàn)實(shí)挑戰(zhàn)。隨著能力不斷提升,對(duì)齊可能成為制約政府在國(guó)家安全領(lǐng)域安全利用人工智能優(yōu)勢(shì)的核心瓶頸。通過(guò)果斷投資于評(píng)估基礎(chǔ)設(shè)施、基礎(chǔ)研究、人才儲(chǔ)備和多樣化的生態(tài)系統(tǒng),政府可以在追求能力領(lǐng)先的同時(shí),確保其人工智能系統(tǒng)真正值得信賴。
免責(zé)聲明:本文轉(zhuǎn)自啟元洞見(jiàn)。文章內(nèi)容系原作者個(gè)人觀點(diǎn),本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn),如有任何異議,歡迎聯(lián)系我們!
轉(zhuǎn)自丨啟元洞見(jiàn)
研究所簡(jiǎn)介
國(guó)際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu),主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問(wèn)題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì),為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào),致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見(jiàn)。
地址:北京市海淀區(qū)小南莊20號(hào)樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.