導 語
2026年,美國在人工智能(AI)技術治理與國防科技政策的交匯點上推出了一項具有標志性意義的研究計劃——“AI Forge”(人工智能鍛造計劃)。該計劃由國防高級研究計劃局(DARPA)、國家科學基金會(NSF)與國家標準與技術研究院(NIST)下屬的AI標準與創新中心(CAISI)聯合實施,并已發布面向高校研究團隊的綱領性指導文件。
該計劃是《美國人工智能行動計劃》(America's AI Action Plan)既定部署的直接落地。行動計劃明確要求“由DARPA牽頭、聯合商務部CAISI與NSF,實施一項推進AI可解釋性、AI控制系統與對抗魯棒性的技術開發項目”。報告將其立項依據界定為一項需要公共干預的結構性供給缺口(strategic gap):商業AI研發以通用能力的規模化擴張為導向,而國家安全任務對AI提出了差異化需求——須在生死攸關情境中運行、以超越常規人類監督節奏執行動作、維護隱私邊界、與遺留基礎設施安全集成、并滿足嚴格的認證標準。由于此類問題缺乏即時商業回報,私營部門投入不足,形成“資金不足、探索不充分”的研發洼地。AI鑄造計劃的政策定位即為填補缺口、對關鍵難題實施前置性去風險(de-risk),并為前沿AI企業的后續投資開辟可行路徑。
在組織機制上,該計劃構建了一個由“高校—前沿AI企業—政府國防與情報部門”三方組成的協作論壇,以“項目風投”(Project Ventures)形式開展快節奏研究攻關,并通過向高校開放前沿級算力與模型訪問權限,配套人才與思想的跨機構流動。其議程綜合了2026 AI Forge National Security AI Strategic Visioning Workshop(AI鑄造研討會)的共識——該會議匯聚八家頭部前沿AI企業、十五個以上國防部與情報界機構的首席AI官。文件并設定每六個月迭代更新一次的滾動修訂機制,以匹配技術演進節奏。
在內容架構上,報告采用“三大研究主線(Research Thrust)×五項研究挑戰(Research Challenge)”的矩陣式設計,整體形成一條由理解、到控制、再到對抗安全的遞進邏輯鏈:AI可解釋性主線追求“看得懂”,推動可解釋性由實驗室解釋升級為可審計的操作性能力;AI控制主線追求“管得住”,構建覆蓋全生命周期的整體控制架構以維持有意義的人類控制;對抗魯棒性主線追求“打不垮”,由以模型為中心的靜態防御轉向覆蓋“模型到任務”全鏈條的縱深防御。三條主線各設五項研究挑戰,共同收束于“為高風險任務部署提供可驗證證據”這一統一目標。其邏輯結構如下圖所示。
![]()
一、AI可解釋性推動其由學術屬性向工程化運維能力轉換
第一條主線的核心政策意圖,在于推動可解釋性由“實驗室解釋”升級為操作性可解釋性(operational interpretability),即一種按用戶角色定制、并須以任務相關基準予以度量的運維能力。這一目標設定具有明確的工程治理取向,將可解釋性從描述性概念重構為可驗證、可審計的能力指標。
五項挑戰在技術成熟度上呈現清晰的梯度遞進。挑戰1聚焦從相關性洞察向可檢驗因果機制的躍遷,直指當前方法的核心局限——缺乏因果接地的可解釋性在問責與調試場景中“脆弱且杠桿有限”,難以支撐事故歸因。
挑戰2將分析對象界定為“長程失效”,準確識別出高后果失效多為跨步驟、跨交互的涌現行為,并要求在無模型內部訪問條件下生成“可檢驗的經驗性歸因”,對部署后取證提出了高標準。
挑戰3的政策價值在于對自動化解釋的忠實性風險作出預警,明確要求自動化與持續驗證耦合,以防“流暢但不忠實”的解釋成為新的誤差來源乃至欺騙載體——這是一項重要的風險內控設計。
挑戰4將可解釋性單元由“token級輸出”上提至“動作序列級”,對應智能體(agentic)系統的治理需求轉換。
挑戰5則前瞻性地處理“評估對象能力超越評估者”這一根本性命題,強調以“可追溯的證據包”(evidence packages)作為產出形態,體現了證據導向的評估治理思路。
二、AI控制以全生命周期整體控制架構夯實可靠性工程
第二條主線的關鍵技術診斷是,多數AI失效“并非傳統意義的軟件缺陷,而是意圖失敗”(failures of intent),其成因為目標錯誤設定(goal misspecification)或目標錯誤泛化(goal misgeneralization)。這一診斷決定了治理路徑必須深入模型底層,而非依賴外部封裝與脆弱的系統級護欄。
五項挑戰構成覆蓋“內生—溯源—遏制—干預—評估”全生命周期的控制鏈條。挑戰1提出“可驗證可引導性”,其要點在于將原生不確定性量化機制嵌入模型,使其具備對自身能力邊界的可靠認知并在高風險時主動求援——這是從能力導向向可信導向的關鍵能力躍升。
挑戰2針對“AI生成AI”帶來的供應鏈治理新問題,以加密簽名、安全制品庫、可復現訓練流水線、版本間差異測試等技術治理工具,回應部署前的關鍵審查問題(運行的究竟是什么、人類與AI各自貢獻了哪些部分、相較上一版本有何變更、風險態勢如何變化),具備較強的可操作性。
挑戰3與挑戰4分別構建預防性的“零信任遏制架構”與主動性的“運行時干預層”,并務實地承認逐動作同步驗證的時延不可承受,轉而提出風險分級驗證、異步監控、統計審計等性能—安全權衡方案。
挑戰5以“預測性評估”收束,直指靜態觀測式基準“無法可信預測真實性能且可被高能力智能體規避”的方法論缺陷,主張以動態、介入式評估及罕見災難性失效的風險估計,構建可支撐任務保障(mission assurance)的證據鏈。
三、對抗魯棒性由模型中心防御轉向全鏈條縱深防御
第三條主線的威脅研判明確指出,攻擊形態已由細微數據擾動演進為對生成模型的利用、對智能體工具調用的操縱以及針對在線系統的多步自適應攻擊,其后果可級聯為操作可靠性的整體喪失。相應地,主線的總體目標設定為由靜態、以模型為中心的防御,轉向覆蓋“模型到任務”全鏈條的整體安全態勢,并構成一套縱深防御(defense-in-depth)技術棧。
五項挑戰的層次劃分清晰。挑戰1作出一項務實判斷——對互聯網規模語料訓練的基礎模型而言“保證數據完整性很可能不可行”,因而將研究重心由“清洗”轉向“緩解”,目標是可驗證地限定受污染數據子集的影響,并發展即便無法定位污染數據亦能檢測后門效應的敏感行為測試,體現了“承認不完美、轉而管理風險”的成熟工程治理邏輯。
挑戰2與挑戰3將防御對象推進至交互式與多智能體系統,針對“AI對手每秒發起數千次探測”的機器速度威脅,要求由靜態護欄轉向閉環自適應防御,并在多智能體層面追求“構造上即無法被誘導釀成災難性失效”的協調協議與優雅降級能力。
挑戰4處理持續學習的安全悖論,即實時適應為任務剛需,但數據流本身構成“低速慢滲”的持久攻擊向量,方案以區分良性分布漂移與對抗注入、“在線遺忘”等機制予以應對。
作為收束的挑戰5指向可信基準測試,明確以網絡安全領域成熟的可重復性、有效性、有界假設下壓力測試等驗證概念為參照,產出可支撐高風險認證與部署授權的“可追溯、可審計、可辯護”的證據產品——這與前兩條主線的證據導向邏輯高度一致。
結 語
綜合評析,該計劃的政策價值不限于若干具體技術議題,更在于其在科技管理層面所確立的若干治理范式。
一、重新界定AI研發的“前沿”內涵,明確公共部門在市場失靈領域的科技投入定位。
當行業普遍將“前沿”等同于通用能力的規模化擴張時,該計劃將可信、可控、可靠確立為同等重要、需獨立攻堅的基礎科學問題;并以“缺乏即時商業回報—私營投入不足—公共前置去風險”的邏輯鏈條,為政府在公共品供給領域的研發干預提供了清晰的政策依據,其“去風險后再引導企業投資”的設計構成了一種公共—私營接力的創新機制。
二、示范“挑戰驅動、跨機構協同”的科研組織范式與敏捷治理機制。
三家職能差異顯著的機構——主管前沿研究的DARPA、主管基礎科學的NSF、主管標準的CAISI——圍繞統一的挑戰清單形成職能互補的攻關合力,并將高校、企業、政府編織為共享算力與模型的協作網絡。其以“挑戰”而非“機構”為中心的組織邏輯,疊加“每六個月滾動更新”的敏捷修訂機制,為快速演進領域的科研治理提供了可借鑒的組織設計樣本。
三、揭示AI技術治理的核心抓手在于“可驗證的證據”與“度量科學”。
貫穿三大主線的共同暗線,是將一切目標最終歸結為可審計、可追溯、可復現的“證據產品”,并以共享工具、共同標準與可信基準為支撐。報告反復強調以“嚴謹的經驗證據”替代“實驗室可運行”的脆弱主張。這一思路表明,AI治理由理念走向實操的關鍵,不在于宣示原則,而在于建立使原則可被度量、可被檢驗、可被問責的度量科學與保障生態。
四、體現高風險技術治理中“承認不確定性、管理而非消除風險”的工程倫理取向。
從坦承“數據完整性不可保證”,到明示性能與安全的權衡,再到對“過度信任”與“評估被規避”的反復內控,該計劃未訴諸技術萬能論,而是在承認能力邊界的前提下追求“風險可管理、可辯護”。這種以風險管理為基調的治理姿態,是先進技術走向負責任部署的前提條件。
總體而言,該計劃試圖鍛造的與其說是一組技術,不如說是一種制度化能力——即讓決策者能夠基于可驗證證據對先進AI給予有理據的信任(justified confidence),并以“AI保障生態”取代當前“定制化、脆弱”的解決方案格局。在能力競賽加速的背景下,如何同步構建與之匹配的可信基礎設施與保障體系,構成其留給AI研發與治理各方的共同課題。
馮巖,上海市研發公共服務平臺管理中心(上海市科技人才發展中心)。丁煒超,華東理工大學信息科學與工程學院計算機科學與工程系副教授。文章觀點不代表主辦機構立場。
◆ ◆ ◆
編輯郵箱:sciencepie@126.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.