網易首頁 > 網易號 > 正文申請入駐

人工智能通識課：AI 安全與倫理

2026-05-28 07:04:51　來源: MediaTea

湖南舉報

分享至

人工智能正在從實驗室技術走向社會基礎設施。它可以輔助學習、生成內容、分析數據、識別圖像、編寫代碼、管理流程，也可以進入醫療、教育、金融、交通、制造、政務和公共服務等重要場景。AI 的能力越強、應用越廣，其安全與倫理問題就越不能被視為附屬話題。

AI 安全與倫理關注的核心問題是：人工智能系統不僅要“能用”，還要“可靠、可控、公平、透明、尊重人的權利，并對社會負責”。

從更廣的歷史背景看，人工智能被視為新一輪科技革命的重要力量。與蒸汽機、電力和計算機不同，AI 不只是替代體力勞動或加速信息處理，還開始進入語言生成、圖像識別、醫療輔助、自動決策等認知性任務。這種變化一方面提高了生產效率，另一方面也帶來就業結構變化、責任邊界模糊、人與智能體關系重塑等新問題。

因此，AI 安全與倫理討論的不是“技術能不能做到”，而是“技術應不應該這樣使用”“誰應當為結果負責”“怎樣讓技術發展真正增進人的福祉”。

圖 1：AI 安全與倫理在人工智能體系中的位置

從全球治理趨勢看，AI 已經不再只是技術問題，而是逐漸成為法律、政策、倫理和社會治理共同關注的問題。

近年來，美國國家標準與技術研究院（NIST）、歐盟、聯合國教科文組織（UNESCO）、經濟合作與發展組織（OECD）等機構和組織，陸續提出了 AI 風險管理、分級監管、透明問責、隱私保護、公平性和人的監督等原則。其共同方向是：既鼓勵 AI 創新，也要求 AI 系統在重要場景中更加安全、可信、可解釋、可追責。

一、為什么 AI 需要安全與倫理

AI 系統與普通軟件不同。傳統軟件通常按照明確規則運行，開發者寫下什么邏輯，程序就執行什么邏輯。而許多 AI 系統，尤其是機器學習和深度學習模型，是從數據中學習規律。

模型的行為不僅取決于代碼，也取決于訓練數據、優化目標、模型結構、部署環境和用戶輸入。

這使得 AI 系統具有三個重要特點。

1、AI 的能力來自數據，也可能繼承數據中的問題

如果訓練數據存在偏見、錯誤、遺漏或過時信息，模型可能學習并放大這些問題。

例如，招聘模型如果主要從歷史招聘數據中學習，而歷史數據本身存在性別、年齡或學校背景偏見，那么模型可能在新一輪篩選中繼續復制這種不公平。

2、AI 的輸出具有不確定性

許多 AI 模型不是按照固定規則給出唯一答案，而是基于概率生成結果。大語言模型尤其如此，它生成的是在當前上下文中概率較高的文本，并不等于它一定掌握事實真相。

因此，模型可能生成流暢但錯誤的內容，也可能在用戶沒有察覺的情況下給出誤導性建議。

3、AI 的影響會進入真實社會

當 AI 用于學習推薦、信貸審批、簡歷篩選、醫療輔助、輿情分析、自動駕駛或公共管理時，模型輸出可能影響人的機會、權益、安全和尊嚴。

此時，AI 不再只是“工具是否好用”的問題，而是涉及社會公平、法律責任和公共信任。

因此，AI 安全與倫理必須回答兩個層面的問題：

（1）技術層面

模型是否可靠、穩健、安全、可解釋、可控？

（2）社會層面

模型是否公平、尊重隱私、保護人的權利、避免濫用、責任清晰？

4、AI 倫理的基本宗旨

AI 倫理的核心，不是簡單地反對技術發展，而是為技術發展劃定合理邊界。

它關注的是：

? AI 應當做什么，不應當做什么

? 誰應當對 AI 系統的設計、部署和使用負責

? 如何讓 AI 技術朝著有利于人類福祉的方向發展

從這個意義上說，AI 倫理既約束模型本身，也約束設計者、開發者、使用者、平臺、企業和政策制定者。

AI 倫理通常包含兩個相互配合的方向：

（1）正向引導

鼓勵 AI 用于醫療、教育、工業、科研、環境保護、公共服務等有益場景。

（2）負向約束

防范隱私侵犯、算法歧視、深度偽造、虛假信息、自動化傷害和技術濫用。

簡而言之，AI 倫理的目標，是讓人工智能走向“可控、可信、可惠”的未來。

其中：

? 可控，指系統行為有邊界，風險可監測、可干預、可糾正

? 可信，指系統盡量做到可靠、安全、公平、透明、可解釋、可追責

? 可惠，指技術發展應增進人的福祉，而不是只服務效率、流量或利潤

二、AI 風險從哪里來

AI 風險并不只來自“模型太強”或“技術太復雜”。在真實系統中，風險往往來自多個環節的疊加：數據、算法、模型、部署場景、用戶行為和社會環境都會影響最終結果。

圖 2：AI 風險來源示意圖

1、數據風險

數據是 AI 學習的基礎。數據風險主要包括：

? 數據來源不合法

? 數據中包含隱私或敏感信息

? 數據樣本不均衡

? 數據標注錯誤

? 數據過時

? 數據存在歷史偏見

? 數據質量不足卻被用于高風險任務

低質量數據不僅會降低模型性能，還可能在招聘、金融、醫療、公共服務等場景中形成系統性誤導。

2、算法與模型風險

模型風險主要來自模型本身的學習機制和輸出方式，包括：

? 預測錯誤

? 對異常輸入不穩定

? 對惡意提示或攻擊敏感

? 生成虛假內容

? 無法解釋關鍵判斷依據

? 在不同群體上的表現差異較大

? 在訓練環境外表現下降

算法層面還可能存在目標函數設計不當、特征選擇不合理、評價指標片面等問題。例如，推薦系統如果只追求點擊率，可能傾向于推送刺激性、極端化或誤導性內容。

3、場景風險

同一個 AI 技術，用在不同場景中風險完全不同。

例如，AI 推薦電影屬于低風險應用；AI 推薦藥物劑量則屬于高風險應用。一個圖像識別模型用于整理相冊，出錯影響較??；用于安防執法或醫療篩查，出錯就可能嚴重影響個人權益和生命安全。

4、用戶行為風險

AI 系統可能被誤用或濫用。

誤用是指用戶并非故意作惡，但把 AI 用在不適合的場景中。例如，把普通問答模型當作醫學診斷工具，或把未經驗證的 AI 輸出直接用于法律、金融和教育評價。

濫用則是有意識地利用 AI 從事不當行為。例如，編造虛假新聞、偽造圖片和音頻、生成詐騙話術、批量制造垃圾信息，或繞過安全限制獲取危險內容。

5、社會系統風險

AI 還可能帶來更廣泛的社會影響，例如：

? 虛假信息傳播

? 深度偽造降低公眾信任

? 自動化決策加劇不平等

? 工作崗位結構變化

? 教育評價和學習誠信受到沖擊

? 少數大平臺掌握過強技術與數據優勢

? 個性化推薦造成信息繭房和群體對立

這些問題不能只靠模型開發者解決，也需要法律、教育、行業規范、平臺治理和公眾素養共同參與。

6、倫理風險的另一種分類

從倫理治理角度，也可以把 AI 風險概括為四類。

第一類是技術失控風險。

它指 AI 系統的能力、行為或影響超出人類預期與控制范圍。當前多數 AI 系統仍依賴特定數據、任務和環境，但隨著模型規模擴大、多模態融合和智能體技術發展，仍需要預警機制、緊急停止通道和人機協同干預等安全冗余設計。

第二類是技術非正當應用。

它包括誤用和濫用，是當下更現實、更緊迫的風險。例如，將人臉識別用于非授權監控，將生成式 AI 用于詐騙、深度偽造或輿論操縱。

第三類是系統性應用風險。

當 AI 大規模進入教育、醫療、金融、交通和公共治理等關鍵領域時，可能帶來就業結構變化、資源分配不平等、平臺壟斷和社會分化等問題。

第四類是治理失能。

AI 是復合性、高速演化的技術系統，如果法律、標準、監管、企業合規和公眾參與滯后，就可能出現權責模糊、監管空白和事故處理困難。

三、可信 AI：安全與倫理的共同目標

可信 AI（Trustworthy AI）是 AI 安全與倫理的重要目標。它并不意味著模型永遠不會出錯，而是要求 AI 系統在設計、訓練、部署和使用過程中，盡量做到可靠、可控、透明、公平并可追責。

NIST 對可信 AI 的特征做了較系統的概括，包括有效與可靠、安全、穩健與有韌性、透明與可問責、可解釋與可理解、隱私增強、公平并管理有害偏見等維度。

圖 3：可信 AI 的核心維度

1、可靠性

可靠性指 AI 系統在預期條件下能夠穩定完成任務。

例如，一個語音識別系統在普通話、方言、噪聲環境、不同年齡用戶中都應保持基本可用，而不能只在理想測試集上表現良好。

2、安全性

安全性指 AI 系統不會對用戶、組織或社會造成不可接受的傷害。

這里的安全既包括物理安全，例如自動駕駛、機器人、醫療設備，也包括信息安全，例如模型被攻擊、系統被繞過、敏感信息泄露。

3、穩健性

穩健性指模型在面對噪聲、異常輸入、分布變化或輕微擾動時，仍能保持合理表現。

例如，圖片稍微模糊、文字有錯別字、用戶提問方式不同，模型不應立即產生嚴重錯誤。

4、公平性

公平性指 AI 系統不應對特定群體造成不合理歧視。

公平性不是簡單要求所有人結果完全相同，而是要求模型不要因為性別、年齡、地域、種族、殘障、經濟背景等因素產生不當差別對待。

5、透明性

透明性指用戶、開發者和監管者能夠了解 AI 系統的基本用途、能力邊界、數據來源、決策流程和風險限制。

透明性可以分為三個層次：

（1）實現層透明性

算法執行過程、輸入輸出關系和關鍵邏輯可以被檢查，典型方式包括白盒測試、代碼審查等。

（2）規格層透明性

系統的設計目標、模型結構、訓練數據、損失函數、評估指標和適用邊界能夠被說明。

（3）解釋層透明性

系統不僅給出結果，還能說明決策依據、推理路徑和風險限制。

對于生成式 AI，還應讓用戶知道內容是否由 AI 生成或經過 AI 輔助。

6、可解釋性

可解釋性指 AI 系統的結果能夠被人理解和檢查。

對于普通推薦系統，解釋可以是“因為你喜歡類似內容”；對于醫療、金融、司法等高風險系統，則需要更嚴格的依據說明和人工復核機制。

在一些機器學習場景中，也可以使用 LIME、SHAP 等方法輔助分析模型輸出與特征之間的關系。但解釋工具不能替代風險評估、專業判斷和責任機制。

7、隱私保護

隱私保護要求 AI 系統在數據采集、訓練、推理和存儲過程中尊重個人信息權益。

尤其是人臉、聲音、位置、醫療記錄、身份信息、教育記錄和通信內容，都應受到更嚴格保護。

8、問責機制

問責意味著當 AI 系統造成問題時，不能把責任推給“算法自己決定”。

需要明確誰設計了系統，誰提供數據，誰部署使用，誰負責監督，誰處理申訴和糾錯。

四、從全生命周期看 AI 治理

AI 安全與倫理不能只在模型上線前檢查一次，而應貫穿系統全生命周期。一個 AI 系統從問題定義開始，到數據采集、模型訓練、評估測試、部署使用、持續監控和最終退役，每個階段都可能產生風險。

NIST AI 風險管理框架的核心由 Govern、Map、Measure、Manage 四類功能組成，用于幫助組織圍繞 AI 風險形成共同理解、開展評估并采取管理行動。

圖 4：AI 生命周期中的風險治理流程

1、問題定義階段

首先要問清楚：這個任務是否適合使用 AI？是否存在更簡單、更透明、更安全的方法？是否涉及人的重要權益？是否可能造成不公平或誤導？

不是所有問題都應該用 AI 解決。尤其在人身安全、醫療診斷、司法決策、教育評價等高風險場景中，必須謹慎評估。

2、數據階段

數據階段需要關注：

? 數據是否合法取得

? 是否包含敏感信息

? 是否需要脫敏或匿名化

? 樣本是否覆蓋主要人群

? 標注是否準確

? 數據是否存在明顯偏見

? 是否建立數據訪問權限和審計記錄

數據治理做不好，后續模型再復雜也難以保證安全與公平。

3、訓練階段

訓練階段需要關注模型結構、訓練目標、損失函數、超參數、訓練資源和安全策略。

對于大模型，還要關注訓練數據過濾、版權風險、有害內容過濾和模型能力評估。

4、評估階段

模型不能只看平均準確率。還應評估：

? 不同人群上的表現差異

? 極端輸入下的穩健性

? 對抗攻擊下的安全性

? 錯誤案例的嚴重程度

? 是否會產生幻覺或有害輸出

? 是否滿足業務和倫理要求

5、部署階段

部署時要明確用戶提示、適用范圍、禁止用途、人工復核機制、反饋渠道和日志記錄。

高風險系統不應完全自動化決策，而應保留人的監督與干預。

6、監控階段

模型上線后，真實環境可能發生變化。用戶行為、數據分布、政策要求和社會環境都會變化。

因此，需要持續監控模型表現，及時發現偏差、失效、濫用和安全事件。

7、更新與退役階段

當模型不再適合當前任務，或存在無法修復的風險時，應及時更新、限制使用或退役。

AI 治理不僅包括“如何上線”，也包括“何時停止使用”。

五、公平性、偏見與算法歧視

公平性是 AI 倫理中最重要的問題之一。AI 模型看似客觀，因為它由數據和算法驅動；但如果數據和系統設計本身包含偏見，模型也可能產生不公平結果。

圖 5：數據偏見如何影響模型結果

1、偏見可能來自數據

數據偏見是最常見的來源。

例如，某個圖像識別模型如果主要用白天、晴天、清晰畫面訓練，那么在夜晚、雨天或低光環境中可能表現較差。某個語音識別系統如果主要用標準口音訓練，就可能對方言、兒童聲音、老年人聲音識別效果較差。

2、偏見可能來自標簽

訓練數據的標簽通常由人提供。人的主觀判斷、歷史制度和文化偏見可能進入標簽。

例如，“優秀簡歷”“高風險用戶”“不良行為”等標簽，如果缺乏清晰標準，模型就可能學習到隱含歧視。

3、偏見可能來自目標函數

模型優化的目標如果設計不當，也會帶來不公平。

例如，推薦系統只追求點擊率，可能更傾向推薦刺激性、極端化或誤導性內容；教育系統只追求分數預測，可能忽視學生的成長背景和學習過程。

4、算法偏差的常見類型

從形成機制看，算法偏差還可以進一步分為幾類。

（1）既有偏差

它來自現實社會中已經存在的歷史偏見。例如，歷史招聘數據本身偏向某些群體，模型就可能把這種歷史偏見學習下來。

（2）技術偏差

它來自數據處理、特征選擇、模型結構或評價指標的不合理。例如，樣本不平衡、特征選擇片面、算法缺乏上下文理解，都可能導致偏差。

（3）涌現偏差

它指算法被部署到原本沒有預料的場景后，產生新的不公平后果。例如，一個面向娛樂推薦的系統被用于招聘篩選，就可能造成不合理過濾。

（4）反饋偏差

它指算法輸出反過來影響現實世界，使偏見不斷累積。例如，某地區被模型預測為高風險后獲得更多巡查，更多巡查又產生更多記錄，下一輪模型便更容易繼續把該地區判為高風險。這種“數據—模型—現實行為”的閉環，會形成循環偏誤。

5、算法歧視的典型問題

算法歧視是指由于數據、算法設計或部署方式中的系統性偏差，導致某些群體受到不公平對待。

一個經典案例是 COMPAS 再犯風險評估系統。

該系統用于輔助評估被告未來再犯風險，但研究發現，它在不同族群上的錯誤類型并不均衡。即使模型沒有直接使用種族變量，歷史執法差異、社會結構偏見和訓練數據分布也可能被間接編碼進模型。

這說明，算法不使用敏感變量，并不等于結果一定公平。公平性需要通過數據審查、分群體評估、錯誤分析、申訴機制和持續監控共同保障。

6、公平不等于簡單平均

公平性不是所有群體獲得完全相同結果，而是要求模型的差異具有合理依據，并避免無關身份因素造成不當傷害。

例如，在醫療篩查中，不同年齡群體風險不同，模型可以考慮醫學上合理的年齡因素；但不能因無關因素排除某些人獲得服務的機會。

7、如何減少偏見

減少偏見通常需要多種方法配合：

? 檢查數據來源和樣本覆蓋

? 分群體評估模型表現

? 分析錯誤案例是否集中在特定群體

? 對敏感特征進行謹慎處理

? 引入公平性指標

? 提高模型開發團隊的多元性

? 建立申訴和人工復核機制

? 在系統上線后持續監控。

六、數據倫理、隱私與個人權利

AI 系統往往需要大量數據，而數據中可能包含個人隱私、商業秘密、科研成果和公共管理信息。

數據倫理不僅是隱私保護問題，也是關于權利、公平、責任和數據價值分配的問題。

圖 6：數據倫理與隱私保護示意圖

1、什么是數據倫理

數據倫理是指在數據的生成、收集、存儲、使用、共享和銷毀全過程中，應遵循的價值觀念和行為準則。

它關注的不只是數據能否被技術處理，還包括：

? 數據是否被合法取得

? 數據主體是否知情并同意

? 數據用途是否清晰

? 數據是否被過度收集

? 數據是否會造成歧視或傷害

? 數據價值如何分配

? 數據泄露后誰來負責

因此，數據倫理貫穿數據生命周期，也貫穿 AI 系統的開發、訓練、部署和使用過程。

2、數據權屬與數據主體權利

數據權屬是數據倫理的重要問題。個人、企業、平臺和政府都可能參與數據的產生、收集、加工和使用，因此數據歸屬常常并不簡單。

從個人權利角度看，數據主體至少應關注以下權利：

? 知情權：知道自己的數據是否被收集、用于什么目的、流向哪里

? 選擇權：能夠同意、拒絕或撤回某些數據處理行為

? 訪問權：能夠查看與自己相關的數據

? 更正權：能夠糾正錯誤數據

? 刪除權：在合理條件下要求刪除相關數據

? 控制權：對個人數據的使用范圍具有一定控制能力

? 申訴權：當數據被濫用并造成損害時，有申訴和補救渠道

在一些涉及數據交易、平臺服務和數字經濟的場景中，還會涉及數據收益權、數據開放性和數據經濟性問題。這些問題仍處在持續討論和制度完善過程中。

3、哪些數據需要特別保護

以下數據通常需要更嚴格保護：

? 身份信息，如姓名、身份證號、電話號碼

? 生物特征，如人臉、指紋、聲紋、虹膜

? 位置信息，如家庭地址、實時定位、行動軌跡

? 醫療信息，如病歷、檢查報告、診斷記錄

? 金融信息，如賬戶、收入、交易記錄

? 教育信息，如成績、學習記錄、評價報告

? 通信內容，如聊天記錄、郵件、私密文件

? 未成年人信息

? 企業商業秘密和科研敏感數據

4、AI 為什么容易帶來隱私風險

AI 隱私風險主要包括：

? 訓練數據未經授權

? 模型可能記憶部分訓練樣本

? 用戶輸入被不當保存或再次用于訓練

? 多模態輸入中包含人臉、地址、車牌等敏感內容

? 模型輸出可能泄露他人信息

? 數據在傳輸、存儲和調用工具時被攻擊

? 跨平臺數據融合形成深度畫像

現實中，個人數據的收集路徑非常多，包括物聯網設備、智能家居、攝像頭、平臺型企業的數據留存、行政或商業流程中的制度性信息提交，以及 Cookie、像素標簽、設備指紋等互聯網追蹤技術。

判斷一項數據采集活動是否合倫理，關鍵要看用戶是否知情、是否授權、是否能夠控制數據去向。

5、數據生命周期中的風險

數據風險不是只發生在采集階段，而是貫穿完整生命周期。

（1）數據采集階段

主要風險是用戶未知情、未授權、默認開啟權限、超范圍收集。

（2）數據處理階段

主要風險是用途改變、數據濫用、算法歧視、數據被用于原本未說明的目的。

（3）數據存儲階段

主要風險是非法竊取、泄露、內部人員濫用權限。

（4）數據交易階段

主要風險是非法買賣、跨境流動難以監管、數據流向難以追蹤。

（5）數據銷毀階段

主要風險是數據未真正刪除、備份長期殘留、用戶撤回權無法落實。

因此，數據治理必須覆蓋采集、處理、存儲、共享、交易和銷毀，而不能只在隱私政策中作形式化說明。

6、非法數據交易與社工庫

數據作為一種新型生產要素，具有重要經濟價值。但如果缺乏規范，就可能形成非法數據交易和黑灰產業鏈。

“社工庫”是非法數據交易中的典型現象，通常指黑客或黑灰產組織通過攻擊、泄露、撞庫等方式非法收集的大規模個人數據集合，可能包含賬號密碼、身份證號、手機號、住址、通話記錄、銀行流水、位置記錄等敏感信息。

其中：

? 洗庫，指對非法獲得的數據進行清洗、整理和格式化

? 撞庫，指利用一個平臺泄露的賬號密碼，嘗試登錄其他平臺

? 精準詐騙，指利用泄露數據對特定人群實施更具針對性的欺騙

治理非法數據交易，需要從上游攻擊工具、中游數據交易市場、下游資金流通渠道和平臺安全防護等環節同時發力。

7、隱私保護的基本方法

常見方法包括：

? 數據最小化：只收集完成任務所必需的數據

? 脫敏處理：刪除或替換可識別個人身份的信息

? 權限控制：限制誰能訪問數據

? 加密存儲與傳輸：減少泄露風險

? 日志審計：記錄數據訪問和模型調用行為

? 本地化處理：敏感數據盡量在本地或可信環境中處理

? 用戶知情與同意：讓用戶了解數據用途和風險

? 差分隱私、聯邦學習、同態加密等隱私增強技術：在特定場景中降低數據暴露風險。

8、個人使用 AI 的隱私原則

個人使用 AI 工具時，應避免直接輸入身份證、銀行卡、病歷、合同原文、未公開代碼、客戶資料和私密聊天記錄。

上傳圖片時，也要注意是否包含人臉、車牌、住址、二維碼、票據編號等敏感信息。

七、生成式 AI 的特殊風險

生成式 AI 可以生成文本、圖片、語音、視頻和代碼。它極大提高了內容生產效率，也帶來了傳統 AI 系統不那么突出的風險。

1、幻覺問題

大語言模型和多模態大模型可能生成看似合理但實際錯誤的內容。這類現象通常被稱為幻覺。

例如：

? 編造不存在的論文

? 錯誤解釋法律條款

? 虛構醫學建議

? 看錯圖片中的文字

? 誤讀圖表數據

? 給出無法運行的代碼

? 把不確定信息說得非?？隙?/p>

圖 7：大模型幻覺與事實核查流程

減少幻覺不能只靠“讓模型更聰明”，還需要檢索增強、來源引用、工具校驗、人工復核和清晰的使用邊界。

2、虛假信息與深度偽造

生成式 AI 可以快速制造逼真的文字、圖片、語音和視頻。如果被惡意使用，可能用于詐騙、冒充他人、偽造證據、制造輿論操縱或傳播虛假新聞。

深度偽造尤其容易侵犯肖像權、名譽權、隱私權和人格尊嚴。未經同意使用他人照片、聲音或視頻進行生成和編輯，即使沒有直接牟利，也可能造成嚴重傷害。

3、開源模型與防濫用責任

開源模型有助于科研創新、技術普及和生態發展，但開源并不等于免責。

當模型具備強大的圖像生成、語音合成、代碼生成或自動化能力時，開發者和發布者應考慮必要的防濫用機制，例如內容安全過濾、用途限制說明、模型卡、風險提示、敏感能力評估和發布前測試。

這里的關鍵不是簡單反對開源，而是在開放創新與社會責任之間建立合理邊界。

4、版權與原創性問題

生成式 AI 的訓練數據和輸出內容可能涉及版權。用戶在商業出版、廣告設計、課程材料、影視制作和軟件開發中使用生成內容時，應注意版權來源、授權范圍和標注要求。

5、學術誠信問題

學生如果直接提交 AI 生成作業，可能損害學習過程和評價公平。

合理使用 AI 可以幫助學習、啟發思路和改進表達，但不應替代獨立思考、資料閱讀和真實寫作。

6、代碼安全問題

生成式 AI 可以輔助編程，但生成代碼可能存在安全漏洞、依賴錯誤、邊界情況遺漏或性能問題。

代碼必須經過測試、審查和安全檢查，不能未經驗證直接部署。

7、心理健康與未成年人保護

對話式 AI 可能被用戶長期依賴。尤其在孤獨、焦慮、抑郁或未成年人使用場景中，系統需要避免誤導用戶、加劇情緒問題或替代真實的人際支持。

面向高風險心理狀態的對話，系統應具備危機識別、求助引導、人工介入或轉向專業支持的機制。AI 不能充當專業心理干預的替代品。

八、AI 濫用與社會風險

AI 的風險不僅來自模型犯錯，也來自人有意濫用。隨著生成式 AI、自動化工具和多模態模型普及，AI 濫用的門檻正在降低。

圖 8：AI 濫用案例與倫理邊界示意

1、虛假信息批量生成

AI 可以快速生成新聞、評論、圖片和視頻。如果用于制造虛假事件、操縱輿論或攻擊個人聲譽，會損害公共信息環境。

2、詐騙與身份冒充

語音克隆、換臉視頻和自動生成話術可能被用于詐騙。攻擊者可以冒充親友、領導、客服或機構人員，誘導用戶轉賬或泄露信息。

3、網絡攻擊輔助

AI 可以被用于生成釣魚郵件、解釋漏洞代碼、自動化搜索目標或輔助攻擊腳本。

與此同時，AI 也可用于防御，例如漏洞檢測、日志分析和惡意代碼識別。因此，關鍵在于使用目的、權限和控制機制。

4、考試作弊與學習替代

AI 可輔助學習，但也可能被濫用于代寫論文、代做作業、繞過考試評價。

教育場景需要重新設計評價方式，更重視過程性學習、口頭說明、實踐任務和真實能力。

5、侵犯隱私與人格權

未經同意使用他人照片、聲音、視頻進行生成或編輯，可能侵犯隱私、肖像權、名譽權和人格尊嚴。

6、自動化歧視

如果組織在招聘、信貸、保險、教育篩選等場景中不加監督地使用 AI，可能把歷史不公平包裝成“算法結果”，使受影響者更難申訴。

7、信息繭房與認知偏差

個性化推薦可以提升用戶體驗，但也可能讓用戶不斷接觸自己已經認同的內容，逐漸陷入信息繭房。

當社交媒體、新聞平臺和短視頻系統不斷強化用戶既有立場時，就可能形成信息回音室和認知封閉。長此以往，用戶對現實的理解會變得片面，社會群體之間也更容易產生對立。

九、風險分級與治理原則

AI 應用的風險差異很大，因此治理方式也應分級。不能把所有 AI 系統都當作高風險系統，也不能對高風險系統只做形式化提醒。

歐盟 AI Act 明確采用基于風險的監管思路，并將 AI 系統劃分為不可接受風險、高風險、有限風險、最低或無風險等層級。

圖 9：AI 風險分級治理框架

1、低風險應用

低風險應用通常不會直接影響個人重大權益。

例如：

? 圖片美化

? 娛樂聊天

? 普通知識問答

? 文案潤色

? 個人學習輔助

? 非關鍵推薦

這類應用仍需保護隱私、避免誤導，但治理強度可以相對較低。

2、有限風險應用

有限風險應用需要重點關注透明性。

例如，用戶應知道自己是否正在與 AI 交互，內容是否由 AI 生成，圖像或視頻是否經過 AI 編輯。

常見例子包括：

? AI 客服

? 生成式圖片

? 深度合成視頻

? 自動生成新聞摘要

? AI 輔助廣告內容

3、高風險應用

高風險應用可能影響人的安全、機會、權利或重要資源分配。

例如：

? 醫療輔助診斷

? 教育升學評價

? 招聘篩選

? 信貸審批

? 基礎設施管理

? 司法輔助

? 自動駕駛

? 工業安全控制

這類系統必須有更嚴格的數據治理、模型評估、日志記錄、人工監督、申訴機制、第三方評估和持續監控。

4、不可接受風險應用

不可接受風險是指明顯侵犯基本權利、嚴重操控人或造成重大社會傷害的 AI 應用。

例如，利用 AI 進行社會評分、操控脆弱人群、違法監控或進行不當生物識別分類等，通常應被禁止或嚴格限制。

5、風險分級的核心意義

風險分級的意義在于：讓治理與風險相匹配。

低風險場景鼓勵創新，高風險場景嚴格監管，不可接受風險場景明確禁止。這樣既能保護社會安全與個人權利，也不至于讓所有 AI 創新都被同樣強度的規則壓制。

十、AI 安全技術與治理方法

AI 安全與倫理不能只停留在口號上，還需要具體技術、流程和制度支撐。

1、數據治理

數據治理包括數據來源審查、授權管理、質量檢查、敏感信息處理、偏見檢測、數據版本記錄和跨境數據合規管理。

數據治理的目標，是確保模型訓練和應用建立在合法、合規、可靠的數據基礎上。

對于涉及跨境數據流動的場景，還應關注數據主權、數據本地化、跨境安全評估、跨境審查和國家安全風險。

2、模型評估

模型評估不應只看單一準確率，而要綜合考慮：

? 常規性能

? 分群體表現

? 穩健性

? 安全性

? 可解釋性

? 幻覺率

? 有害輸出概率

? 工具調用正確性

? 高風險場景錯誤后果

3、算法安全

算法安全不僅指模型不容易出錯，也包括系統在復雜、不確定甚至敵對環境下保持穩定運行的能力。

它主要包括：

（1）性能穩定性

在不同環境、不同人群、不同輸入條件下保持合理表現。

（2）抗故障能力

在網絡攻擊、數據擾動、極端輸入下不輕易崩潰。

（4）對抗防護能力

面對對抗樣本、數據投毒、模型反推等攻擊時能夠識別和抵御風險。

（5）數據保護能力

在訓練、推理、存儲、調用過程中保護敏感數據。

4、紅隊測試

紅隊測試是指主動尋找模型或系統漏洞。測試人員會模擬攻擊者、惡意用戶或極端輸入，檢查系統是否會輸出危險內容、泄露信息、繞過限制或執行不當操作。

對于大模型和智能體系統，紅隊測試還應關注工具調用、權限邊界、提示注入、越權訪問和自動化執行風險。

5、安全對齊

安全對齊是指讓 AI 系統的行為盡量符合人類價值、使用規則和安全邊界。

對于大語言模型，常見方法包括監督微調、基于人類反饋的強化學習、安全規則、拒答策略、內容過濾和風險分類器。

6、人類監督

高風險系統應保留人的監督。

人的角色不是簡單地“看一眼”，而應具有理解系統輸出、提出質疑、覆蓋模型建議、處理申訴和承擔責任的能力。

7、可追溯與審計

AI 系統應記錄關鍵操作，例如數據版本、模型版本、輸入輸出、工具調用、人工干預和異常事件。

這樣在出現問題時，才能分析原因、修復系統并明確責任。

8、內容標注與水印

對于 AI 生成圖片、音頻、視頻和文本，在合適場景下應進行標注，讓用戶知道內容經過 AI 生成或編輯。

內容標注和數字水印有助于維護信息透明和公眾信任，但它們不能單獨解決所有真實性問題，還需要平臺治理、事實核查和法律責任配合。

9、第三方評估與算法備案

高風險 AI 系統不能只依賴企業自我聲明，還需要外部監督機制。

常見治理方式包括：

? 第三方獨立評估

? 高風險算法事前認證

? 算法備案制度

? 透明披露機制

? 事后審計

? 責任追溯

? 快速響應機制

在公共治理、司法、金融、醫療、教育等關鍵領域，這類機制尤其重要。

10、組織治理

組織層面需要建立 AI 使用規范、審批流程、風險評估機制、員工培訓、事故響應和責任分工。

AI 治理不是某個工程師或某個部門的任務，而是技術、管理、法律、倫理和業務共同參與的過程。

十一、個人、學校與組織如何負責任使用 AI

AI 安全與倫理不僅是政府和企業的事情，也與每個使用者有關。普通用戶、學生、教師、開發者和組織管理者，都需要形成基本的負責任使用意識。

圖 10：負責任使用 AI 的基本原則

1、個人使用 AI 的原則

個人使用 AI 時，應注意：

? 不輸入敏感隱私

? 不直接相信未經驗證的事實

? 不用 AI 生成欺騙性內容

? 不冒充他人

? 不傳播未核實的 AI 生成信息

? 不把 AI 建議當作專業診斷或法律意見

? 在重要場景中保留人工判斷

AI 可以幫助我們學習、寫作、整理和創造，但不能替代事實核查和責任判斷。

2、學生使用 AI 的原則

學生可以用 AI 解釋概念、生成練習、改寫表達、檢查結構和啟發思路。但不應直接讓 AI 代寫作業、代做實驗報告或偽造學習成果。

合理使用 AI 的目標應是提升理解能力，而不是繞過學習過程。

3、教師使用 AI 的原則

教師可以用 AI 輔助備課、設計練習、生成案例、分析學生反饋和改寫教材內容。

但應注意：

? 審核生成內容準確性

? 避免把學生評價完全交給 AI

? 保護學生隱私

? 引導學生理解 AI 的邊界

? 重新設計更重過程、更重表達和實踐的評價方式

4、開發者使用 AI 的原則

開發者應關注：

? 數據來源是否合法

? 模型輸出是否經過測試

? 是否提供用戶提示和風險說明

? 是否建立日志與監控

? 是否設置權限與安全邊界

? 是否對高風險輸出進行人工審核

? 是否提供糾錯和申訴機制

5、組織使用 AI 的原則

組織引入 AI 系統時，不應只問“能否提高效率”，還應問：

? 這個系統會影響誰？

? 出錯后果是什么？

? 數據是否合規？

? 用戶是否知情？

? 是否存在偏見？

? 是否需要人工復核？

? 誰對結果負責？

? 出現事故如何處理？

負責任的組織不會把 AI 當作“甩鍋工具”，而應把 AI 納入明確的治理框架中。

十二、AI 安全與倫理的發展趨勢

AI 安全與倫理不是固定不變的規則清單，而會隨著技術能力、應用場景和社會制度不斷演化。

1、從原則倡議走向制度落地

早期 AI 倫理更多停留在原則層面，例如公平、透明、隱私、問責。隨著 AI 應用進入高風險場景，治理重點正在從理念倡議轉向法律法規、行業標準、審計流程和技術評估。

2、從單一模型治理走向系統治理

真實 AI 應用通常不是一個模型單獨運行，而是由數據、模型、提示詞、工具調用、插件、數據庫、平臺接口和人工流程共同組成。

因此，未來治理不能只檢查模型本身，還要檢查整個系統鏈條。

3、從上線前評估走向持續監控

模型部署后，環境會變化，用戶會變化，攻擊方式也會變化。

因此，持續監控、反饋機制、事故響應和動態更新將越來越重要。

4、從文本風險走向多模態風險

隨著多模態模型發展，風險也從文本擴展到圖片、語音、視頻和行為控制。

深度偽造、視覺誤讀、語音冒充、視頻生成和機器人執行風險都需要新的治理方法。

5、從國內治理走向國際協同

AI 技術和應用具有跨國流動性。數據、模型、平臺、用戶和影響都可能跨越國界。

因此，AI 治理需要國際組織、政府、企業、科研機構和公眾共同參與。全球治理的難點在于：不同國家和地區在價值觀、法律制度、產業利益和安全關切上并不完全一致。如何在尊重差異的同時形成最低限度的共同規則，是未來 AI 治理的重要任務。

小結

AI 安全與倫理關注的不是“能不能使用 AI”，而是“如何負責任地使用 AI”。可信 AI 應盡量做到可靠、安全、公平、透明、可解釋、保護隱私并可追責。面對生成式 AI、多模態模型和數據倫理新問題，個人要查來源、保隱私、做復核；組織要分風險、建制度、留記錄、有人負責。AI 越強大，越需要清晰邊界與責任治理。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.