无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

人工智能通識課:AI 安全與倫理

0
分享至

人工智能正在從實驗室技術走向社會基礎設施。它可以輔助學習、生成內容、分析數據、識別圖像、編寫代碼、管理流程,也可以進入醫療、教育、金融、交通、制造、政務和公共服務等重要場景。AI 的能力越強、應用越廣,其安全與倫理問題就越不能被視為附屬話題。

AI 安全與倫理關注的核心問題是:人工智能系統不僅要“能用”,還要“可靠、可控、公平、透明、尊重人的權利,并對社會負責”。

從更廣的歷史背景看,人工智能被視為新一輪科技革命的重要力量。與蒸汽機、電力和計算機不同,AI 不只是替代體力勞動或加速信息處理,還開始進入語言生成、圖像識別、醫療輔助、自動決策等認知性任務。這種變化一方面提高了生產效率,另一方面也帶來就業結構變化、責任邊界模糊、人與智能體關系重塑等新問題。

因此,AI 安全與倫理討論的不是“技術能不能做到”,而是“技術應不應該這樣使用”“誰應當為結果負責”“怎樣讓技術發展真正增進人的福祉”。


圖 1:AI 安全與倫理在人工智能體系中的位置

從全球治理趨勢看,AI 已經不再只是技術問題,而是逐漸成為法律、政策、倫理和社會治理共同關注的問題。

近年來,美國國家標準與技術研究院(NIST)、歐盟、聯合國教科文組織(UNESCO)、經濟合作與發展組織(OECD)等機構和組織,陸續提出了 AI 風險管理、分級監管、透明問責、隱私保護、公平性和人的監督等原則。其共同方向是:既鼓勵 AI 創新,也要求 AI 系統在重要場景中更加安全、可信、可解釋、可追責。

一、為什么 AI 需要安全與倫理

AI 系統與普通軟件不同。傳統軟件通常按照明確規則運行,開發者寫下什么邏輯,程序就執行什么邏輯。而許多 AI 系統,尤其是機器學習和深度學習模型,是從數據中學習規律。

模型的行為不僅取決于代碼,也取決于訓練數據、優化目標、模型結構、部署環境和用戶輸入。

這使得 AI 系統具有三個重要特點。

1、AI 的能力來自數據,也可能繼承數據中的問題

如果訓練數據存在偏見、錯誤、遺漏或過時信息,模型可能學習并放大這些問題。

例如,招聘模型如果主要從歷史招聘數據中學習,而歷史數據本身存在性別、年齡或學校背景偏見,那么模型可能在新一輪篩選中繼續復制這種不公平。

2、AI 的輸出具有不確定性

許多 AI 模型不是按照固定規則給出唯一答案,而是基于概率生成結果。大語言模型尤其如此,它生成的是在當前上下文中概率較高的文本,并不等于它一定掌握事實真相。

因此,模型可能生成流暢但錯誤的內容,也可能在用戶沒有察覺的情況下給出誤導性建議。

3、AI 的影響會進入真實社會

當 AI 用于學習推薦、信貸審批、簡歷篩選、醫療輔助、輿情分析、自動駕駛或公共管理時,模型輸出可能影響人的機會、權益、安全和尊嚴。

此時,AI 不再只是“工具是否好用”的問題,而是涉及社會公平、法律責任和公共信任。

因此,AI 安全與倫理必須回答兩個層面的問題:

(1)技術層面

模型是否可靠、穩健、安全、可解釋、可控?

(2)社會層面

模型是否公平、尊重隱私、保護人的權利、避免濫用、責任清晰?

4、AI 倫理的基本宗旨

AI 倫理的核心,不是簡單地反對技術發展,而是為技術發展劃定合理邊界。

它關注的是:

? AI 應當做什么,不應當做什么

? 誰應當對 AI 系統的設計、部署和使用負責

? 如何讓 AI 技術朝著有利于人類福祉的方向發展

從這個意義上說,AI 倫理既約束模型本身,也約束設計者、開發者、使用者、平臺、企業和政策制定者。

AI 倫理通常包含兩個相互配合的方向:

(1)正向引導

鼓勵 AI 用于醫療、教育、工業、科研、環境保護、公共服務等有益場景。

(2)負向約束

防范隱私侵犯、算法歧視、深度偽造、虛假信息、自動化傷害和技術濫用。

簡而言之,AI 倫理的目標,是讓人工智能走向“可控、可信、可惠”的未來。

其中:

? 可控,指系統行為有邊界,風險可監測、可干預、可糾正

? 可信,指系統盡量做到可靠、安全、公平、透明、可解釋、可追責

? 可惠,指技術發展應增進人的福祉,而不是只服務效率、流量或利潤

二、AI 風險從哪里來

AI 風險并不只來自“模型太強”或“技術太復雜”。在真實系統中,風險往往來自多個環節的疊加:數據、算法、模型、部署場景、用戶行為和社會環境都會影響最終結果。


圖 2:AI 風險來源示意圖

1、數據風險

數據是 AI 學習的基礎。數據風險主要包括:

? 數據來源不合法

? 數據中包含隱私或敏感信息

? 數據樣本不均衡

? 數據標注錯誤

? 數據過時

? 數據存在歷史偏見

? 數據質量不足卻被用于高風險任務

低質量數據不僅會降低模型性能,還可能在招聘、金融、醫療、公共服務等場景中形成系統性誤導。

2、算法與模型風險

模型風險主要來自模型本身的學習機制和輸出方式,包括:

? 預測錯誤

? 對異常輸入不穩定

? 對惡意提示或攻擊敏感

? 生成虛假內容

? 無法解釋關鍵判斷依據

? 在不同群體上的表現差異較大

? 在訓練環境外表現下降

算法層面還可能存在目標函數設計不當、特征選擇不合理、評價指標片面等問題。例如,推薦系統如果只追求點擊率,可能傾向于推送刺激性、極端化或誤導性內容。

3、場景風險

同一個 AI 技術,用在不同場景中風險完全不同。

例如,AI 推薦電影屬于低風險應用;AI 推薦藥物劑量則屬于高風險應用。一個圖像識別模型用于整理相冊,出錯影響較??;用于安防執法或醫療篩查,出錯就可能嚴重影響個人權益和生命安全。

4、用戶行為風險

AI 系統可能被誤用或濫用。

誤用是指用戶并非故意作惡,但把 AI 用在不適合的場景中。例如,把普通問答模型當作醫學診斷工具,或把未經驗證的 AI 輸出直接用于法律、金融和教育評價。

濫用則是有意識地利用 AI 從事不當行為。例如,編造虛假新聞、偽造圖片和音頻、生成詐騙話術、批量制造垃圾信息,或繞過安全限制獲取危險內容。

5、社會系統風險

AI 還可能帶來更廣泛的社會影響,例如:

? 虛假信息傳播

? 深度偽造降低公眾信任

? 自動化決策加劇不平等

? 工作崗位結構變化

? 教育評價和學習誠信受到沖擊

? 少數大平臺掌握過強技術與數據優勢

? 個性化推薦造成信息繭房和群體對立

這些問題不能只靠模型開發者解決,也需要法律、教育、行業規范、平臺治理和公眾素養共同參與。

6、倫理風險的另一種分類

從倫理治理角度,也可以把 AI 風險概括為四類。

第一類是技術失控風險。

它指 AI 系統的能力、行為或影響超出人類預期與控制范圍。當前多數 AI 系統仍依賴特定數據、任務和環境,但隨著模型規模擴大、多模態融合和智能體技術發展,仍需要預警機制、緊急停止通道和人機協同干預等安全冗余設計。

第二類是技術非正當應用。

它包括誤用和濫用,是當下更現實、更緊迫的風險。例如,將人臉識別用于非授權監控,將生成式 AI 用于詐騙、深度偽造或輿論操縱。

第三類是系統性應用風險。

當 AI 大規模進入教育、醫療、金融、交通和公共治理等關鍵領域時,可能帶來就業結構變化、資源分配不平等、平臺壟斷和社會分化等問題。

第四類是治理失能。

AI 是復合性、高速演化的技術系統,如果法律、標準、監管、企業合規和公眾參與滯后,就可能出現權責模糊、監管空白和事故處理困難。

三、可信 AI:安全與倫理的共同目標

可信 AI(Trustworthy AI)是 AI 安全與倫理的重要目標。它并不意味著模型永遠不會出錯,而是要求 AI 系統在設計、訓練、部署和使用過程中,盡量做到可靠、可控、透明、公平并可追責。

NIST 對可信 AI 的特征做了較系統的概括,包括有效與可靠、安全、穩健與有韌性、透明與可問責、可解釋與可理解、隱私增強、公平并管理有害偏見等維度。


圖 3:可信 AI 的核心維度

1、可靠性

可靠性指 AI 系統在預期條件下能夠穩定完成任務。

例如,一個語音識別系統在普通話、方言、噪聲環境、不同年齡用戶中都應保持基本可用,而不能只在理想測試集上表現良好。

2、安全性

安全性指 AI 系統不會對用戶、組織或社會造成不可接受的傷害。

這里的安全既包括物理安全,例如自動駕駛、機器人、醫療設備,也包括信息安全,例如模型被攻擊、系統被繞過、敏感信息泄露。

3、穩健性

穩健性指模型在面對噪聲、異常輸入、分布變化或輕微擾動時,仍能保持合理表現。

例如,圖片稍微模糊、文字有錯別字、用戶提問方式不同,模型不應立即產生嚴重錯誤。

4、公平性

公平性指 AI 系統不應對特定群體造成不合理歧視。

公平性不是簡單要求所有人結果完全相同,而是要求模型不要因為性別、年齡、地域、種族、殘障、經濟背景等因素產生不當差別對待。

5、透明性

透明性指用戶、開發者和監管者能夠了解 AI 系統的基本用途、能力邊界、數據來源、決策流程和風險限制。

透明性可以分為三個層次:

(1)實現層透明性

算法執行過程、輸入輸出關系和關鍵邏輯可以被檢查,典型方式包括白盒測試、代碼審查等。

(2)規格層透明性

系統的設計目標、模型結構、訓練數據、損失函數、評估指標和適用邊界能夠被說明。

(3)解釋層透明性

系統不僅給出結果,還能說明決策依據、推理路徑和風險限制。

對于生成式 AI,還應讓用戶知道內容是否由 AI 生成或經過 AI 輔助。

6、可解釋性

可解釋性指 AI 系統的結果能夠被人理解和檢查。

對于普通推薦系統,解釋可以是“因為你喜歡類似內容”;對于醫療、金融、司法等高風險系統,則需要更嚴格的依據說明和人工復核機制。

在一些機器學習場景中,也可以使用 LIME、SHAP 等方法輔助分析模型輸出與特征之間的關系。但解釋工具不能替代風險評估、專業判斷和責任機制。

7、隱私保護

隱私保護要求 AI 系統在數據采集、訓練、推理和存儲過程中尊重個人信息權益。

尤其是人臉、聲音、位置、醫療記錄、身份信息、教育記錄和通信內容,都應受到更嚴格保護。

8、問責機制

問責意味著當 AI 系統造成問題時,不能把責任推給“算法自己決定”。

需要明確誰設計了系統,誰提供數據,誰部署使用,誰負責監督,誰處理申訴和糾錯。

四、從全生命周期看 AI 治理

AI 安全與倫理不能只在模型上線前檢查一次,而應貫穿系統全生命周期。一個 AI 系統從問題定義開始,到數據采集、模型訓練、評估測試、部署使用、持續監控和最終退役,每個階段都可能產生風險。

NIST AI 風險管理框架的核心由 Govern、Map、Measure、Manage 四類功能組成,用于幫助組織圍繞 AI 風險形成共同理解、開展評估并采取管理行動。


圖 4:AI 生命周期中的風險治理流程

1、問題定義階段

首先要問清楚:這個任務是否適合使用 AI?是否存在更簡單、更透明、更安全的方法?是否涉及人的重要權益?是否可能造成不公平或誤導?

不是所有問題都應該用 AI 解決。尤其在人身安全、醫療診斷、司法決策、教育評價等高風險場景中,必須謹慎評估。

2、數據階段

數據階段需要關注:

? 數據是否合法取得

? 是否包含敏感信息

? 是否需要脫敏或匿名化

? 樣本是否覆蓋主要人群

? 標注是否準確

? 數據是否存在明顯偏見

? 是否建立數據訪問權限和審計記錄

數據治理做不好,后續模型再復雜也難以保證安全與公平。

3、訓練階段

訓練階段需要關注模型結構、訓練目標、損失函數、超參數、訓練資源和安全策略。

對于大模型,還要關注訓練數據過濾、版權風險、有害內容過濾和模型能力評估。

4、評估階段

模型不能只看平均準確率。還應評估:

? 不同人群上的表現差異

? 極端輸入下的穩健性

? 對抗攻擊下的安全性

? 錯誤案例的嚴重程度

? 是否會產生幻覺或有害輸出

? 是否滿足業務和倫理要求

5、部署階段

部署時要明確用戶提示、適用范圍、禁止用途、人工復核機制、反饋渠道和日志記錄。

高風險系統不應完全自動化決策,而應保留人的監督與干預。

6、監控階段

模型上線后,真實環境可能發生變化。用戶行為、數據分布、政策要求和社會環境都會變化。

因此,需要持續監控模型表現,及時發現偏差、失效、濫用和安全事件。

7、更新與退役階段

當模型不再適合當前任務,或存在無法修復的風險時,應及時更新、限制使用或退役。

AI 治理不僅包括“如何上線”,也包括“何時停止使用”。

五、公平性、偏見與算法歧視

公平性是 AI 倫理中最重要的問題之一。AI 模型看似客觀,因為它由數據和算法驅動;但如果數據和系統設計本身包含偏見,模型也可能產生不公平結果。


圖 5:數據偏見如何影響模型結果

1、偏見可能來自數據

數據偏見是最常見的來源。

例如,某個圖像識別模型如果主要用白天、晴天、清晰畫面訓練,那么在夜晚、雨天或低光環境中可能表現較差。某個語音識別系統如果主要用標準口音訓練,就可能對方言、兒童聲音、老年人聲音識別效果較差。

2、偏見可能來自標簽

訓練數據的標簽通常由人提供。人的主觀判斷、歷史制度和文化偏見可能進入標簽。

例如,“優秀簡歷”“高風險用戶”“不良行為”等標簽,如果缺乏清晰標準,模型就可能學習到隱含歧視。

3、偏見可能來自目標函數

模型優化的目標如果設計不當,也會帶來不公平。

例如,推薦系統只追求點擊率,可能更傾向推薦刺激性、極端化或誤導性內容;教育系統只追求分數預測,可能忽視學生的成長背景和學習過程。

4、算法偏差的常見類型

從形成機制看,算法偏差還可以進一步分為幾類。

(1)既有偏差

它來自現實社會中已經存在的歷史偏見。例如,歷史招聘數據本身偏向某些群體,模型就可能把這種歷史偏見學習下來。

(2)技術偏差

它來自數據處理、特征選擇、模型結構或評價指標的不合理。例如,樣本不平衡、特征選擇片面、算法缺乏上下文理解,都可能導致偏差。

(3)涌現偏差

它指算法被部署到原本沒有預料的場景后,產生新的不公平后果。例如,一個面向娛樂推薦的系統被用于招聘篩選,就可能造成不合理過濾。

(4)反饋偏差

它指算法輸出反過來影響現實世界,使偏見不斷累積。例如,某地區被模型預測為高風險后獲得更多巡查,更多巡查又產生更多記錄,下一輪模型便更容易繼續把該地區判為高風險。這種“數據—模型—現實行為”的閉環,會形成循環偏誤。

5、算法歧視的典型問題

算法歧視是指由于數據、算法設計或部署方式中的系統性偏差,導致某些群體受到不公平對待。

一個經典案例是 COMPAS 再犯風險評估系統。

該系統用于輔助評估被告未來再犯風險,但研究發現,它在不同族群上的錯誤類型并不均衡。即使模型沒有直接使用種族變量,歷史執法差異、社會結構偏見和訓練數據分布也可能被間接編碼進模型。

這說明,算法不使用敏感變量,并不等于結果一定公平。公平性需要通過數據審查、分群體評估、錯誤分析、申訴機制和持續監控共同保障。

6、公平不等于簡單平均

公平性不是所有群體獲得完全相同結果,而是要求模型的差異具有合理依據,并避免無關身份因素造成不當傷害。

例如,在醫療篩查中,不同年齡群體風險不同,模型可以考慮醫學上合理的年齡因素;但不能因無關因素排除某些人獲得服務的機會。

7、如何減少偏見

減少偏見通常需要多種方法配合:

? 檢查數據來源和樣本覆蓋

? 分群體評估模型表現

? 分析錯誤案例是否集中在特定群體

? 對敏感特征進行謹慎處理

? 引入公平性指標

? 提高模型開發團隊的多元性

? 建立申訴和人工復核機制

? 在系統上線后持續監控。

六、數據倫理、隱私與個人權利

AI 系統往往需要大量數據,而數據中可能包含個人隱私、商業秘密、科研成果和公共管理信息。

數據倫理不僅是隱私保護問題,也是關于權利、公平、責任和數據價值分配的問題。


圖 6:數據倫理與隱私保護示意圖

1、什么是數據倫理

數據倫理是指在數據的生成、收集、存儲、使用、共享和銷毀全過程中,應遵循的價值觀念和行為準則。

它關注的不只是數據能否被技術處理,還包括:

? 數據是否被合法取得

? 數據主體是否知情并同意

? 數據用途是否清晰

? 數據是否被過度收集

? 數據是否會造成歧視或傷害

? 數據價值如何分配

? 數據泄露后誰來負責

因此,數據倫理貫穿數據生命周期,也貫穿 AI 系統的開發、訓練、部署和使用過程。

2、數據權屬與數據主體權利

數據權屬是數據倫理的重要問題。個人、企業、平臺和政府都可能參與數據的產生、收集、加工和使用,因此數據歸屬常常并不簡單。

從個人權利角度看,數據主體至少應關注以下權利:

? 知情權:知道自己的數據是否被收集、用于什么目的、流向哪里

? 選擇權:能夠同意、拒絕或撤回某些數據處理行為

? 訪問權:能夠查看與自己相關的數據

? 更正權:能夠糾正錯誤數據

? 刪除權:在合理條件下要求刪除相關數據

? 控制權:對個人數據的使用范圍具有一定控制能力

? 申訴權:當數據被濫用并造成損害時,有申訴和補救渠道

在一些涉及數據交易、平臺服務和數字經濟的場景中,還會涉及數據收益權、數據開放性和數據經濟性問題。這些問題仍處在持續討論和制度完善過程中。

3、哪些數據需要特別保護

以下數據通常需要更嚴格保護:

? 身份信息,如姓名、身份證號、電話號碼

? 生物特征,如人臉、指紋、聲紋、虹膜

? 位置信息,如家庭地址、實時定位、行動軌跡

? 醫療信息,如病歷、檢查報告、診斷記錄

? 金融信息,如賬戶、收入、交易記錄

? 教育信息,如成績、學習記錄、評價報告

? 通信內容,如聊天記錄、郵件、私密文件

? 未成年人信息

? 企業商業秘密和科研敏感數據

4、AI 為什么容易帶來隱私風險

AI 隱私風險主要包括:

? 訓練數據未經授權

? 模型可能記憶部分訓練樣本

? 用戶輸入被不當保存或再次用于訓練

? 多模態輸入中包含人臉、地址、車牌等敏感內容

? 模型輸出可能泄露他人信息

? 數據在傳輸、存儲和調用工具時被攻擊

? 跨平臺數據融合形成深度畫像

現實中,個人數據的收集路徑非常多,包括物聯網設備、智能家居、攝像頭、平臺型企業的數據留存、行政或商業流程中的制度性信息提交,以及 Cookie、像素標簽、設備指紋等互聯網追蹤技術。

判斷一項數據采集活動是否合倫理,關鍵要看用戶是否知情、是否授權、是否能夠控制數據去向。

5、數據生命周期中的風險

數據風險不是只發生在采集階段,而是貫穿完整生命周期。

(1)數據采集階段

主要風險是用戶未知情、未授權、默認開啟權限、超范圍收集。

(2)數據處理階段

主要風險是用途改變、數據濫用、算法歧視、數據被用于原本未說明的目的。

(3)數據存儲階段

主要風險是非法竊取、泄露、內部人員濫用權限。

(4)數據交易階段

主要風險是非法買賣、跨境流動難以監管、數據流向難以追蹤。

(5)數據銷毀階段

主要風險是數據未真正刪除、備份長期殘留、用戶撤回權無法落實。

因此,數據治理必須覆蓋采集、處理、存儲、共享、交易和銷毀,而不能只在隱私政策中作形式化說明。

6、非法數據交易與社工庫

數據作為一種新型生產要素,具有重要經濟價值。但如果缺乏規范,就可能形成非法數據交易和黑灰產業鏈。

“社工庫”是非法數據交易中的典型現象,通常指黑客或黑灰產組織通過攻擊、泄露、撞庫等方式非法收集的大規模個人數據集合,可能包含賬號密碼、身份證號、手機號、住址、通話記錄、銀行流水、位置記錄等敏感信息。

其中:

? 洗庫,指對非法獲得的數據進行清洗、整理和格式化

? 撞庫,指利用一個平臺泄露的賬號密碼,嘗試登錄其他平臺

? 精準詐騙,指利用泄露數據對特定人群實施更具針對性的欺騙

治理非法數據交易,需要從上游攻擊工具、中游數據交易市場、下游資金流通渠道和平臺安全防護等環節同時發力。

7、隱私保護的基本方法

常見方法包括:

? 數據最小化:只收集完成任務所必需的數據

? 脫敏處理:刪除或替換可識別個人身份的信息

? 權限控制:限制誰能訪問數據

? 加密存儲與傳輸:減少泄露風險

? 日志審計:記錄數據訪問和模型調用行為

? 本地化處理:敏感數據盡量在本地或可信環境中處理

? 用戶知情與同意:讓用戶了解數據用途和風險

? 差分隱私、聯邦學習、同態加密等隱私增強技術:在特定場景中降低數據暴露風險。

8、個人使用 AI 的隱私原則

個人使用 AI 工具時,應避免直接輸入身份證、銀行卡、病歷、合同原文、未公開代碼、客戶資料和私密聊天記錄。

上傳圖片時,也要注意是否包含人臉、車牌、住址、二維碼、票據編號等敏感信息。

七、生成式 AI 的特殊風險

生成式 AI 可以生成文本、圖片、語音、視頻和代碼。它極大提高了內容生產效率,也帶來了傳統 AI 系統不那么突出的風險。

1、幻覺問題

大語言模型和多模態大模型可能生成看似合理但實際錯誤的內容。這類現象通常被稱為幻覺。

例如:

? 編造不存在的論文

? 錯誤解釋法律條款

? 虛構醫學建議

? 看錯圖片中的文字

? 誤讀圖表數據

? 給出無法運行的代碼

? 把不確定信息說得非??隙?/p>


圖 7:大模型幻覺與事實核查流程

減少幻覺不能只靠“讓模型更聰明”,還需要檢索增強、來源引用、工具校驗、人工復核和清晰的使用邊界。

2、虛假信息與深度偽造

生成式 AI 可以快速制造逼真的文字、圖片、語音和視頻。如果被惡意使用,可能用于詐騙、冒充他人、偽造證據、制造輿論操縱或傳播虛假新聞。

深度偽造尤其容易侵犯肖像權、名譽權、隱私權和人格尊嚴。未經同意使用他人照片、聲音或視頻進行生成和編輯,即使沒有直接牟利,也可能造成嚴重傷害。

3、開源模型與防濫用責任

開源模型有助于科研創新、技術普及和生態發展,但開源并不等于免責。

當模型具備強大的圖像生成、語音合成、代碼生成或自動化能力時,開發者和發布者應考慮必要的防濫用機制,例如內容安全過濾、用途限制說明、模型卡、風險提示、敏感能力評估和發布前測試。

這里的關鍵不是簡單反對開源,而是在開放創新與社會責任之間建立合理邊界。

4、版權與原創性問題

生成式 AI 的訓練數據和輸出內容可能涉及版權。用戶在商業出版、廣告設計、課程材料、影視制作和軟件開發中使用生成內容時,應注意版權來源、授權范圍和標注要求。

5、學術誠信問題

學生如果直接提交 AI 生成作業,可能損害學習過程和評價公平。

合理使用 AI 可以幫助學習、啟發思路和改進表達,但不應替代獨立思考、資料閱讀和真實寫作。

6、代碼安全問題

生成式 AI 可以輔助編程,但生成代碼可能存在安全漏洞、依賴錯誤、邊界情況遺漏或性能問題。

代碼必須經過測試、審查和安全檢查,不能未經驗證直接部署。

7、心理健康與未成年人保護

對話式 AI 可能被用戶長期依賴。尤其在孤獨、焦慮、抑郁或未成年人使用場景中,系統需要避免誤導用戶、加劇情緒問題或替代真實的人際支持。

面向高風險心理狀態的對話,系統應具備危機識別、求助引導、人工介入或轉向專業支持的機制。AI 不能充當專業心理干預的替代品。

八、AI 濫用與社會風險

AI 的風險不僅來自模型犯錯,也來自人有意濫用。隨著生成式 AI、自動化工具和多模態模型普及,AI 濫用的門檻正在降低。


圖 8:AI 濫用案例與倫理邊界示意

1、虛假信息批量生成

AI 可以快速生成新聞、評論、圖片和視頻。如果用于制造虛假事件、操縱輿論或攻擊個人聲譽,會損害公共信息環境。

2、詐騙與身份冒充

語音克隆、換臉視頻和自動生成話術可能被用于詐騙。攻擊者可以冒充親友、領導、客服或機構人員,誘導用戶轉賬或泄露信息。

3、網絡攻擊輔助

AI 可以被用于生成釣魚郵件、解釋漏洞代碼、自動化搜索目標或輔助攻擊腳本。

與此同時,AI 也可用于防御,例如漏洞檢測、日志分析和惡意代碼識別。因此,關鍵在于使用目的、權限和控制機制。

4、考試作弊與學習替代

AI 可輔助學習,但也可能被濫用于代寫論文、代做作業、繞過考試評價。

教育場景需要重新設計評價方式,更重視過程性學習、口頭說明、實踐任務和真實能力。

5、侵犯隱私與人格權

未經同意使用他人照片、聲音、視頻進行生成或編輯,可能侵犯隱私、肖像權、名譽權和人格尊嚴。

6、自動化歧視

如果組織在招聘、信貸、保險、教育篩選等場景中不加監督地使用 AI,可能把歷史不公平包裝成“算法結果”,使受影響者更難申訴。

7、信息繭房與認知偏差

個性化推薦可以提升用戶體驗,但也可能讓用戶不斷接觸自己已經認同的內容,逐漸陷入信息繭房。

當社交媒體、新聞平臺和短視頻系統不斷強化用戶既有立場時,就可能形成信息回音室和認知封閉。長此以往,用戶對現實的理解會變得片面,社會群體之間也更容易產生對立。

九、風險分級與治理原則

AI 應用的風險差異很大,因此治理方式也應分級。不能把所有 AI 系統都當作高風險系統,也不能對高風險系統只做形式化提醒。

歐盟 AI Act 明確采用基于風險的監管思路,并將 AI 系統劃分為不可接受風險、高風險、有限風險、最低或無風險等層級。


圖 9:AI 風險分級治理框架

1、低風險應用

低風險應用通常不會直接影響個人重大權益。

例如:

? 圖片美化

? 娛樂聊天

? 普通知識問答

? 文案潤色

? 個人學習輔助

? 非關鍵推薦

這類應用仍需保護隱私、避免誤導,但治理強度可以相對較低。

2、有限風險應用

有限風險應用需要重點關注透明性。

例如,用戶應知道自己是否正在與 AI 交互,內容是否由 AI 生成,圖像或視頻是否經過 AI 編輯。

常見例子包括:

? AI 客服

? 生成式圖片

? 深度合成視頻

? 自動生成新聞摘要

? AI 輔助廣告內容

3、高風險應用

高風險應用可能影響人的安全、機會、權利或重要資源分配。

例如:

? 醫療輔助診斷

? 教育升學評價

? 招聘篩選

? 信貸審批

? 基礎設施管理

? 司法輔助

? 自動駕駛

? 工業安全控制

這類系統必須有更嚴格的數據治理、模型評估、日志記錄、人工監督、申訴機制、第三方評估和持續監控。

4、不可接受風險應用

不可接受風險是指明顯侵犯基本權利、嚴重操控人或造成重大社會傷害的 AI 應用。

例如,利用 AI 進行社會評分、操控脆弱人群、違法監控或進行不當生物識別分類等,通常應被禁止或嚴格限制。

5、風險分級的核心意義

風險分級的意義在于:讓治理與風險相匹配。

低風險場景鼓勵創新,高風險場景嚴格監管,不可接受風險場景明確禁止。這樣既能保護社會安全與個人權利,也不至于讓所有 AI 創新都被同樣強度的規則壓制。

十、AI 安全技術與治理方法

AI 安全與倫理不能只停留在口號上,還需要具體技術、流程和制度支撐。

1、數據治理

數據治理包括數據來源審查、授權管理、質量檢查、敏感信息處理、偏見檢測、數據版本記錄和跨境數據合規管理。

數據治理的目標,是確保模型訓練和應用建立在合法、合規、可靠的數據基礎上。

對于涉及跨境數據流動的場景,還應關注數據主權、數據本地化、跨境安全評估、跨境審查和國家安全風險。

2、模型評估

模型評估不應只看單一準確率,而要綜合考慮:

? 常規性能

? 分群體表現

? 穩健性

? 安全性

? 可解釋性

? 幻覺率

? 有害輸出概率

? 工具調用正確性

? 高風險場景錯誤后果

3、算法安全

算法安全不僅指模型不容易出錯,也包括系統在復雜、不確定甚至敵對環境下保持穩定運行的能力。

它主要包括:

(1)性能穩定性

在不同環境、不同人群、不同輸入條件下保持合理表現。

(2)抗故障能力

在網絡攻擊、數據擾動、極端輸入下不輕易崩潰。

(4)對抗防護能力

面對對抗樣本、數據投毒、模型反推等攻擊時能夠識別和抵御風險。

(5)數據保護能力

在訓練、推理、存儲、調用過程中保護敏感數據。

4、紅隊測試

紅隊測試是指主動尋找模型或系統漏洞。測試人員會模擬攻擊者、惡意用戶或極端輸入,檢查系統是否會輸出危險內容、泄露信息、繞過限制或執行不當操作。

對于大模型和智能體系統,紅隊測試還應關注工具調用、權限邊界、提示注入、越權訪問和自動化執行風險。

5、安全對齊

安全對齊是指讓 AI 系統的行為盡量符合人類價值、使用規則和安全邊界。

對于大語言模型,常見方法包括監督微調、基于人類反饋的強化學習、安全規則、拒答策略、內容過濾和風險分類器。

6、人類監督

高風險系統應保留人的監督。

人的角色不是簡單地“看一眼”,而應具有理解系統輸出、提出質疑、覆蓋模型建議、處理申訴和承擔責任的能力。

7、可追溯與審計

AI 系統應記錄關鍵操作,例如數據版本、模型版本、輸入輸出、工具調用、人工干預和異常事件。

這樣在出現問題時,才能分析原因、修復系統并明確責任。

8、內容標注與水印

對于 AI 生成圖片、音頻、視頻和文本,在合適場景下應進行標注,讓用戶知道內容經過 AI 生成或編輯。

內容標注和數字水印有助于維護信息透明和公眾信任,但它們不能單獨解決所有真實性問題,還需要平臺治理、事實核查和法律責任配合。

9、第三方評估與算法備案

高風險 AI 系統不能只依賴企業自我聲明,還需要外部監督機制。

常見治理方式包括:

? 第三方獨立評估

? 高風險算法事前認證

? 算法備案制度

? 透明披露機制

? 事后審計

? 責任追溯

? 快速響應機制

在公共治理、司法、金融、醫療、教育等關鍵領域,這類機制尤其重要。

10、組織治理

組織層面需要建立 AI 使用規范、審批流程、風險評估機制、員工培訓、事故響應和責任分工。

AI 治理不是某個工程師或某個部門的任務,而是技術、管理、法律、倫理和業務共同參與的過程。

十一、個人、學校與組織如何負責任使用 AI

AI 安全與倫理不僅是政府和企業的事情,也與每個使用者有關。普通用戶、學生、教師、開發者和組織管理者,都需要形成基本的負責任使用意識。


圖 10:負責任使用 AI 的基本原則

1、個人使用 AI 的原則

個人使用 AI 時,應注意:

? 不輸入敏感隱私

? 不直接相信未經驗證的事實

? 不用 AI 生成欺騙性內容

? 不冒充他人

? 不傳播未核實的 AI 生成信息

? 不把 AI 建議當作專業診斷或法律意見

? 在重要場景中保留人工判斷

AI 可以幫助我們學習、寫作、整理和創造,但不能替代事實核查和責任判斷。

2、學生使用 AI 的原則

學生可以用 AI 解釋概念、生成練習、改寫表達、檢查結構和啟發思路。但不應直接讓 AI 代寫作業、代做實驗報告或偽造學習成果。

合理使用 AI 的目標應是提升理解能力,而不是繞過學習過程。

3、教師使用 AI 的原則

教師可以用 AI 輔助備課、設計練習、生成案例、分析學生反饋和改寫教材內容。

但應注意:

? 審核生成內容準確性

? 避免把學生評價完全交給 AI

? 保護學生隱私

? 引導學生理解 AI 的邊界

? 重新設計更重過程、更重表達和實踐的評價方式

4、開發者使用 AI 的原則

開發者應關注:

? 數據來源是否合法

? 模型輸出是否經過測試

? 是否提供用戶提示和風險說明

? 是否建立日志與監控

? 是否設置權限與安全邊界

? 是否對高風險輸出進行人工審核

? 是否提供糾錯和申訴機制

5、組織使用 AI 的原則

組織引入 AI 系統時,不應只問“能否提高效率”,還應問:

? 這個系統會影響誰?

? 出錯后果是什么?

? 數據是否合規?

? 用戶是否知情?

? 是否存在偏見?

? 是否需要人工復核?

? 誰對結果負責?

? 出現事故如何處理?

負責任的組織不會把 AI 當作“甩鍋工具”,而應把 AI 納入明確的治理框架中。

十二、AI 安全與倫理的發展趨勢

AI 安全與倫理不是固定不變的規則清單,而會隨著技術能力、應用場景和社會制度不斷演化。

1、從原則倡議走向制度落地

早期 AI 倫理更多停留在原則層面,例如公平、透明、隱私、問責。隨著 AI 應用進入高風險場景,治理重點正在從理念倡議轉向法律法規、行業標準、審計流程和技術評估。

2、從單一模型治理走向系統治理

真實 AI 應用通常不是一個模型單獨運行,而是由數據、模型、提示詞、工具調用、插件、數據庫、平臺接口和人工流程共同組成。

因此,未來治理不能只檢查模型本身,還要檢查整個系統鏈條。

3、從上線前評估走向持續監控

模型部署后,環境會變化,用戶會變化,攻擊方式也會變化。

因此,持續監控、反饋機制、事故響應和動態更新將越來越重要。

4、從文本風險走向多模態風險

隨著多模態模型發展,風險也從文本擴展到圖片、語音、視頻和行為控制。

深度偽造、視覺誤讀、語音冒充、視頻生成和機器人執行風險都需要新的治理方法。

5、從國內治理走向國際協同

AI 技術和應用具有跨國流動性。數據、模型、平臺、用戶和影響都可能跨越國界。

因此,AI 治理需要國際組織、政府、企業、科研機構和公眾共同參與。全球治理的難點在于:不同國家和地區在價值觀、法律制度、產業利益和安全關切上并不完全一致。如何在尊重差異的同時形成最低限度的共同規則,是未來 AI 治理的重要任務。

小結

AI 安全與倫理關注的不是“能不能使用 AI”,而是“如何負責任地使用 AI”。可信 AI 應盡量做到可靠、安全、公平、透明、可解釋、保護隱私并可追責。面對生成式 AI、多模態模型和數據倫理新問題,個人要查來源、保隱私、做復核;組織要分風險、建制度、留記錄、有人負責。AI 越強大,越需要清晰邊界與責任治理。

點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大S死因曝光后,小S崩潰落淚向干爹道歉,王偉忠揭示內情

大S死因曝光后,小S崩潰落淚向干爹道歉,王偉忠揭示內情

余鴡搞笑段子
2026-06-11 16:31:21
笑麻了!人一旦有了電瓶車,體重就徹底控制不住,評論區炸鍋了

笑麻了!人一旦有了電瓶車,體重就徹底控制不住,評論區炸鍋了

夜深愛雜談
2026-06-12 19:42:26
穆帥考察居萊爾 將打造皇馬新陣

穆帥考察居萊爾 將打造皇馬新陣

體壇周報
2026-06-12 23:35:47
48歲母親因管教女兒爭執,母女同日先后跳樓身亡

48歲母親因管教女兒爭執,母女同日先后跳樓身亡

孤城落葉
2026-06-13 02:26:19
朝鮮戰爭心酸往事,300歸國女戰俘帶回百余嬰兒,一問生父戳痛眾人

朝鮮戰爭心酸往事,300歸國女戰俘帶回百余嬰兒,一問生父戳痛眾人

磊子講史
2026-06-09 11:25:33
塔克拉瑪干沙漠迎來今年首場洪水 專家解讀成因

塔克拉瑪干沙漠迎來今年首場洪水 專家解讀成因

北青網-北京青年報
2026-06-12 08:43:55
虎撲網友自曝婚前過往:破過三個c

虎撲網友自曝婚前過往:破過三個c

自愈小日子
2026-06-12 01:03:28
2027年起小中高學制,將由633調整為532?多地教委明確回應了!

2027年起小中高學制,將由633調整為532?多地教委明確回應了!

今朝牛馬
2026-06-12 17:30:23
加拿大1:0波黑,AI意見集體一致;美國取勝巴拉圭,但比分有爭執

加拿大1:0波黑,AI意見集體一致;美國取勝巴拉圭,但比分有爭執

瀟湘晨報
2026-06-12 14:54:13
手工耿又整新活!將理想i6改裝成末日機甲 100多英寸輪轂引人注目

手工耿又整新活!將理想i6改裝成末日機甲 100多英寸輪轂引人注目

快科技
2026-06-11 08:05:07
隊報:韓國對捷克比賽空座多,國際足聯票價再遭質疑

隊報:韓國對捷克比賽空座多,國際足聯票價再遭質疑

懂球帝
2026-06-12 15:23:04
Lisa的世界杯開幕式舞臺,是靠瘋馬秀換來的,她的脫衣舞沒有白跳

Lisa的世界杯開幕式舞臺,是靠瘋馬秀換來的,她的脫衣舞沒有白跳

芊手若
2026-06-11 07:15:41
煙灰高腰裸感瑜伽長褲:戶外草坪瑜伽場景面料與版型線條實測

煙灰高腰裸感瑜伽長褲:戶外草坪瑜伽場景面料與版型線條實測

只要高興就好
2026-06-05 11:27:05
31國將派兵,美軍幫手到齊,韓軍參演前,李在明先給中國一句準話

31國將派兵,美軍幫手到齊,韓軍參演前,李在明先給中國一句準話

南宗歷史
2026-06-10 19:55:41
澳洲醫療革命性突破! 癌癥晚期也能治愈, 復發率幾乎為0! 政府官宣: 有沒有PR都免費

澳洲醫療革命性突破! 癌癥晚期也能治愈, 復發率幾乎為0! 政府官宣: 有沒有PR都免費

澳微Daily
2026-06-12 15:50:45
隨著葡萄牙6-1大勝,日本1-0,土倫杯最新排名出爐!葡萄牙第1

隨著葡萄牙6-1大勝,日本1-0,土倫杯最新排名出爐!葡萄牙第1

薇說體育
2026-06-12 10:59:42
捷克球迷表態!孫興慜實力水分挺大,跟中國的那個武磊差不太多

捷克球迷表態!孫興慜實力水分挺大,跟中國的那個武磊差不太多

十點體壇
2026-06-12 22:48:15
胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

醫學科普匯
2026-06-11 21:20:08
中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

龍隱天下
2026-06-11 17:10:25
成本13億,首日票房僅400多萬,世界第一導演新片被謝苗打懵了

成本13億,首日票房僅400多萬,世界第一導演新片被謝苗打懵了

影視高原說
2026-06-12 17:28:16
2026-06-13 03:47:00
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
教育
房產
時尚
軍事航空

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版