網易首頁 > 網易號 > 正文申請入駐

【人工智能】AI 優先意味著安全優先

2025-12-17 19:06:30　來源: 七元宇宙

廣東舉報

分享至

給孩子買輛嶄新的自行車，所有人的目光都會集中在自行車上，而不是與之配套的閃亮頭盔。但家長們卻很在意頭盔。

恐怕如今我們很多人在人工智能方面都像孩子一樣。我們只關注它有多酷炫，以及它能讓我們用它跑多快，卻很少關注如何在使用它時確保安全。這很可惜，因為二者缺一不可。

簡而言之，在沒有事先周密規劃安全措施的情況下應用人工智能，不僅僅是冒險，簡直就是自尋死路。

人工智能安全究竟意味著什么？

人工智能安全涉及諸多步驟，但或許最重要的在于何時采取這些步驟。要真正有效，人工智能安全必須從設計之初就融入其中。

這意味著，在進行測試之前，我們會考慮如何防止造成傷害。我們會先確保人工智能的運行和結果符合我們的價值觀和社會期望，而不是等到出現糟糕的結果之后才去研究如何確保人工智能的運行和結果符合我們的價值觀和社會期望。

人工智能安全設計還包括考慮如何使其穩健可靠，即使在不利情況下也能保持可預測的運行狀態。這意味著要讓人工智能透明化，使其決策易于理解、可審計且公正無偏。

但這其中也包括審視人工智能將要運行的世界。我們需要哪些制度和法律保障措施，尤其是在遵守相關政府法規方面？而且，我必須強調人的因素：人工智能的使用會對與之互動的人們產生什么影響？

從設計上就保證安全，意味著在輸入第一個提示之前，就將人工智能安全融入到我們所有的流程、工作流程和操作中。

風險大于擔憂

并非所有人都認同這種觀點。有些人一聽到“安全第一”，就想到“小心翼翼、步履蹣跚，最終被時代拋在后面”。當然，安全第一并非如此。它不必扼殺創新或延緩產品上市。它也不意味著無休止地進行試點，最終卻無法規模化。恰恰相反。

這確實意味著要了解人工智能設計中缺乏安全措施所帶來的風險。請看以下幾個例子。

德勤金融服務中心預測，到 2027 年，僅在美國，基因人工智能就可能導致欺詐損失達到 400 億美元，而 2023 年為 123 億美元，復合年增長率達 32%。
帶有偏見的決策。案例記錄了
由于人工智能使用帶有偏見的數據進行訓練而導致的醫療偏見。
糟糕的決策會引發更多糟糕的決策。研究表明，比最初由人工智能缺陷導致的錯誤決策更糟糕的是，這些錯誤的決策會影響我們的思維方式和未來的決策過程。
真實后果。人工智能提供的錯誤醫療建議已導致患者死亡。將人工智能的幻覺作為法律先例引用，引發了法律糾紛。此外，人工智能助手提供錯誤信息導致的軟件故障，損害了公司產品及其聲譽，并導致用戶普遍不滿。

事情接下來會變得更加有趣。

智能體人工智能（能夠自主運行并根據自身決策采取行動的人工智能）的出現和快速普及，將凸顯人工智能安全設計的重要性。

能夠代表你行事的AI Agent將非常有用。它不僅可以告訴你最佳航班信息，還能幫你找到并預訂機票。如果你想退貨，公司的AI Agent不僅可以告訴你退貨政策和退貨流程，還能幫你處理整個退貨交易。

很好——只要AI Agent不會憑空捏造航班信息，或者錯誤處理你的財務信息。或者搞錯公司的退貨政策，拒絕合理的退貨申請。

不難看出，當前人工智能的安全風險很容易隨著大量AI Agent四處活動、做出決策和采取行動而蔓延開來，尤其是在它們不太可能單獨行動的情況下。智能體人工智能的真正價值很大程度上來自于AI Agent團隊，每個AI Agent負責一部分任務，并通過AI Agent之間的協作來完成工作。

那么，如何在不阻礙創新和扼殺人工智能潛在價值的前提下，從設計之初就注重人工智能的安全性呢？

安全設計實踐

臨時性的安全檢查并非解決之道。將安全措施融入人工智能實施的每個階段才是正解。

首先要準備好數據。確保數據已標注（必要時已添加注釋）、無偏見且高質量。這一點對于訓練數據尤為重要。

利用人類反饋訓練模型，因為人類的判斷對于塑造模型行為至關重要。強化學習與人類反饋（RLHF）及其他類似技術允許標注者對響應進行評分和指導，從而幫助邏輯學習模型（LLM）生成安全且符合人類價值觀的輸出。

然后，在發布模型之前，務必進行壓力測試。紅隊會使用對抗性提示、極端情況和越獄嘗試來誘發不安全行為，從而暴露漏洞。在公開發布之前修復這些漏洞，可以防患于未然，確保安全。

雖然這種測試可以確保您的 AI 模型具有穩健性，但請繼續監控它們，密切關注新出現的威脅以及可能需要對模型進行的調整。

同樣，應定期監控內容來源和數字互動，以發現欺詐跡象。至關重要的是，應采用人工智能與人工相結合的方式，讓人工智能自動化系統處理海量數據，而由經驗豐富的人員進行審核，以確保監管到位和準確性。

應用智能體人工智能需要格外謹慎。一個基本要求是：訓練智能體了解自身的局限性。當它遇到不確定性、倫理困境、新情況或風險極高的決策時，務必確保它知道如何尋求幫助。

此外，務必在Agent程序中設計可追溯性。這一點尤為重要，它可以確保
Agent程序僅與已驗證用戶進行交互，從而避免欺詐者影響Agent程序的行為。

如果Agent看起來工作高效，你可能會想放手讓他們自由發揮。但我們的經驗表明，應該持續監控他們及其執行的任務，以防出現錯誤或異常行為。同時采用自動化檢查和人工審核。

事實上，人工智能安全的關鍵要素之一是人類的定期參與。在決策或行動中，凡涉及批判性判斷、同理心或細微差別和模糊之處時，都應有人類的參與。

再次強調，這些都是你在人工智能實現過程中預先設計好的實踐方法。它們并非是在出現問題后才匆忙想辦法將損失降到最低的結果。

它真的有效嗎？

從GenAI興起到如今快速邁向智能體AI，我們始終秉持“人工智能安全至上”的理念，并運用“設計即安全”的框架與客戶緊密合作。我們發現，與人們擔心的會拖慢發展速度相反，這種理念實際上有助于加速發展。

例如，智能體人工智能有望將客戶支持成本降低 25% 至 50%，同時提升客戶滿意度。但這都取決于信任。

使用人工智能的人必須信任它，而與人工智能客服人員或真正的AI Agent互動的客戶，不能經歷任何可能動搖他們信任的互動。一次糟糕的體驗就可能徹底摧毀消費者對品牌的信心。

我們不信任不安全的事物。因此，當我們把安全機制融入即將推出的人工智能的每一層時，我們就能充滿信心地進行部署。而當我們準備好擴展規模時，我們也能快速且充滿信心地完成部署。

將“人工智能安全第一”付諸實踐或許看似困難重重，但您并非孤軍奮戰。眾多專家可以提供幫助，合作伙伴也能分享他們的經驗和心得，助您安全地利用人工智能的價值，而不會影響您的發展。

人工智能的發展至今為止令人興奮，隨著發展速度的加快，我感到無比激動。但我同時也慶幸自己時刻保持警惕。

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系刪除。所有信息不構成任何投資建議，加密市場具有高度風險，投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

設為星標避免錯過

虛擬世界沒有旁觀者，每個點贊都是創造歷史的像素

關注我，一起探索AWM?

2025-12-10

2025-12-09

2025-12-08

商業贊助

點擊下方 “目錄” 閱讀更多

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.