【作者】鄭玉雙(中國政法大學法學院教授,北大法律信息網簽約作者)
【來源】北大法寶法學期刊庫《法制與社會發展》2026年第3期(文末附本期期刊目錄)。因篇幅較長,已略去原文注釋。
![]()
內容提要:人機價值對齊是應對人工智能技術倫理挑戰的積極姿態,但其在概念內涵上存在爭議。對人機價值對齊的內涵目前存在技術路徑和倫理路徑兩種理解。技術路徑強調保障人工智能技術應用的安全,倫理路徑強調人與機器的價值互動,這兩種路徑都未能充分展示人機價值對齊作為創造性和制度性實踐的屬性。既有研究針對人機價值對齊的對象、方式和方法論框架已經進行了一些有益的探索。在此基礎上,應當從倫理學視角轉向法哲學建構。在人工智能技術的沖擊下,社會規范發生了物理學轉型,亟需規范空間的再造。從法哲學視角出發,可以建構人機價值對齊的可能規范框架,即人機價值對齊的主要實踐機制在于構建計算規范。計算規范是價值表達,具有建構性和解釋性。計算規范表達了社會基本善,可以參照法律作為價值實踐的豐富經驗,通過制度性累積而不斷完善自身的實踐機制,實現實質的人機價值對齊。
關鍵詞:人機價值對齊;人機關系;人工智能;計算規范
目次 一、人機價值對齊的技術路徑和倫理路徑 二、人機價值對齊的層次與方法論問題 三、人機價值對齊的法哲學反思 四、計算規范的理論構建 結語
在科技治理體系中,人機價值對齊(Human-AI Value Alignment)是人工智能倫理建構的一種新興理念。這個概念是近幾年才被提出的,隨后獲得了學界的廣泛關注,也成為產業發展和政策制定的一項要求。然而,關于人機關系或者人機倫理的議題并非新鮮事物。在人工智能技術的發展歷程中,理論界始終面對著如何讓人機關系變得可控這個基礎性問題。“阿西莫夫定律”的提出為機器人的行為設置了雖然抽象但看似可靠的邊界。在過去十幾年間,人工智能技術的發展取得了實質性突破。借助于Transformer架構,大模型的出現反映出人工智能技術具備了自主的知識生成能力,推動了人工智能時代的社會認知革命。人工智能體(AI Agent)的出現更是大大提升了人工智能技術的自主決策能力以及具身化程度。人工智能技術發展每推進一步,新的倫理和價值爭議便會產生。
在人工智能技術發展不斷取得突破的情況下,人機價值對齊的呼聲日益強烈。基于對人機共生的倫理期待和人文關注,科技研發和應用的各個環節都不斷被融入價值因素。在此過程中,與之相關的理論問題也開始顯現。雖然人機價值對齊的提出表達了人們對隱藏在科技背后的社會價值體系的重視,但這個概念本身存在諸多含混之處。對齊是個雖形象但缺乏具體指向的語詞,人機關系更是一種復雜的新興社會關系。應該對齊哪些價值?答案并非一目了然。人際實踐是一種受歷史、文化和社會理解共同影響的價值實踐,但人和機器屬于兩個范疇,因此,對于在人機之間的實踐中如何進行價值關聯的問題,尚沒有成熟的價值理論作出回答。
如果人機價值對齊只是表達了人們想將人工智能技術發展納入倫理約束框架的一種美好期待,那么在飛速發展的技術面前,人機價值對齊的真正內涵并不重要,其存在甚至會顯得冗余。然而,技術突破的速度越快,價值世界所面對的沖撞便會越激烈,社會所面對的倫理和法律挑戰越會不斷涌出。本文嘗試對人機價值對齊的內涵進行挖掘,展示其對于人工智能技術倫理約束和法律治理的潛在意義。同時,借助法哲學中的經典討論,本文將人機價值對齊的理論建構作為一項以計算規范為關鍵的制度化和規范化事業,來充實人工智能技術治理的理論版圖。
一
人機價值對齊的技術路徑和倫理路徑
人機關系的價值實踐方式不同于人際之間的溝通和互動方式。機器不是實踐主體,原因在于機器沒有主體意識,也無法表達價值主張,其只能接受人所傳達和灌輸給它的價值。因此,即使人可以和機器溝通,也無法做到人與人之間那種意義交流或互動。在這種互動關系之中,人機價值對齊的要求便被提出。“對齊”的直接內涵是讓機器的運行符合人類的目的。用維納的話來說,就是:“如果我們使用機械自主體來實現我們的目的,一旦啟動,我們就不能有效地干預它的運行……那么我們最好確定,機器的目的是我們真正渴望的目的,而不僅僅是看著很炫的模仿。”然而,維納的觀點在當代的技術語境中顯得過于簡單。如果機器的運行能夠順理成章地符合人類的目的,那么人機價值對齊就不會是一項艱難的任務。人機價值對齊在實踐中的實現之所以困難重重,原因直接指向了人機價值對齊的核心難題,即在何種意義上機器能夠與人類在價值上對齊?
(一)人機價值對齊的技術路徑及其局限
對人機價值對齊之內涵的回答大致可以分為兩種路徑。持技術路徑的學者認為機器是一種人工智能技術成果,讓機器的價值世界與人的價值世界相符合的要求,在本質上意味著我們要調整機器參數,以使機器的運行不會偏離人的目標。技術路徑的典型應用是大語言模型。通過大語言模型實現人機價值對齊的進路可分為人工反饋對齊、人機協同對齊以及機器自主對齊。大語言模型的技術原理是借助Transformer 架構來提升模型的預測能力。簡言之,模型就是一種預測機制,其借助強化學習優化和提升語料質量來更好地預測。基于對技術路徑的分析,我們會發現,模型本身既無法理解價值,也難以成為價值實踐的主體。大語言模型的人機價值對齊無非就是通過優化算法和模型來控制預測偏差。例如,在模型訓練階段,大語言模型通過數據過濾、去偏算法和公平性約束等機制,如FairGen框架,從源頭減少偏見;在部署階段,大語言模型設置“護欄”(Guardrails)機制,實時檢測并阻止有害內容的輸出。大語言模型通過人類反饋強化學習來減少幻覺和知識過時問題。針對多模態大模型帶來的更為復雜的挑戰,很多計算科學家開始關注跨模態的安全對齊和防御技術問題。此外,為了應對隱私泄露風險,差分隱私、聯邦學習等技術也被嵌入模型的訓練過程。技術路徑的實質目標是追求技術安全,具有后果主義導向,其忽略了人機價值對齊概念中更為豐富的內容。因此,技術路徑本質上是一種技術對齊,而非價值對齊。
技術路徑表達了人類對價值的尊重,但其理論野心是被克制了的。一方面,技術路徑的實現并不需要過多地倚賴有爭議的價值理論,而僅需抓住價值觀的核心要素。在當前生成式人工智能和智能體代理階段,最核心的價值要素是安全。因此,在技術路徑支持者看來,人機價值對齊的本質就是保證模型運行的安全,以防意想不到的后果發生。然而,人工智能安全不僅是一個技術問題,其本身還包含著價值評價維度。Cappelen等人認為,對人工智能安全的執著追求可能體現了人們更深的恐懼,這反而更容易導致人工智能的失敗。另一方面,人機價值對齊的落腳之處在于人工智能技術本身的自我調適,這項工作主要由計算科學家和技術研發人員來完成。技術壁壘正是在這一選擇過程中產生的,原因在于只能由非常專業的特定群體來確定人機價值對齊的方案和目標。
此外,技術路徑也會陷入效率困境。機器水平的提高需要技術支持,機器的運行也需要數據和算力支持,且機器在功能上并非全能。有論者認為,人機價值對齊面臨不可能三角難題,即在泛化能力、數據效率和道德行動有限性之間難以實現有效平衡。機器越具有泛化能力,數據效率就會越低,道德行動有限性就越為突出。
(二)人機價值對齊的倫理路徑及其局限
相比于技術路徑,倫理路徑是當前人機價值對齊研究的主流選擇。然而,這一路徑也存在較大的理論張力和現實局限性。
從理論上講,人機價值對齊需要將存在于人機關系中的所有價值呈現出來,并探索有效的對齊方式。然而,這一目標的實現并不現實。一方面,在人工智能技術不斷拓展新的疆域的同時,會涌現出大量的新興的人機價值對齊需求,我們難以確立一個全面的價值譜系。另一方面,不同價值之間存在層次和表現形式的差異。比如,仁慈和透明就是兩種差異巨大的價值要求,我們難以用統一的對齊框架來應對。因此,既有倫理路徑采取兩種思路:一是對價值的規范形態作出界定,并基于人機關系模式限定對齊的價值范圍;二是針對特定價值進行分析,探尋人機價值對齊的路徑和方式。
第一種思路關注兩個要素:價值的來源和具體應用場景。價值來自人們的生活體驗和反思。讓機器對齊人的價值,在一定程度上,是將人的生活體驗所承載的價值轉化到機器身上。人的價值體驗既有普遍性,也有特殊性。為了更好地讓機器理解人的價值,人們只能將人的價值共識或者人的共同價值追求轉化到機器的編碼之中,或者采取保守路線,仍然以人為中心來處理人機關系,將人的價值作為關注重點。
人類的實踐領域廣泛,不同領域對應著不同類型的價值。因此,研究者也關注具體應用場景中的價值狀態。在人工智能技術發展歷程中,引發人們迫切進行價值關注的技術應用場景是生成式人工智能。盡管其他應用領域,比如圖像識別、智能導航等,也會涉及人與機器的價值互動,但生成式人工智能是一種社會全員深入參與并不斷進行知識創造的智能模型,其既為通用人工智能打下了基礎,也是人工智能體和具身智能發展的知識基礎。因此,目前關于人機價值對齊的研究主要是圍繞著生成式人工智能展開的。人們企圖在該場景的人機價值對齊實踐中,提煉出可以應用于其他場景的一般性原則。
這種思路的優勢在于,其沒有讓人機價值對齊停留在抽象的原則之上,而是指出人們所關心的價值,清楚地呈現出對齊的對象,并將這些價值轉化到具體的場景和情境之中。然而,這一思路也存在局限,即確定哪些價值應當被對齊并不難,真正的難題在于如何將這些價值轉化到具體應用場景之中。這一轉化需要計算工程學的支持,需要將價值理解轉化為模型建構中的函數、向量或者參數的調整。當然,這并不意味著我們需要退回到技術路徑,將對齊視為純工程學問題,而是意味著我們需要重視價值在技術應用過程中所對應的推理過程和運行邏輯。
第二種思路在一定程度上克服了技術路徑存在的問題。人機價值對齊需要在具體場景中具有可操作性,亦即我們可以將價值要求編碼進算法或模型之中。人們對價值可以形成共識,但對編碼的目標或具體方式則可能會產生分歧。通過將關注重點轉向如何更好地把價值理解轉化為計算語言,該思路在一定程度上能緩解人機價值對齊的不確定性。然而,基于編程的復雜性和模型參數的不可測性,將具體的價值要求轉化為編程指令是存在巨大挑戰的。
目前,學界已有一些有益的嘗試,即將特定價值進行編碼。人類價值實踐是復雜的,包含著不同層次的各種價值追求,比如自由、平等和正義等。正義是一種統攝性價值。因此,有學者將正義價值作為人工智能大模型對齊的主要基準。正義是人工智能技術治理的共識基準,也是價值體系的中心樞紐。因此,正義成為人們的首選。郭小偉認為,將正義納入人機價值對齊的基準,有助于矯治大模型偏見、刺穿大模型黑箱和明確大模型責任,具有較為突出的治理意義。將正義納入人機價值對齊的基準的方式是把它代碼化。正義的代碼化意味著與正義的相關要求會被轉化為代碼的運作。例如,將程序正義中的回避原則轉化為代碼,需要通過“數據層的‘關聯體系建模’、規則層的‘觸發條件編碼’、執行層的‘自動化流程’來實現”。結合代碼化程度的分級制度,可以將正義要求落到實處,同時也不會給技術提供者增加太重的倫理負擔。人機價值對齊不僅是讓機器自覺地理解人的價值,更是通過數據校驗和人工介入等方式使得人機價值對齊的過程變得可控。
正義價值之所以可以被代碼化,主要是因為程序正義具有一定的可編碼性。程序是作決策的步驟,與執行命令的代碼具有異曲同工之妙。因此,對正當程序的要求進行代碼化轉化不會有太大的障礙,但其他價值要求就難以如此順暢地被代碼化。比如,自由或者自主意味著對外在支配的排斥,而代碼化本身就包含著對自由的支配。因此,針對這些價值,人們很難直接進行技術轉化。
二
人機價值對齊的層次與方法論問題
(一)人機價值對齊的層次
人機價值對齊表達的是一個清晰的實踐要求,即在價值意義上實現某種可期待的狀態。因此,這個要求是落實人工智能倫理的重要體現。當然,人工智能倫理的建構也包含其他重要的內容,比如預防人工智能體的安全風險等。然而,價值是人類實踐的一個獨特維度。人們的行動通常處于意圖、關系和責任相互交織的網絡之中,價值是與這一網絡相關聯的并且幫助我們更好理解這些要素的獨特視角。舉例來說,當我向他人作出履行某項任務的承諾時,我和對方的關系以及我所承擔的責任都受我的承諾背后的信用這一價值的影響。我可能會因為突發情況而不能履約,盡管我的違約責任可以被豁免,但信用這一價值在這個實踐過程中因我的行動而受到影響。
上述例子表明,價值被嵌入并且泛化于人的實踐之中。人機關系是人和機器或者人工智能技術之間的關系,對人機關系的理解應當被放置在一個更為寬廣的社會語境之中。價值實踐本身具有整體性,社會語境構成了理解價值之內涵和發生機制的背景。人機價值關系所附著的社會語境在智能科技的劇烈沖撞之下發生了很大變化。雖然人機價值對齊著重于對齊這項任務,但無論是對齊的價值,還是對齊的方式都與人機關系背后的社會語境密切關聯。因此,盡管人機價值對齊針對的是特定的價值呈現方式和實現模式,但也應被置于一個展現人機價值互動之獨特意義、機器運行之技術原理和受沖擊之社會語境相互交織的立體空間之中來理解。對人機價值對齊的要求進行分層是有必要的,我們可以從三個層次來理解其任務。
首先,人機價值對齊直接面向的是技術本身。盡管人機價值對齊的很多要求是向技術開發者提出的,但最終要落腳在技術應用和運行的過程之中。以生成式人工智能為例,用戶通過對話使用生成式人工智能來生成文字、圖片或視頻等,這個技術應用場景的核心是人機互動過程中的模型運算機制。簡言之,該運算機制的底層邏輯體現在,模型基于Transformer的超大神經網絡,通過在海量數據上進行自監督學習,掌握數據的統計規律和模式。在推理時,生成式人工智能根據給定的上下文,通過反復預測和采樣下一個詞元的方式,自回歸地生成全新的、符合上下文語義的內容。技術路徑追求的對齊主要針對這個底層邏輯展開,表現為調整模型、優化算法或完善數據庫等。
其次,技術并非在真空之中運行,而是在人機互動關系之中實現其功能。盡管人機交互主要以人工智能技術為支撐,但在這個技術底座之上,人與機器產生了社會學意義上的互動關系。生成式人工智能已經將這種互動關系推向一種值得被結構性分析的境地之中。一方面,我們需要解釋人工智能技術在人機互動中所發揮的作用。然而,人工智能技術越精深,其可解釋性就會越弱,就越會給人們理解技術在人機互動中的作用造成障礙。因此,有論者認為,機器無法嵌入價值。Johnson等人提出,僅當人工智能技術被視為社會技術系統時,其才能和“價值”這一概念具有同樣的本體論位置,才能具有被價值嵌入的可能。因此,作為計算性人造物的人工智能技術從一開始就不可能被價值嵌入。對于作為社會技術系統的人工智能技術來說,“嵌入”這一概念錯誤描述了人工智能技術與價值之間的關系:它忽略了價值所具有的在社會實踐中不斷被重新解釋和定義的動態特征。Klenk提出了一種化解這一挑戰的價值嵌入理論:某一技術制品是否具備價值,取決于它是否為主體提供了某項能力,且這種能力能為我們提供積極或消極的理由。該理論具有一些優勢:其能解決技術制品之形而上學和認識論問題,允許價值變化,并能夠解釋價值與行為的關系。另一方面,人工智能技術邏輯與人機互動關系之間的邊界也難以被區分。我們既不能把兩者當成一回事,比如,把人和聊天機器人的對話當成純粹的大模型在多層Transformer模塊基礎上的語義預測;也不能把兩者完全區分,將屬于技術的歸技術,屬于社會的歸社會。Peterson提供了一種思路。他構造了一個依賴于外部評價的價值偏離函數。該函數是各項價值偏離度的加權和,其權重由外界評價而非技術制品自身的屬性決定。在這個函數中,人們只需要預設一個所有價值都被對齊的理想機器,就可以通過測量該技術制品和理想機器的相似性,測定它的價值偏離程度。然而,這個函數忽視了技術制品在功能和價值評價上的巨大差異。
最后,人機價值對齊是一種追求特定目標的共享性實踐。對齊的目標由特定應用涉及的價值所限定。在這里,我們需要區分對齊所涉及的價值和對齊的目標。二者之間存在著微妙的關聯,而且對人機價值對齊的實踐影響較大。人機價值對齊是人們所追求的價值的投射,但價值本身并不直接包含實踐這些價值的路徑和方案。價值的實現需要人們在特定的框架之中通過行動來完成。舉例來說,藝術之美是一種值得被珍視和追求的價值,這種美需要在藝術家的具體創作之中體現,而藝術家是帶著特定的理解和目標去創作的。人機價值對齊亦是如此,但其目標的設定并不由人與機器共同決定,而是由相互關聯的主體在與機器的互動之中確定,并通過目標的不斷調整和技術工程學意義上的設計來實現“對齊”的成效。因此,人機價值對齊既是共享性的,也是制度性的。共享性意味著對齊不僅是模型開發者的工程設計,而且涉及技術群體、監管部門、產業關聯者和社會公眾的共享事業。制度性則意味著人機價值對齊不能僅限于對特定價值的呈現,比如仁慈和善意等,而是要形成有效的運作機制,讓這些價值能夠在實踐中可以穩定地對齊。制度性也意味著人機價值對齊必然具有法律面向,應當從法律制度建構的角度被回應。
從這三個層次來看,人機價值對齊不僅僅是一種價值理解和認知實踐,而且是多維度和多層次的具有創造性和制度性的實踐。由于人機關系是前所未有的社會關系,其存在沖擊了傳統的倫理模式和制度實踐。如果人機價值對齊只是表達了對特定價值理念的重視,那么這個概念就只具有宣示意義,對科技實踐不會產生實質影響。然而,在社會的數智化轉型和人工智能技術全面融入生活結構的新興社會空間之中,人機價值對齊應當是社會價值實踐的實質性要求。
(二)如何對齊價值?
人機價值對齊需要確定對齊的對象,即在人機關系中與具體應用場景相關聯的那些基本價值。這些價值可能以抽象觀念來表達,比如公平、仁慈等;也可能以操作原則來表達,比如透明性和可責性等。人機價值對齊的要求表明,這些價值不能僅僅在技術發展過程中呈現出來,還要以特定的方式對齊出來。因此,有效的對齊理論需要展現這種對齊實踐的核心結構,以及其為人機關系構建帶來的意義。目前的對齊進路大概可以分為兩種。
第一種對齊進路采取原則模式,主要強調人機倫理關系的原則層面。比如,由編程者將尊嚴和仁愛等原則納入模型開發之中, 通過原則對齊實現人機共生。原則模式的優勢在于保留較大的彈性空間,尤其是在不給技術開發者和應用者增加太重倫理負擔的情況下,發揮不同主體的創造性。原則模式也存在一些弊端:一是原則模式太過籠統,在遇到實踐疑難問題時,其無法提供有針對性的方案。例如,2026年1月,埃隆·馬斯克旗下的生成式人工智能服務模型Grok被指控可輕易生成并傳播未經當事人同意的性圖像。在生成式人工智能的人機價值對齊原則中,尊重他人是一項基本的要求。然而,這一原則如果不能被落實在具體的對齊指南中,便容易與其他原則相沖突。比如,尊重他人原則與創作自由原則可能產生沖突。二是人機價值對齊的原則化不利于人工智能倫理界和產業界實現真正有效的溝通,很容易出現倫理界談原則而產業界談技術的尷尬局面。
第二種對齊進路采取社會參與或建構模式。該模式將視角從價值論轉向社會理論,將價值視為社會所共享的觀念和所追求的精神內核。人機價值對齊是將社會賴以存續的共享價值追求在機器的觀念中加以強化和貫徹。以大語言模型為例,語言承載了一個社會最直接和最全面的文化理解和認同。因此,大語言模型的價值預設應當體現出社會公眾的觀念,并在模型設計和參數選擇上體現出社會公眾的文化理解。社會參與或建構模式尊重本土觀念與文化,能夠強化人機關系中的文化認同。通過大模型的知識生成功能,社會也能夠享受知識革命帶來的巨大裨益。
然而,這一進路仍然存在局限。社會觀念和文化在大模型中的轉化,并不是將這些文化符號嵌入大模型所生成的內容之中,而是將社會價值觀念和公眾認同轉譯到模型內部的神經網絡之中,從而讓大模型學習并理解這些觀念。因此,公眾參與依然需要通過編碼的形式進入到大模型之中。社會參與進路只有采取一種強建構論立場才能實現其對齊目標,即不僅要讓大模型輸出符合社會觀念的內容,更要讓大模型真正習得這些觀念。
針對人機價值對齊的價值判斷困境,有論者提出了一些替代方案。例如,將人們關注的重點從作出價值判斷轉向建立人機信任。閆宏秀指出,人機價值對齊是對人類價值觀的技術化,但并非僅僅是技術的道德化,其應在技術可信可控的情境中展開。面對已經存在于大模型中的非道德現象,我們必須以基于道德的信任校準人機價值對齊,并將人類作為信任鏈構建的出發點和落腳點,只有如此才能規避人機價值對齊的陷阱,確保人工智能技術的安全。然而,對技術或算法的信任更多地應該落腳在技術的能力和認知等客觀方面,而非其主觀方面。在一定程度上,對齊反而體現出人們對技術偏離價值風險的一種警惕,其背后隱藏著對技術的不信任。
(三)人機價值對齊的方法論問題
人機價值對齊在方式上的困境表明,我們需要從方法論層面回應人機價值對齊的需求。盡管當前多數討論主要圍繞著人機價值對齊的方法展開,但仍然有一些論者針對人機價值對齊的方法論問題進行了挖掘。比如,Gabriel提出的三種人機價值對齊的方法論立場分別是全球公共道德與人權路徑、假設共識與無知之幕路徑和社會選擇理論路徑。依據全球公共道德與人權路徑,盡管世界存在多元的道德觀,但仍有可能在某些核心原則上形成“重疊共識”。Gabriel借鑒政治哲學家羅爾斯的“重疊共識”概念,指出處于不同文化、宗教或哲學背景的人,可能基于不同理由共同接受某些基本原則,尤其是基本人權理念。近年來,在全球范圍內出現的人工智能倫理原則(如透明度、公平性、非惡意、責任、隱私)也體現了這種趨同趨勢。
假設共識與無知之幕路徑源自羅爾斯的“無知之幕”思想實驗。羅爾斯所設想的無知之幕消除了人們的價值偏好。這個預設與機器的技術邏輯相符合。Gabriel提出,我們可以設想一個情境:人們在不知道自己是誰、持何種價值觀、處于社會何種位置的情況下,共同選擇人工智能應遵循的原則。在這樣的情境下,人們將無法偏袒自己,因而所選出的原則具有程序上的公平性。Gabriel認為,在這種情境下,人們很可能選擇那些確保安全、保留人類控制權、優先惠及最不利者的原則。這些原則不依賴于任何一種特定的道德理論,而是基于對不確定性和風險的中立審慎而確立的。
社會選擇理論路徑關注的是如何將個體偏好或道德觀點以公平的方式聚合為集體決策。Gabriel將其分為兩種形式:一是聚合型,即通過某種機制,如偏好排序、效用函數,將個體的道德偏好加總為人工智能的行為準則;二是民主型,即通過投票、討論、公民參與等方式,確立人工智能的基本原則。后者更強調過程的合法性與參與性,試圖為人工智能的規范框架賦予民主層面的正當性。
這三種路徑分別代表了人們如何理解價值以及如何建構對齊模式的三種方法論立場,各有優劣。從整體上看,全球公共道德與人權路徑強調了人類價值實踐的共識,假設共識與無知之幕路徑和社會選擇理論路徑則突出了人類價值實踐的分歧。無論是對共識還是對分歧的側重,都反映出人類價值實踐的復雜性。然而,這些方法論立場仍然無法突出人機價值實踐的獨特性。一方面,共識容易被精英所主導。曲飛帆指出,精英治理路徑在目標設定、方案實施、效果監督三個環節分別面臨“價值懸浮”“虛假對齊”和“黑箱系統”三大挑戰:抽象價值難以具體化,單一群體偏見導致價值對齊表面化,評估過程缺乏外部監督。
我們應當承認,人機價值實踐也需要回應價值分歧的問題。正如有論者提出,價值分歧會帶來人機價值對齊的認識論證成問題。真正的挑戰不在于如何在對齊中化解價值分歧,而在于回答:為什么致力于化解實踐疑難的機器行動也會受困于價值分歧?這種價值分歧與人類實踐中的價值分歧有何區別?
舉例來說,我們會爭論我們是否會基于道義義務向一個絕癥患者告訴其真實病情,機器也會面對類似的價值分歧。如果一個人要求其陪護機器人對其進行毆打,機器人會面臨著順從和不傷害人的兩難選擇。我們當然可以說這取決于預先在機器人中置入的算法,比如是否將“無論在何種情況下都不能傷害人”這一指令嵌入機器人的模型之中。然而,這種預先設計仍有局限。機器人可能會自主進化,通過與人的互動而形成更高層次的道德判斷能力。機器人很可能會突破這一指令限制,從而在所有權人面臨外在威脅的時候對威脅者進行防范性攻擊。這種道德推理過程不同于人的思路,歸責問題也迥異于人的責任承擔。
三
人機價值對齊的法哲學反思
人機價值對齊是人類價值實踐的一個特殊切面。人類的價值實踐在歷史和文化的雙重推動之下已經形成了豐富的經驗和觀念,但同時也隨著社會結構的變化而不斷調整。我們對公平和隱私等價值的期待已經隨著數字社會的到來而區別于傳統社會中的期待,同時又與傳統觀念存在著千絲萬縷的關聯。傳統社會規范的分層和人機間的互動模式不能完全應對人機價值對齊的任務。在機器行為規范的不斷涌現之下,社會發生了物理學轉變,社會規范的結構和層次受到了實質的數據化和計算化塑造。道德和法律實踐的意義空間在人工智能技術的介入之下也變得更為復雜。人機價值對齊應在這種巨大轉型的背景之下得到分析。
(一)規范的社會物理學轉型
無論是道德規范還是法律規范,傳統社會規范均包含著人際之間的相互預期和反饋,人們對規范內涵不斷進行意義搭建,增加社會互動的規范厚度。機器對人的行為反饋無法被傳統規范約束,難以將人機關系放置在穩定的規范機制之中進行監督和控制。人機關系的意義空間變動不居,人機價值實踐因人工智能技術的獨特發展邏輯而呈現出制度化困境。基于人工智能技術對倫理和法律邊界的沖擊,人機價值對齊就不再是一個傳統意義上由規范回應的問題。盡管人工智能技術治理和監管仍然是一項緊系于傳統治理框架的規則事業,但其邊界越來越模糊。既有監管理念主要適應于人際之間或者人與組織之間的利益平衡問題,在人工智能技術的發展面前表現得捉襟見肘。
為應對這種困境,人們需要在監管理念上進行革新。然而,理念革新的方向存在不確定性。價值問題在人工智能技術監管中占據著重要位置,但既有理論框架并沒有針對價值問題作出有效的回應,只是強調人工智能技術發展應當向善和公平。人機價值對齊的提出,強調的不僅是人工智能技術倫理的重要性,還包括人工智能技術倫理的復雜性。這種復雜性可以展示出人工智能技術治理和監管中容易被忽視或者被簡單對待的倫理空間。如果人機價值對齊是一項實質性的社會工程,而不僅是一種價值宣示符號,那么這項工程的治理就要求其被納入法律的規則化事業之中。換言之,人機價值對齊是一項法治事業,而不僅是倫理事務。大模型價值對齊的法治邏輯依賴法律或者法治自身的獨特性,比如法律的成文化、集約化以及強效化。這些特征都能夠在人機價值對齊的過程之中發揮作用。
人機關系代表著社會互動模式的一次重大革新。我們可以從不同角度來理解這場革新所帶來的意義,比如人的數字化生存方式的改變、就業格局面對的沖擊等。從社會本體論的角度來看,人機關系表明社會物理學意義上的重大轉變。一方面,人工智能技術的出現推動了社會的數據化和計算化,數據化不僅僅意味著數據的累積和數字財富的增加,更意味著社會實存方式的變化。社會在存在論意義上既包括人與人之間所形成的各種規范關系和觀念互動,也包括這些規范關系和觀念互動被數據化之后所形成的獨特的實在狀態。克勞福德指出,機器帶來了“人類主體”向“數據主體”的轉變,即向缺少主觀性、背景信息或明確權利的數據點集合的轉變。另一方面,機器的出現帶來了反身性意義。人和機器并非簡單的主體和客體的兩分,而是在持續互動之中相互塑造的行動者。因此,兩者的價值互動便不再是單向性的,而是雙向協商后的價值共生。價值共生的優勢在于,其不僅回應價值多元性和主體相對性的事實,而且有助于建立穩定、可持續的人機互動關系。
當前的社會物理學動力機制主要來自大語言模型。當關于世界的理解被算法和模型轉化為海量的token并持續地進行知識輸出時,社會實存被編碼和顆粒度化。隨著人工智能體的不斷擴展和具身智能的廣泛應用,數字生命將日益突出,“技術—人—社會”的共生范式會成為社會物理學的主要框架。
當然,社會物理學并非自然意義上的解釋視角,而是建構意義上的。人們只有把握住人工智能技術對社會本體的沖擊和塑造,才能更好地呈現人工智能技術所帶來的全方位沖擊。因此,對人工智能技術的倫理和法律回應需要建立在這一社會物理學轉變的基礎之上,人機價值對齊也需要以這一轉變為載體構建相應的對齊機制。
既有討論關注人機價值對齊的倫理路徑,但這一路徑的局限日益明顯。有效的出路在于,認識到傳統社會的規范分層和互動模式不足以支撐人機價值對齊在數字時代的理論抱負。如果人機實踐拓展了人類實踐的規范空間,那么我們可以從道德和法律等既有規范實踐中尋找新的規范空間的建構原則。法律是最重要的規范實踐,從關于法律的哲學反思中能夠找到建立人機價值對齊之框架的線索。
(二)作為一種實踐價值的法律
法律參與構建了規范世界,并成為人的行動準則中最重要的依據。法律不僅指引人們進行選擇和評價,同時也改變了人對自身的理解,以及與社會互動的方式。法律的規范性具有特別的意義。法律以創造性的方式對人們的行為加以界定。無論是充滿著慎議和商討的立法過程,還是直面復雜社會互動實踐的司法決策,都將人們的行為納入法律的規范性評價之中,并借助制度化的實施機制實現法律背后的價值。因此,法律既是實現基本價值的重要工具,也是培育和充實價值的規范實踐。法律中的價值問題有兩個層面:一是社會價值通過法律呈現,二是法律這種規范性機制的價值存在形態。
就第一個層面來說,法律實證主義展現了一種將社會價值實踐通過法律這種特殊規范加以調整和轉化的制度方式。哈特展示了人們在社會實踐中實現特定價值目標的規則形式,以及法律在克服傳統規則弊端上的巨大優勢。通過將法律視作一個體系性的規則系統,很多社會合作中的價值問題可以以制度化的形式得以化解。夏皮羅繼承了哈特的實證主義傳統,將法律作為解決價值沖突和分歧的最有效機制。法律通過規劃的形式確定了人們的行為方式,這些方式鎖定了人們應當追求的目標,也減輕了價值論辯的負擔。
法律實證主義者在很大程度上淡化了作為規則的法律在確立和運行中所具有的價值色彩,也弱化了價值對于規范世界的影響。菲尼斯和德沃金彌補了這一缺憾。菲尼斯將生命、知識、實踐合理性等七種基本善作為人類實踐的價值基礎。基本善是不證自明的,是實踐推理的基本理由。為了更好地實現和促進這些基本善,人們參與到道德生活中,并通過法律這種權威性機制來化解基本善實現過程中的沖突和障礙。德沃金提供了一種更強版本的價值理論,將法律實踐視為獨特的價值實踐。德沃金認為社會實踐是一個系統性的價值工程,道德實踐和法律實踐都是這個系統的構成部分。法律的特殊性在于,其既保留了制度形式的穩定性,又通過解釋性這個維度不斷呈現法律背后的價值世界的最好狀態。
從法律的價值存在形態來說,法律構筑了價值世界,也呈現出自身獨有的價值狀態。法律的價值一方面表達為法治理想,另一方面通過具體的法律實施形式,將社會中的價值問題以規范和制度的形式加以呈現。法治理想的厚度存在理論爭議,有厚薄之分。薄的法治觀將法治視為一種形式追求,法律只要滿足特定的要求,比如穩定、可預期和體系性等,就可以體現出法治的意義。厚的法治觀將法治視為更為實質的理想追求,與尊嚴、自由和正義等核心價值緊密相關,只有法律滿足特定的要求,才能符合法治精神。法律實施過程中的價值問題與法治理想存在關聯。薄的法治觀強調價值問題的制度化解決,比如通過尊重程序性要求來保障裁判的公正進行。厚的法治觀則要求將法律視為保障價值實施的制度框架。
本文的重點不在于進入法哲學關于法律價值和法治思想的廣泛爭議,而是在于展現這幾個基礎性問題與人機價值對齊之間的關系。雖然法律的價值實踐是一個復雜的制度空間,但豐富的法哲學討論呈現出價值被追求和被實現的制度方式,不論是法律自身的價值還是法律所追求的價值。在法律實踐中,價值是被人們共享、論辯和追求的,而在人機價值對齊中,價值需要被“對齊”出來。關于人機價值對齊的方式,人們可以從價值在法律世界中的實現中尋找靈感。反過來,人機價值對齊也會對社會價值的法律實踐產生反向重塑作用。隨著社會物理學實存的變化,人所處于的規范世界將會被人工智能技術大大拓展。
人機價值對齊是將倫理世界和法律世界的規范要求向數字空間延伸的要求。人的價值實踐要求我們尊重特定價值,并通過目標設定和行為選擇來實現這些價值。人機價值對齊的重點在于對齊,即讓人工智能技術所延伸出來的數字實存世界建構性地符合基本價值的要求。價值是屬于人們的實踐世界的,人工智能技術的運行本來不涉及價值,因為代碼和模型有其自身的科學支撐和客觀邏輯,但人工智能技術的應用結果會對規范世界產生影響。因此,我們需要讓它們滿足價值要求。
技術本身不是價值的源頭,那么,人機價值對齊的動力來自哪里?答案在于我們所處的規范實踐空間的遷移。技術運行是高度復雜和精密的,人類能夠探知的非常有限,但這種技術在實踐中對人的行為和觀念不斷地產生影響,由此打造出一個獨特的規范空間。這正是人機價值對齊真正發揮作用的地方。在此背景下,我們可以呈現人機價值對齊的可能框架。
四
計算規范的理論構建
目前,已有法學研究者開始強調人機價值對齊研究的法律視角。例如,韓旭至提出,大模型對齊應當“重視利益攸關方的參與,通過動態地平衡多元利益以確保最終的倫理目標與法律治理目標的實現”。黎江虹與盧希希提出,應以法律原則為統攝將人機價值對齊納入法治框架,通過以法律原則為導向的適度技術擴散,如導向性開源,打破頭部企業的標準壟斷;應以可解釋性為樞紐,構建法律解釋義務體系,將技術語言轉化為可被法治系統評價的事實。羅有成提出,在技術層面,人機價值對齊在目標設定、有效性驗證以及可解釋性保證等方面存在理論難題。在我國的治理實踐之中,人機價值對齊面臨制度回應滯后、規則適用不明晰以及責任邊界模糊等困境。對大模型人機價值對齊的法治化機制,需圍繞目標確定機制、責任分配機制、可解釋性保障機制以及對齊效果評估機制予以推進。
人機價值對齊涉及多方主體,也涉及倫理、社會和法律等多個維度。但基于社會的物理學轉型,人機價值對齊的關鍵不在于構建保障機制,而在于構建計算規范。無論是對于生成式人工智能、人工智能體,還是對于具身機器人、腦機接口,計算規范都是落實人機價值對齊的主要抓手。
(一)計算規范的屬性
從性質上講,計算規范是一種溝通機制,其將傳統社會的道德和法律等行為規范與人工智能技術所拓展的規范空間進行關聯。在技術驅動之下,社會實體發生物理學擴展,產生了新的規范空間。由于這個空間是以模型內嵌和計算驅動的,因此我們不能僅僅以傳統的規范形式加以應對,必須構建新的規范來應對社會計算化及其廣泛應用所帶來的新興挑戰。
首先,計算規范更強調價值,而非行為。人工智能技術對人類決策過程的介入導致了人的行為模式的改變。在基本價值的指引之下,人建構具體規范,并以此引導人的行為選擇。機器或模型并不具有行為意識和選擇能力,而是接受人的指令,通過復雜的模型計算來自主地執行相應任務。計算規范旨在解決機器決策中如何實現機器與基本價值對齊和匹配的標準和依據問題。機器不是真正意義上的行為主體,因此,計算規范并非針對機器的具體輸入和輸出行為,而是針對機器運行過程中價值得以轉化和呈現的方式。
其次,計算規范是建構性規范,借助Valentini的術語來說,就是社會建構的規范(Socially Constructed Norms)。計算規范不是技術規范,也不是數學公式,而是在人機關系所處的計算空間之中建構形成的規范。計算規范的建構性體現為兩個方面:一方面,在計算空間中,存在著由人機互動產生的意義關聯,人的價值向模型傳達,需要通過編程來實現。計算規范對編程進行價值指引,從而實現模型的價值對齊。計算規范以建構性的方式進入編程之中,并對模型的運行和輸出結果進行評估。另一方面,計算規范需要實施的主體和載體。計算規范不是單純的技術規范。Gasser等人探討了人工智能技術治理中的專業規范,即針對人工智能的發展和風險而由社會主體所提煉的約束性規范。這種專業規范可以被視為計算規范的雛形,但內容比計算規范單薄。因此,計算規范不能由數字技術專家主導構建,而是應由科技、倫理、法律和社會公眾代表共同打造。計算規范的載體體現為外在形式和內在形式。外在形式可以通過概括性價值表達體現出來,比如程序正義、公平對待、尊重隱私等。內在形式則通過價值的建構性轉化體現出來,借助對需要對齊之價值的論辯和解釋,將抽象的價值要求逐步呈現為更為具體的要求,并通過技術規范和算法設計加以落實。
最后,計算規范是解釋性規范。計算規范不是傳統意義上的行為規范,而是一種新興的規范狀態,是一種在人機之間進行價值傳導和溝通的規范。人機協作或者共生是以計算化的決策方式進行的,機器決策是模型推理的結果,價值判斷無法直接滲透到機器推理的過程之中,因為模型對于數據的加工和編碼等技術過程本身來說是價值無涉的。人機價值對齊的技術路徑強調對編碼參數進行調整以實現人機價值對齊,這一思路忽略了價值生成的獨特機理。計算規范的解釋性意味著計算規范是在人的價值追求和機器運行之間所形成的獨特規范空間中生成的。計算規范既具有弱的規范形態——不同于法律規范等強規范形態——也具有強的解釋性。德沃金將法律的解釋性視為對法律背后的價值世界的最好狀態的闡發。計算規范的解釋性可以參照這個框架,但模式也存在差異。計算規范背后不是人類實踐所構建出來的價值語境,而是人與高度復雜的機器所共同形成的計算化語境。只有通過解釋才能有效地進入這一語境之中,也只有通過解釋才能確定計算規范的內涵。
如果計算規范是人機價值對齊的實施機制,那么計算規范如何被體現,如何被理解,以及由誰來實施是需要進一步思考的問題。借助于既有研究,本文提出,計算規范首先需要通過元框架來提升其權威性和整體協調性,而后,應通過有效的溝通機制將人們對價值的理解轉化到人工智能技術應用的全過程之中。
第一,人機價值對齊需要可靠且穩定的元框架。在計算規范的解釋性框架下,各方主體之間能夠形成相對穩定的溝通模式來實現人機價值對齊。然而,溝通存在不確定性。人與機器的溝通畢竟不同于人際之間的溝通,機器在本質上不具有溝通能力。尤其是人機價值對齊缺乏類似于法律的權威性結構,以及穩定的執行和判斷機制。人機價值對齊的元框架有助于提升其權威性,將數字技術所拓展的社會意義空間予以制度化和規范化。
第二,人工智能技術具有彌散性和涌現性。因此,計算規范的范圍需要不斷拓展。無論技術如何發展,其面向的價值世界是由人所理解和實踐的。不同價值之間既存在重要性差異,也可能會存在沖突。計算規范雖然是傳統價值世界的延展,但也契合于基本的價值重要性位序。人機價值對齊需要在溝通和累積的基礎上不斷形成有效的計算規范體系,提升由數字科技所拓展的社會規范空間的可控性。
(二)計算規范的生成:以生成式人工智能為例
生成式人工智能的人機價值對齊規范呈現出計算性、倫理性和法律性的融通。人機價值對齊的計算規范應當回應生成式人工智能技術對價值世界的重塑效應,面向開放動態的法價值體系,以建構性和闡釋性的方法論工具,溝通法律的深層價值領域與生成式人工智能對社會世界的計算化塑造機制。當然,僅從倫理學層面構建元規范并不足夠,我們必須借助科技、倫理和法律的整合。這一整合過程并不意味著倫理和法律具有了可計算性。法律是否具有可計算性,目前在法哲學上仍然存在爭議。法律判斷與計算思維之間存在較大差異。計算操作中天然帶有以均值和概率為內涵的價值篩選,這種篩選并不完全匹配法律側重于個案解決的價值取向。在法律與技術的溝通中,還可以形成一個額外的計算空間。借助技術、倫理和法律三種實踐領域的交叉,我們能夠建構出人機價值對齊的計算規范的穩定可靠生成機制,為人工智能技術的通用法律治理打造樣板。
首先,生成式人工智能的人機價值對齊應當貫通技術、倫理和法律三個實踐領域,實現跨學科融通,體現出計算性與規范性的貫通。這三個實踐領域在價值維度上存在較大差異,但通過法律解釋性空間的重塑可以實現三個實踐領域的規范溝通。生成式人工智能在技術方面的對齊要求和策略應當融入倫理和法律的解釋性維度。這主要包括模型的道德語境設計、模型推理與道德推理的建構性融合、模型運算的價值量化機制建造等方面。
其次,生成式人工智能的人機價值對齊借助倫理和法律的協商性互動機制而構建計算規范的價值梯度和載體。倫理和法律都是對人的行為進行具體規范化指引的規范機制,生成式人工智能的價值對齊的計算規范應當在倫理和法律規范的相互闡發之中進行建構。
最后,生成式人工智能的人機價值對齊需要對智能科技所緊密關涉的價值進行澄清和重新定位,通過計算規范重塑社會價值空間。科技重塑了基本價值的內涵,也改變了法律實現和保障這些價值的方式。大模型價值計算規范的構建和挖掘,既有助于為人機價值對齊提供具有可操作性的指南,同時也有助于賦予各種價值以基本內涵。
計算規范在特征上呈現出倫理性、法律性和計算性的融通。當然,這種規范不像法律規范那樣是被預先設定好的。比如,刑法規范基于罪刑法定原則而預先確定哪些行為屬于犯罪。計算規范整合了倫理規范和法律規范中的價值要求,例如要尊重用戶的正當和合法權益,但需要將這一要求設計為既包含價值色彩又體現計算屬性的指令。價值色彩使得計算規范并不冗余,且區別于純粹的編程規則,從而體現出人機價值對齊的實質性。計算屬性使得技術研發者能夠將計算規范的要求轉化成可執行的編碼指令。一方面,應確立計算規范的價值空間切合度,將生成式人工智能運行中的人機價值對齊點進行價值切合度分析,確定切合度指標。另一方面,應實現計算規范與倫理規范的對接,借助倫理規范中的價值表達系統和價值遞進梯度對計算規范進行轉碼調試,形成計算性和倫理性兼備的計算規范形態。
(三)計算規范的實踐展望
生成式人工智能是數字技術應用最為成熟和最具代表性的場景,該領域的人機價值對齊實踐能夠為其他場景中的人機價值對齊提供參照。數字技術的應用呈現場景性,其本質上是不同社會價值在不同場景中被計算和轉化的創造性實踐。人機關系在本質上也是社會基本善的呈現,只不過數字技術的深度介入導致人機關系需要由新的價值理解方式來組織和建構。人機價值對齊是社會基本善的要求,計算規范能夠以有效的方式將社會基本善的要求融入技術應用的具體過程之中。借鑒生成式人工智能應用中計算規范的建構機理,我們可以從三個方面對計算規范進行理論展望。
第一,計算規范表達了社會基本善,同時在具體應用場景之中轉化為特定的價值,并呈現出價值重要性程度的位序和梯度。舉例來說,生成式人工智能是實踐知識之善的創造性應用,醫療人工智能服務于生命這種善,而腦機接口技術則致力于恢復特定疾病患者的能動性和行動力。其他一些技術應用在價值重要性程度上會有所降低。比如,掃地機器人的價值在于提供家政服務,智能導航系統的價值在于道路交通決策。這些應用形式主要體現為工具性價值,最終服務于社會基本善。
在具體應用中,計算規范表達了相關價值的重要性。生成式人工智能應當在其應用中彰顯知識價值的重要性,并讓用戶在互動中獲得知識的提升,避免知識幻覺。醫療人工智能則需要彰顯對生命價值的重視和保護。人工智能體盡管能夠自主決策,但仍然需要充分尊重用戶的自主性。隨著人工智能技術的自主性不斷提升,人機價值對齊所涉及的價值群也更為復雜。例如,人工智能體呈現出強烈的涌現性,智能體可自我復制、分化、協作,形成遞歸的社會結構。一個復雜任務可遞歸地生成“子社會”,形成嵌套式的集體思辨結構。人工智能體的價值對齊不僅涉及自主性這種價值,同時需要處理效率、目標復雜性和普遍性等更為復雜的人機價值對齊要求。
第二,計算規范需要將價值轉化到人機關系的建構之中,更具體地說,需要在技術設計中體現出人機價值對齊的要求。人機價值對齊不是普通的設計倫理,而是建構性和解釋性的價值實踐。法律的價值實踐通過法律規范的制定和具體實施得以實現,而計算規范具有很大不同。例如,在聊天機器人應用中,人機關系體現為受語料和模型驅動的創造性情感互動。機器人通過學習人的對話機制和情感表達,為用戶提供情感支持和輔助。機器人并不真正理解人的情感,而且在應用中會產生對人的情感操控。人機價值對齊要求它們將對人的尊重和重視融入服務過程之中。
在法律實踐中,對人的尊重通過行為調整和語言制約等義務性規范得以實現。在人機關系中,尊重需要轉化為具體的編程和模型設計。當然,僅有編程是不夠的。基于計算規范的解釋性,我們不僅要在編碼過程中將具體的價值要求融入各種參數和變量之中,如在聊天機器人的模型設計之中將對人的尊重寫入參數,同時也要在價值轉化中實現解釋性的躍升,即實現人的價值世界與機器應用場景之間的勾連。這項事業當然會受制于各種因素,如參與主體、價值實踐的難度和技術設計情況等。
第三,計算規范是建構性和解釋性規范,需要在實踐中得到落實。計算規范不同于法律規范,沒有權威性結構,但我們可以通過制度性累積而不斷完善其實踐機制,從而讓人機價值對齊越來越具有實質性。科技創新是不可阻擋的趨勢,人機價值對齊不應成為科技創新的絆腳石和科技企業的緊箍咒,但科技向善原則要求產業界、學界和社會公眾形成有效的溝通機制。基于德沃金的理論,法律作為解釋性規范能夠實現其背后的價值世界的統一性和整合性。數字科技背后的價值世界更為復雜,且不同價值會相互沖突,但通過對不同應用場景中的價值的解釋性躍升,我們可以實現其背后的各種價值表達的整合。例如,不管是在教育、就業還是金融領域,都應當貫徹平等這一價值,防止歧視。這些領域中的人工智能應用都有算法歧視的風險,但風險形態不同。在教育領域可能出現對身體參數的區別對待,在就業領域則可能在性別或身份背景中產生歧視。對平等這一價值在不同場景中的計算規范的整合和解釋性躍升,能夠促進充分平等的計算規范的建構。
此外,計算規范的元層次也在實踐中建構性地不斷完善和充實。雖然元層次與法律的權威性框架存在差異,但由于人機價值對齊是一項法治事業,因此,對計算規范的元層次的構建是推動數字法治的有益選擇。例如,人工智能初創公司Anthropic創建的人工智能倫理與安全原則“AI憲法”,雖然名為“憲法”,但實質上就是為計算規范的構建確立元框架。在具體法律實操階段,一些人機價值對齊的學理建議也體現出將計算規范融于法律規范的嘗試。例如,在將人工智能技術應用于法官司法裁判的具體場景中,需要實現人工智能技術推理和公正裁判之間的價值對齊。借助貝葉斯語言方法打造一種適于法官思維的心智計算模型,可以提升法官判案的智能化程度。此外,引入復雜推理框架與知識建模,能夠使司法人工智能具備情境感知等能力;基于人類反饋的強化學習或“憲法AI”路徑,能夠使司法人工智能的推理結論在形式上“與法官的思考對齊”。當然,這種司法性計算規范的建構和塑造過程必須受人機價值對齊的元框架的限制和指引,否則會過度強調人工智能技術的主導性,導致司法裁判與法律的整體性價值追求相偏離。
結語
科技哲學家史密斯曾言:“對于人或機器而言,倫理的基礎是主體的(半自主的)判斷的道德品性,是面向世界的意向取向、尊崇和參與,而不在于是否擁有一個明確的(倫理)理論。”這句話揭示了關于人機關系的倫理判斷的一半真相。的確,無論是人還是機器,都要以負責任的態度面向我們所處的世界,并致力于讓這個世界變得更加符合善的要求。然而,既有理論還未能有效回應這個問題。但是,這并不意味著理論是無用的。人工智能科技對社會實踐的沖擊,以及由此引發的價值對齊、算法規制、風險防范等各種挑戰,使得理論變得更為重要。本文對人機價值對齊框架的構建并未因循傳統思路,而是直面人工智能科技所帶來的社會物理學變革,以及社會規范空間的再造,從而讓人機價值對齊成為整體社會工程的組成部分。面向科技革命的理論反思或人機價值對齊建構當下可能會存在爭議,但其存在是必要的。為了社會基本善的人機價值對齊或許會帶來局部壓力,比如增加產業的論辯負擔,但其根本目標是實現“人工智能向善”。
- 向上滑動,查看完整目錄 -
《法制與社會發展》2026年第3期目錄
【習近平法治思想研究】
1.習近平法治思想研究的回顧與展望
苗炎
【全面依法治國研究】
2.中國平臺用工的特點和新就業形態勞動者權益保障
——基于不完全勞動關系的法理學思考
婁宇
3.論我國控股股東的類型化規制
王湘淳
4.股東協議的合意構成與效力限制
曹蔚軒
【法治體系研究】
5.論行政審判中的后果考量
孟融
6.自動化行政的法律保留
周維棟
【原創性概念和理論】
7.建構中國法學自主知識體系的若干問題研究
蔣傳光
【法治文化研究】
8.愛情、婚姻和家庭中的情·禮·理·法
邱本
9.民初大理院判例制度的“源”與“流”
段曉彥
【部門法哲學】
10.從支配權到規制權:知識產權法律屬性的再審視
——兼論數據權能否成為知識產權新類型
唐艷
【數字法治研究】
11.人機價值對齊的法哲學路徑
鄭玉雙
【法學時評】
以生態環境法典公布為契機,構建中國生態環境法學自主知識體系
王小鋼
《法制與社會發展》創刊于1995年,由教育部主管,吉林大學主辦,教育部人文社會科學重點研究基地?吉林大學理論法學研究中心、國家“2011計劃”?司法文明協同創新中心、吉林大學全面依法治國研究中心共同承辦,是目前國內唯一面向國內外公開發行的中文理論法學領域的專業學術期刊,現為國家社科基金資助期刊、中文社會科學引文索引(CSSCI)來源期刊、中國法學核心科研評價來源期刊(CLSCI)、中文核心期刊、中國人文社會科學核心期刊、吉林省一級期刊、吉林名刊。
點擊進入下方小程序
獲取專屬解決方案~
責任編輯 | 郭晴晴
審核人員 | 張文碩 范阿輝
本文聲明 | 本文章僅限學習交流使用,如遇侵權,我們會及時刪除。本文章不代表北大法律信息網(北大法寶)和北京北大英華科技有限公司的法律意見或對相關法規/案件/事件等的解讀。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.