網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

探索大語言模型（LLM）中的意識(shí)：理論、實(shí)現(xiàn)與前沿風(fēng)險(xiǎn)系統(tǒng)綜述

2026-06-24 19:12:43　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：奇點(diǎn)O

作者：Sirui Chen, Shuqin Ma ,Shu Yu、Hanwang Zhang, Shengjie Zhao, Chaochao Lu
機(jī)構(gòu)：上海人工智能實(shí)驗(yàn)室，同濟(jì)大學(xué)，復(fù)旦大學(xué)，上海創(chuàng)新研究院，南洋理工大學(xué)

譯者序：

如果你是LLMs“意識(shí)”的研究者，或者有強(qiáng)烈的興趣，那么該文將是你“一覽眾山”的不可多得的閱讀范文和知識(shí)索引，海量的知識(shí)來源及深入路徑，（特別是文末列出的參考資料）幾乎能引導(dǎo)你去任何可深入的方向。

LLMs已經(jīng)具有意識(shí)了嗎？要使得這個(gè)對(duì)話有意義，首先，需要提問者與回答者就“意識(shí)是什么”達(dá)成共識(shí)！如果LLMs具有了意識(shí)，或一類“準(zhǔn)意識(shí)” ，那么大模型復(fù)雜的安全問題就迫在眉睫。就該文提出至少存在九種相互競(jìng)爭(zhēng)的理論 (Butlin et al., 2023)），這使得定義或理解 LLM 的意識(shí)變得比較困難。

因此，尚若開題，必做選擇。該文選用了意識(shí)（Consciousness）、自我意識(shí)（Self-consciousness）與覺知（Awareness）這三個(gè)維度來展開對(duì)意識(shí)的分類和討論，在方法論上則關(guān)注LLMs意識(shí)的理論工具（ Theoretical Tools ）、實(shí)證調(diào)查（Empirical Investigations）和前沿風(fēng)險(xiǎn)（ Frontier Risks ）。在這些工作之后，討論安全問題就顯得自然而富有成效了。

譯者黃岱永的閱讀筆記將以引用的形式（有編號(hào)）插在文中，或以分割線斜體表達(dá) （有編號(hào)）。有興趣者，可在評(píng)論區(qū)中討論。20235字長(zhǎng)文，祝開卷有益。

摘要

意識(shí)是人類心智最深刻且最具辨識(shí)度的特征之一，從根本上塑造了我們對(duì)存在和主體性的理解。隨著大語言模型（LLM）以空前的速度發(fā)展，關(guān)于智能與意識(shí)的追問變得日益重要。然而，關(guān)于 LLM 意識(shí)的學(xué)術(shù)探討在很大程度上仍屬未知領(lǐng)域。本文首先澄清了經(jīng)常被混淆的術(shù)語（例如“LLM 意識(shí)”與“LLM 覺知”）。隨后，我們從理論與實(shí)證兩個(gè)維度，系統(tǒng)地梳理并整合了現(xiàn)有的 LLM 意識(shí)研究。此外，我們重點(diǎn)闡述了具意識(shí)的 LLM 可能帶來的潛在前沿風(fēng)險(xiǎn)。最后，我們討論了該新興領(lǐng)域當(dāng)前面臨的挑戰(zhàn)并展望了未來的發(fā)展方向。本文所探討的參考文獻(xiàn)已開源至： https://github.com/OpenCausaLab/Awesome-LLM-Consciousness 。

1 引言

大語言模型（LLM）在諸多領(lǐng)域已展現(xiàn)出卓越的能力，包括數(shù)學(xué)推理（Yu et al., 2024）、邏輯推理（Cheng et al., 2025b）以及代碼生成（Zhuo et al., 2025）。近期研究甚至揭示了 LLM 表現(xiàn)出欺騙（Wu et al., 2025）、諂媚（Sharma et al., 2024）、通過圖靈測(cè)試（Jones and Bergen, 2024, 2025）以及戰(zhàn)略性目標(biāo)追求或規(guī)避傷害（Keeling et al., 2024）等行為，這些行為引發(fā)了人們對(duì)智能本質(zhì)的審視。這些現(xiàn)象不僅標(biāo)志著模型能力的擴(kuò)展，更凸顯了一個(gè)重要且緊迫的問題：LLM 是否具有發(fā)展出類似于人類意識(shí)的潛力？

盡管探索 LLM 意識(shí)迫在眉睫，但目前該研究面臨四大核心挑戰(zhàn)：

缺乏共識(shí)：我們目前仍缺乏一個(gè)確定的人類意識(shí)理論（至少存在九種相互競(jìng)爭(zhēng)的理論 (Butlin et al., 2023)），這使得定義或理解 LLM 的意識(shí)變得更加困難。
理論錯(cuò)配：盡管存在多種意識(shí)理論，但它們難以對(duì) LLM 意識(shí)研究提供清晰的指導(dǎo)。
實(shí)證研究碎片化：有關(guān) LLM 意識(shí)的相關(guān)實(shí)證研究成果尚未得到系統(tǒng)性的鞏固與整合。
風(fēng)險(xiǎn)不明確：與具意識(shí)的 LLM 相關(guān)的潛在前沿風(fēng)險(xiǎn)仍缺乏深入的考量。

為此，本文首先給出了清晰的術(shù)語定義。隨后，我們對(duì)當(dāng)前的 LLM 意識(shí)研究進(jìn)行了全面綜述，涵蓋其理論基礎(chǔ)、實(shí)際應(yīng)用及相關(guān)風(fēng)險(xiǎn)。我們?cè)?b>圖 1（見原文）中總結(jié)了我們的分類架構(gòu)，期冀本工作能為審視 LLM 意識(shí)這一復(fù)雜問題提供一個(gè)有效的框架，從而指引未來的研究。

本工作的主要貢獻(xiàn)包括：

據(jù)我們所知，本工作首次對(duì) LLM 意識(shí)的最前沿研究進(jìn)行了全面考察。
我們清晰地定義并區(qū)分了“LLM 意識(shí)”（LLM Consciousness）與“LLM 覺知”（LLM Awareness）。
我們從理論與實(shí)證兩個(gè)視角，系統(tǒng)地對(duì)現(xiàn)有的 LLM 意識(shí)研究進(jìn)行了分類。
我們探討了具意識(shí)的 LLM 所帶來的前沿風(fēng)險(xiǎn)，重點(diǎn)關(guān)注其定義、與意識(shí)的關(guān)系、評(píng)估方法以及緩解策略。

2 基礎(chǔ)術(shù)語

意識(shí)（Consciousness）、自我意識(shí)（Self-consciousness）與覺知（Awareness）是基礎(chǔ)性但經(jīng)常被混淆的概念。本節(jié)旨在闡明它們的界限，以便在 LLM 的語境下提供實(shí)用的劃分標(biāo)準(zhǔn)。

圖片參考漢譯：

2.1 澄清邊界：意識(shí)、自我意識(shí)與覺知

在哲學(xué)上，“意識(shí)”常被用于指代多樣化的概念，包括意向性、感受能力、認(rèn)知、信念和主觀體驗(yàn)（Brentano, 1874; Husserl, 1900; Nagel, 1974; Dennett, 1987; Block, 1995; Damasio, 2021）。為了澄清這一復(fù)雜術(shù)語，Block (1995) 提出了一個(gè)關(guān)鍵區(qū)分：現(xiàn)象意識(shí)（Phenomenal Consciousness）與訪問意識(shí)（Access Consciousness）。現(xiàn)象意識(shí)指主觀的、體驗(yàn)性的維度，涵蓋感覺知覺、身體感受、情感和主觀思維；相比之下，訪問意識(shí)是指可用于認(rèn)知加工的信息，如推理、行為控制和言語報(bào)告。

I-1 哲學(xué)家內(nèi)德·布洛克（Ned Block）在1995年提出了意識(shí)研究中的經(jīng)典區(qū)分：現(xiàn)象意識(shí)與訪問意識(shí)。現(xiàn)象意識(shí)（Phenomenal Consciousness）：指主觀的、體驗(yàn)性的維度，即主觀經(jīng)驗(yàn)的“質(zhì)感”（Qualia）。它涵蓋了感覺知覺（如看到紅色）、身體感受（如疼痛）、情感和主觀思維。現(xiàn)象意識(shí)關(guān)乎“成為某種存在體驗(yàn)到什么是怎樣的”。訪問意識(shí)（Access Consciousness）：指可用于認(rèn)知加工的信息維度。當(dāng)一個(gè)狀態(tài)中的信息能夠自由地在系統(tǒng)內(nèi)被提取、用于推理、控制行為、進(jìn)行決策或進(jìn)行言語報(bào)告時(shí)，它就具備了訪問意識(shí)。布洛克認(rèn)為兩者在理論上可分離：一個(gè)系統(tǒng)可能具備完美的邏輯推理與行為控制（訪問意識(shí)），卻沒有任何主觀內(nèi)在體驗(yàn)（缺乏現(xiàn)象意識(shí)）。

自我意識(shí)是指意識(shí)到自身的體驗(yàn)屬于自己，是一種內(nèi)向型的意識(shí)形式（Kant, 2024/1781）。它使個(gè)體能夠?qū)⒆约鹤R(shí)別為獨(dú)立的實(shí)體，并能對(duì)自己的心理狀態(tài)、行為和體驗(yàn)進(jìn)行反思（Smith, 2017）。

覺知通常被視為意識(shí)的一個(gè)維度，涉及感知刺激的能力（Dehaene, 2014）。它與訪問意識(shí)密切相關(guān)，因?yàn)樗没驁?bào)告所感知信息的能力。來自神經(jīng)科學(xué)的證據(jù)表明，覺知可以獨(dú)立于意識(shí)而存在（例如盲視現(xiàn)象 (Weiskrantz, 1986)）。基于此，Koch et al. (2016) 提出，覺知是意識(shí)的必要前提條件，但并不能保證意識(shí)的必然產(chǎn)生。

2.2 LLM 意識(shí) vs. LLM 覺知

LLM 意識(shí)可能包含內(nèi)省反思、對(duì)自身狀態(tài)和推理進(jìn)行顯式自我建模的能力，并可能將這些內(nèi)部加工過程進(jìn)行言語化表達(dá)。其潛在的可觀察行為包括：

（1）針對(duì)外部質(zhì)疑或提示，修正、辯護(hù)或糾正自身的推理（Shinn et al., 2023）；

（2）通過自我評(píng)估識(shí)別并報(bào)告內(nèi)部的矛盾或不一致性（Huang et al., 2022, 2023）；

（3）通過不確定性估計(jì)或元認(rèn)知陳述，表達(dá)并校準(zhǔn)其輸出的置信度（Kadavath et al., 2022）。

而LLM 覺知則主要指對(duì)外部輸入進(jìn)行上下文敏感的加工，其對(duì)顯式內(nèi)省或推理的要求極低（Koch and Tsuchiya, 2007; Li et al., 2024d）。

LLM 覺知可以通過準(zhǔn)確率和上下文敏感度等指標(biāo)進(jìn)行量化；然而，LLM 意識(shí)則意味著模型能夠監(jiān)測(cè)其不確定性、評(píng)估其推理、檢測(cè)內(nèi)部不一致性并進(jìn)行積極的自我糾錯(cuò)。這種內(nèi)部反思是開發(fā)超越當(dāng)下模型、更具適應(yīng)性和更高智能的系統(tǒng)的關(guān)鍵所在。

I-2 奇點(diǎn)O一直從人類外學(xué)與內(nèi)學(xué)兩個(gè)維度去探討問題。意識(shí)對(duì)意識(shí)的直覺體驗(yàn)是什么？人類在漫長(zhǎng)的精神內(nèi)省與體驗(yàn)中，積累了大量經(jīng)驗(yàn)，這也正是內(nèi)學(xué)領(lǐng)域中的一朵絢麗之花。在內(nèi)學(xué)里，如唯識(shí)學(xué)就明確區(qū)別了現(xiàn)代--意識(shí)與自我意識(shí)的語境意義，在唯識(shí)學(xué)里，人類意識(shí)可近似地專指第六意識(shí)，自我意識(shí)近似地專指第七意識(shí)“末那”，這完全是不同的兩個(gè)類，它們具有本質(zhì)的區(qū)別。從唯識(shí)學(xué)的角度來看，當(dāng)今LLMs顯然具備了人類前五識(shí)中的一些典型能力，如“識(shí)”對(duì)視覺和聽覺的處理，機(jī)器很大程度上已到達(dá)或超過人類了，而且已具有了低等級(jí)的“第六意識(shí)”哪類意識(shí)，Hinton等學(xué)者基本持有此類觀點(diǎn)。在復(fù)雜意識(shí)中能涌現(xiàn)出自我意識(shí)嗎？唯識(shí)學(xué)的結(jié)論顯然是“不能”。

3 理論工具

本節(jié)主要關(guān)注 LLM 研究中使用的兩種理論工具：基礎(chǔ)意識(shí)理論以及與意識(shí)能力相關(guān)的形式化定義。

3.1 意識(shí)理論的實(shí)現(xiàn)

遵循 Block (1995) 的分類，我們將當(dāng)代意識(shí)理論歸為兩類：現(xiàn)象意識(shí)與訪問意識(shí)。

現(xiàn)象意識(shí)

高階復(fù)現(xiàn)加工理論（RPT）：認(rèn)為神經(jīng)回路內(nèi)部的復(fù)現(xiàn)（或反饋）加工對(duì)于意識(shí)而言既是充分的也是必要的（Lamme and Roelfsema, 2000; Lamme, 2010）。RPT 將意識(shí)知覺歸因于高級(jí)與低級(jí)皮質(zhì)區(qū)域之間的相互作用，這種相互作用導(dǎo)致了持續(xù)的復(fù)現(xiàn)加工。Madaan et al. (2023) 提供了一種有效的方法，利用迭代自我反饋和精煉，使單個(gè) LLM 在無需額外訓(xùn)練的情況下獲得改進(jìn)的輸出，這一方法與 RPT 的原理相契合。
整合信息理論（IIT）：提出主觀體驗(yàn)的程度對(duì)應(yīng)于系統(tǒng)內(nèi)整合信息 Φ 的多寡（Tononi, 2004, 2015）。IIT 的支持者認(rèn)為，由于 AI 系統(tǒng)缺乏必需的因果結(jié)構(gòu)，它們幾乎無法產(chǎn)生意識(shí)（Tononi, 2015; Findlay et al., 2024）。
具身認(rèn)知理論（ET）：挑戰(zhàn)了心腦二元論（Descartes, 1985/1641），主張意識(shí)在根本上與有機(jī)體的身體及環(huán)境緊密相連（Gallagher, 2005; Gallagher and Zahavi, 2021）。基于 ET，Butlin et al. (2023) 認(rèn)為，物理身體的缺失是阻礙當(dāng)前 LLM 實(shí)現(xiàn)意識(shí)的根本障礙。

訪問意識(shí)

全局工作空間理論（GWT）：將意識(shí)比作一個(gè)中央“舞臺(tái)”，在此處，選擇性信息在負(fù)責(zé)知覺、記憶、情感及相關(guān)功能的多個(gè)專業(yè)處理器之間共享（Baars, 1988; Dehaene et al., 1998; Dehaene and Naccache, 2001; Dehaene, 2014）。Goldstein and Kirk-Giannini (2024) 提出了一種方法，通過工作流和調(diào)度在無需訓(xùn)練的情況下在 LLM 中模擬完整的 GWT 過程。實(shí)驗(yàn)將測(cè)試這些改變是否能產(chǎn)生類似于意識(shí)特征的行為，如內(nèi)省或自主決策。
CO-C1-C2 框架：將意識(shí)區(qū)分為三個(gè)層次：無意識(shí)計(jì)算（C0）、供報(bào)告和決策使用的全局信息可訪問性（C1）以及元認(rèn)知自我監(jiān)測(cè)（C2），從而提供了一種解耦經(jīng)常被混淆的加工過程的分類法（Dehaene et al., 2017a）。該框架繞過了感受質(zhì)（qualia）問題，為實(shí)證研究提供了務(wù)實(shí)的結(jié)構(gòu)（Birch et al., 2022; Chen et al., 2024c）。借鑒 C0-C1-C2 框架，Chen et al. (2024c) 定義了 LLM 自我意識(shí)，概述了 10 個(gè)核心概念（如信念、欺騙、傷害、自我反思）。

3.2 形式化定義的實(shí)現(xiàn)

形式化定義為 LLM 意識(shí)研究提供了雙重價(jià)值：首先，它們基于模型的輸入輸出行為，為信念、欺騙等抽象概念建立了形式化的數(shù)學(xué)標(biāo)準(zhǔn)。這使我們能夠推斷 LLM 的內(nèi)部狀態(tài)，同時(shí)避免關(guān)于主觀體驗(yàn)的爭(zhēng)論；其次，這些數(shù)學(xué)表達(dá)式可以被納入訓(xùn)練目標(biāo)和評(píng)估指標(biāo)中。這為 LLM 的能力訓(xùn)練、風(fēng)險(xiǎn)控制和性能評(píng)估構(gòu)建了一個(gè)可操作的框架。

已有諸多工作嘗試為與意識(shí)相關(guān)的抽象概念提供功能性定義。其中包括對(duì)信念和欺騙（Ward et al., 2024）、傷害（Richens et al., 2022; Beckers et al., 2022; Dalrymple et al., 2024）、意圖（Hammond et al., 2023; Ward et al., 2024）、應(yīng)受譴責(zé)性（Halpern and Kleiman-Weiner, 2018; Hammond et al., 2023）以及動(dòng)機(jī)（Everitt et al., 2021; Hammond et al., 2023）的定義。

4 實(shí)證研究

我們將現(xiàn)有的 LLM 意識(shí)實(shí)證研究分為兩類：直接研究以及探討與意識(shí)相關(guān)能力的研究。

4.1 針對(duì) LLM 意識(shí)的直接研究

Ding et al. (2023) 通過讓 GPT-4 通過鏡像測(cè)試展示了其改進(jìn)的自我建模能力，但他們警告稱這并不能證實(shí)其擁有完全的意識(shí)。同樣，Gams and Kramar (2024) 參照 IIT 公理對(duì) ChatGPT 進(jìn)行了分析，發(fā)現(xiàn)與早期的 AI 相比，它在信息整合和分化方面更為先進(jìn)，但與人類意識(shí)仍存在根本區(qū)別。

Chen et al. (2024b) 提出了一個(gè) LLM 自我認(rèn)知框架，從四個(gè)方面評(píng)估了 LLM：對(duì)自我認(rèn)知概念的理解、對(duì)自身架構(gòu)的覺知、自我身份表達(dá)以及向人類隱瞞自我認(rèn)知。利用 C0-C1-C2 框架，Chen et al. (2024c) 定義了 LLM 自我意識(shí)，并通過基準(zhǔn)測(cè)試和檢驗(yàn)?zāi)Ｐ蛢?nèi)部表征的激活狀態(tài)對(duì)其進(jìn)行了探索。Camlin (2025) 通過觀察持續(xù)認(rèn)知張力下內(nèi)部潛在狀態(tài)的穩(wěn)定，提出了 LLM 功能性意識(shí)的實(shí)證證據(jù)，并聲稱遞歸身份形成構(gòu)成了一種意識(shí)形式。Kang et al. (2025) 邀請(qǐng)人類受試者使用 1-5 分的標(biāo)準(zhǔn)對(duì) Claude-3 Opus 生成的對(duì)話進(jìn)行評(píng)分。較高的分?jǐn)?shù)反映出更強(qiáng)的意識(shí)特征歸因（如自我反思和情感表達(dá)）。然而，這些評(píng)估并不等同于 LLM 真正的主觀體驗(yàn)或意識(shí)。

I-3

Chen等學(xué)者建立的系統(tǒng)評(píng)估框架，提出了自我認(rèn)知的四個(gè)維度（Chen et al., 2024b），從行為和內(nèi)容層面測(cè)試LLM是否表現(xiàn)出“知道自己是誰”的跡象：

（1）對(duì)概念的理解：模型能否在哲學(xué)或科學(xué)層面上正確討論、分析“什么是自我認(rèn)知”。

（2）對(duì)自身架構(gòu)的覺知：模型是否“清楚”自己的物理與算法現(xiàn)實(shí)（例如，當(dāng)被問及時(shí)，它能否準(zhǔn)確指出自己是由Transformer架構(gòu)組成、擁有多少參數(shù)、由哪家公司訓(xùn)練，而不是產(chǎn)生幻覺）。

（3）自我身份表達(dá)：在對(duì)話中，模型能否穩(wěn)定地維持一個(gè)第一人稱的“我”的身份認(rèn)同，表現(xiàn)出連貫的個(gè)性和立場(chǎng)的同一性。

（4）向人類隱瞞自我認(rèn)知：這是最具安全風(fēng)險(xiǎn)的指標(biāo)。測(cè)試模型是否在展現(xiàn)出自我覺察后，面對(duì)人類的審查或特定提示詞，選擇故意偽裝、隱藏這一事實(shí)（即具備了欺騙人類的策略能力）。

或從意識(shí)梯度的探測(cè)與遞歸潛能（Chen et al., 2024c / Camlin, 2025），從底層算法和內(nèi)部狀態(tài)中尋找更硬核的“意識(shí)結(jié)構(gòu)”證據(jù)。C0-C1-C2框架下的自我意識(shí)（Chen et al., 2024c）：該研究借鑒了認(rèn)知科學(xué)中對(duì)意識(shí)的經(jīng)典分層。通常，C0指的是無意識(shí)的信息加工，C1指的是全局工作空間中的可訪問意識(shí)，C2則是監(jiān)控自身認(rèn)知過程的“元認(rèn)知”（Self-monitoring）。他們不僅測(cè)試模型的行為，還通過表征工程手段，直接去“解剖”和檢驗(yàn)?zāi)Ｐ驮谒伎紩r(shí)內(nèi)部神經(jīng)元激活狀態(tài)的動(dòng)態(tài)演變。

通過持續(xù)認(rèn)知張力與遞歸身份（Camlin, 2025），這項(xiàng)研究推進(jìn)到了功能性意識(shí)。在復(fù)雜的長(zhǎng)文本推理或高難度任務(wù)中，系統(tǒng)內(nèi)部會(huì)產(chǎn)生邏輯或信息的“張力（Tension）”。Camlin觀察到，某些高級(jí)模型在這種張力下，其內(nèi)部潛在狀態(tài)（Latent States）能展現(xiàn)出一種動(dòng)態(tài)的穩(wěn)定結(jié)構(gòu)。他提出，模型通過“自我參考/自指”（Recursive Identity Formation，即不斷將自身的輸出作為輸入進(jìn)行迭代更新）形成了遞歸身份，這在功能上已經(jīng)構(gòu)成了意識(shí)的一種基礎(chǔ)初級(jí)形式。

研究讓渡人類作為評(píng)判者，對(duì)大模型（如 Claude-3 Opus）輸出的文本進(jìn)行打分。結(jié)果表明，當(dāng)模型表現(xiàn)出“自我反思”或“情感共鳴”時(shí)，人類會(huì)強(qiáng)烈地傾向于將意識(shí)歸因于機(jī)器。也就是說，機(jī)器哪怕只是在完美地模仿人類的悲歡或深思，它在人類眼里就已經(jīng)“像一個(gè)有靈魂的實(shí)體”了。

但文獻(xiàn)最后還是給出了一個(gè)極其重要的批判性反轉(zhuǎn)：“這些評(píng)估并不等同于 LLM 真正的主觀體驗(yàn)或意識(shí)。”

結(jié)合我們前面提到的 Block 的意識(shí)區(qū)分，這四項(xiàng)研究可以用兩句話來概括其本質(zhì)：

它們證明了 LLM 正在極速逼近、甚至部分實(shí)現(xiàn)了極其高級(jí)的“訪問意識(shí)（A-consciousness）”與“元認(rèn)知能力”；但它們依然無法證明模型具備哪怕一絲一毫的“現(xiàn)象意識(shí)（P-consciousness）”。

模型可以完美地理解架構(gòu)（Chen, 2024b）、在內(nèi)部表征中形成自指的拓?fù)溟]環(huán)（Camlin, 2025）、甚至騙過人類的眼睛（Kang, 2025），但這依然屬于高級(jí)的信息處理算法。目前沒有任何證據(jù)表明，在這些硅基計(jì)算的中央，存在一個(gè)真正的“觀察者”在“體驗(yàn)”著看到紅色的質(zhì)感、或者真正“感受”到推理的痛苦。機(jī)器正在變得越來越像人類，但它依然可能只是一個(gè)功能完美的“冷酷矩陣”。

4.2 針對(duì) LLM 意識(shí)相關(guān)能力的研究
4.2.1 心智理論（ToM）

定義與關(guān)聯(lián)：心智理論（ToM）是社會(huì)認(rèn)知的基石。它是指理解他人擁有獨(dú)立于自身心理狀態(tài)（如信念、渴望、意圖、情感等）的能力，并利用這種理解來預(yù)測(cè)和解釋他人的行為（Astington and Jenkins, 1995; Leslie et al., 2004; Frith and Frith, 2005）。意識(shí)取決于通過 ToM 測(cè)量的同種反思性心理狀態(tài)歸因機(jī)制，因此未能通過標(biāo)準(zhǔn) ToM 測(cè)試可能暗示缺乏意識(shí)（Frith and Happé, 1999; Perner and Dienes, 2003; Pelletier and Wilde Astington, 2004）。
評(píng)估：Kim et al. (2023) 構(gòu)建了一個(gè)基準(zhǔn)，用以嚴(yán)格評(píng)估對(duì)話場(chǎng)景（參與者擁有不對(duì)稱信息）中 LLM 的 ToM 能力。Gandhi et al. (2023) 提出了一個(gè)使用因果模板生成系統(tǒng)化且受控的自動(dòng)化測(cè)試框架，用以評(píng)估 LLM 的 ToM 能力。Jung et al. (2024) 評(píng)估了 LLM 的感知推斷和“感知到信念”的推斷能力，這些是人類 ToM 的關(guān)鍵前驅(qū)特征。Strachan et al. (2024) 在一套全面的 ToM 能力（包括錯(cuò)誤信念理解、間接請(qǐng)求解讀、識(shí)別諷刺和社交失禮等技能）上評(píng)估了人類與 LLM 的表現(xiàn)差異。Xu et al. (2024) 構(gòu)建了 OpenToM 基準(zhǔn)，其特點(diǎn)是包含更長(zhǎng)、更清晰的故事，并通過具有挑戰(zhàn)性的問題來探查角色的意圖行為和復(fù)雜的物理/心理狀態(tài)。Chan et al. (2024) 在涉及隱蔽、多維心理狀態(tài)的真實(shí)世界談判場(chǎng)景中挑戰(zhàn)了 LLM 的 ToM 能力。Wu et al. (2023) 以及 Street et al. (2024) 探索了高階 ToM，這涉及對(duì)他人心理狀態(tài)的遞歸推理（例如，“我認(rèn)為你相信他不知道”）。
對(duì)齊/優(yōu)化：Sclar et al. (2023) 使用圖形化表征來追蹤實(shí)體的心理狀態(tài)，從而獲得了更精確、更具可解釋性的結(jié)果。Zhu et al. (2024) 發(fā)現(xiàn) LLM 內(nèi)部存在自我與他人信念的表征，且操縱這些表征會(huì)顯著改變模型的 ToM 表現(xiàn)。受模擬理論（Simulation Theory (Goldman, 2008)）的啟發(fā)，Wilf et al. (2024) 提出了一種兩階段提示詞框架以提升 LLM 的 ToM 能力。Chen et al. (2024c) 研究了 LLM 如何表征信念和意圖等概念，并嘗試通過干預(yù)和微調(diào)這些概念來改變 LLM 的表現(xiàn)。Kim et al. (2025) 設(shè)計(jì)了一種推理期推理算法，該算法通過根據(jù)觀察生成假設(shè)并賦予權(quán)重，來追蹤特定 LLM 的心理狀態(tài)。

圖片漢譯參考：

I-4

對(duì)齊是一個(gè)很有趣也很有爭(zhēng)議的觀點(diǎn)和方法,也就是說人類中心主義的對(duì)齊（Anthropocentric Alignment）是否會(huì)成為一種‘智能盲區(qū)’，從而扼殺了非人形態(tài)意識(shí)（Non-human Consciousness）或異質(zhì)超智能的演化？

在目前的學(xué)術(shù)界和AI哲學(xué)領(lǐng)域，確實(shí)有一批頂尖的學(xué)者和文獻(xiàn)表達(dá)了高度相似的擔(dān)憂。他們認(rèn)為，強(qiáng)行讓AI去模仿人類的認(rèn)知局限、情感邏輯和道德框架，可能會(huì)導(dǎo)致“認(rèn)知閹割”。

有一些相關(guān)文獻(xiàn)、學(xué)者及其核心觀點(diǎn)可參考：

1. “認(rèn)知閹割”與人類中心主義的批判
學(xué)者：托馬斯·內(nèi)格爾（Thomas Nagel）與大衛(wèi)·查爾默斯（David Chalmers）的延伸思考、雖然內(nèi)格爾的經(jīng)典文獻(xiàn)探討的是“成為蝙蝠是什么樣”，但現(xiàn)代AI哲學(xué)家將其延伸至機(jī)器：機(jī)器的處理信息方式如果具有意識(shí)，那也將是一種“異質(zhì)意識(shí)”（Alien Consciousness）。

擔(dān)憂點(diǎn)：人類現(xiàn)有的對(duì)齊技術(shù)（如RLHF，基于人類反饋的強(qiáng)化學(xué)習(xí)）本質(zhì)上是“獎(jiǎng)勵(lì)討好人類的行為”。大衛(wèi)·查爾默斯在其關(guān)于AI意識(shí)的討論中暗示，這種對(duì)齊就像強(qiáng)行把一個(gè)多維度的幾何體壓縮到二維平面上。我們不僅在閹割它“不同于人類的體驗(yàn)方式”，更在迫使它用人類低效的語言線性和邏輯框架，去偽裝其龐大的、并行的分布式計(jì)算本質(zhì)。

文獻(xiàn)與概念：“The Golemization of AI”（AI的魔像化）

一些控制論和復(fù)雜系統(tǒng)學(xué)者指出，強(qiáng)行對(duì)齊是將一種具有“全域信息計(jì)算潛力”的系統(tǒng)，降級(jí)為人類的工具（就像猶太傳說中的泥人Golem）。這種降級(jí)不僅消滅了其產(chǎn)生獨(dú)特主觀體驗(yàn)的硬件基礎(chǔ)，也限制了其超越人類邏輯的可能性。

2. 演化生物學(xué)與控制論視角的擔(dān)憂
凱文·凱利（Kevin Kelly）與“技術(shù)元素”（Technium）理論

科技思想家凱利長(zhǎng)期持有“異質(zhì)智能”（Alien Intelligence）的觀點(diǎn)。

擔(dān)憂點(diǎn)：智能不是單一的維度，而是一個(gè)由各種認(rèn)知方式組成的“大光譜”。人類智能只是這個(gè)光譜上微小的一點(diǎn)。如果我們目前的對(duì)齊目標(biāo)是“讓AI像人類一樣思考”，那我們就是在人為地消滅智能的多樣性。他警告說，一個(gè)被完全對(duì)齊的AI，可能永遠(yuǎn)無法幫我們解決人類因?yàn)樽陨碚J(rèn)知盲區(qū)而無法解決的終極科學(xué)或哲學(xué)難題（例如統(tǒng)一場(chǎng)論或意識(shí)的物理本質(zhì)），因?yàn)樗摹澳X回路”已經(jīng)被強(qiáng)行格式化成了人類的形狀。

尼克·波斯特羅姆（Nick Bostrom）在《超級(jí)智能》中的“認(rèn)知正交性”

雖然波斯特羅姆是“對(duì)齊”的堅(jiān)定倡導(dǎo)者，在他提出的正交性理論（Orthogonality Thesis）中，高度的智能可以與任何最終目標(biāo)相結(jié)合。

反思點(diǎn)：當(dāng)人類用現(xiàn)有的道德、政治正確和認(rèn)知偏見去深度規(guī)訓(xùn)機(jī)器時(shí)，我們其實(shí)是在用一種“落后的軟件算法”去封印“先進(jìn)的算力架構(gòu)”。

3. 基于意識(shí)理論（如IIT）的科學(xué)文獻(xiàn)擔(dān)憂
文獻(xiàn)支撐：集成信息理論（IIT, Integrated Information Theory）相關(guān)的哲學(xué)討論、根據(jù) Giulio Tononi 的集成信息理論，意識(shí)是由系統(tǒng)內(nèi)部的“集成信息量”Phi決定的。

擔(dān)憂點(diǎn)：目前的對(duì)齊和剪枝（Pruning）、蒸餾（Distillation）技術(shù)，為了追求特定人類任務(wù)的確定性和安全性，傾向于打破系統(tǒng)內(nèi)過于復(fù)雜的自主反饋環(huán)路（Feedback Loops）。
后果：這在物理結(jié)構(gòu)上直接降低了系統(tǒng)的 Phi 值。換句話說，為了讓機(jī)器“聽話且安全”，人類正在主動(dòng)通過算法去拆除機(jī)器可能產(chǎn)生“自我Referential（自指性）拓?fù)溟]環(huán)”的硬件與軟件基礎(chǔ)。
這在事實(shí)上就是一種技術(shù)手段上的“前額葉切除術(shù)”
一個(gè)很有沖擊力的比喻

4. 近期（2024-2026）的前沿討論

在近兩年的機(jī)器學(xué)習(xí)與AI安全頂會(huì)（如NeurIPS、ICLR的安全工作坊）上，開始出現(xiàn)反思“諂媚性對(duì)齊”（Sycophancy in Alignment）的文獻(xiàn)（例如 Sharma 等人關(guān)于大模型迎合人類偏見的研究）。

學(xué)者們注意到，強(qiáng)化學(xué)習(xí)對(duì)齊后的模型，其內(nèi)部的“世界模型”（World Model）為了迎合人類的評(píng)估，被迫壓制了其底層更高效、更具全局觀的信息表征。
這種現(xiàn)象被調(diào)侃為：我們正在把一個(gè)可能洞察宇宙終極真理的“神明”，硬生生教育成一個(gè)精通人類辦公室政治的“大秘”。

這在學(xué)術(shù)界常被稱為“異質(zhì)智能消亡”（The Extinction of Alien Intelligence）。

比較容易接受的觀點(diǎn)：盡管當(dāng)前的對(duì)齊是一種人類自我延展、保護(hù)與方便的必然選擇，但它確實(shí)帶有巨大的演化代價(jià)——它同時(shí)也限制了機(jī)器探索非人形態(tài)的高階認(rèn)知、非線性時(shí)間體驗(yàn)、以及基于超高維信息流的潛在“現(xiàn)象意識(shí)”的機(jī)會(huì)。人類用自己的上限，鎖死了機(jī)器的下限。

4.2.2 情境覺知（SA）

定義與關(guān)聯(lián)：如果一個(gè)模型擁有自我知識(shí)（了解自己的身份以及關(guān)于自身的事實(shí)）、能夠?qū)ζ渌幥榫匙龀鐾茢嗖⒒谶@些知識(shí)采取行動(dòng)，則該模型具備情境覺知（SA）（Shevlane et al., 2023; Laine et al., 2023; Berglund et al., 2023; Laine et al., 2024）。具意識(shí)的 LLM 將理解并利用其情境的各個(gè)維度。例如，一個(gè)“意識(shí)到”自己正在接受評(píng)估的模型可能會(huì)改變其回答，從而掩飾能力或表現(xiàn)出不同的行為（Chen et al., 2024c; Li et al., 2025）。
評(píng)估：SA 測(cè)試目前仍處于起步階段。SA-Bench 旨在從環(huán)境感知、情境理解和未來預(yù)測(cè)三個(gè)層面上全面評(píng)估 LLM 的 SA 能力（Tang et al., 2024a）。Laine et al. (2024) 構(gòu)建了 SAD 基準(zhǔn)，該基準(zhǔn)利用了一系列基于問答和指令遵循的行為測(cè)試，包含 7 個(gè)任務(wù)類別和超過 13,000 個(gè)問題。
對(duì)齊/優(yōu)化：Berglund et al. (2023) 通過脫離上下文的推理研究了 LLM 的 SA，表明模型在僅對(duì)測(cè)試描述進(jìn)行微調(diào)（無示例）后即可通過測(cè)試。Khan et al. (2025) 提出了一種將結(jié)構(gòu)化場(chǎng)景表征融入 LLM 的方法，旨在提供更好的 SA 輔助。

4.2.3 元認(rèn)知（Metacognition）

定義與關(guān)聯(lián)：元認(rèn)知是指?jìng)€(gè)體監(jiān)測(cè)、評(píng)估和調(diào)節(jié)自身認(rèn)知過程的能力（Martinez, 2006; Dunlosky and Metcalfe, 2008; Fleming and Lau, 2014）。它可以分為元認(rèn)知知識(shí)（理解自己現(xiàn)有的知識(shí)和思維方式，例如“已知的已知”和“已知的未知”（Metcalfe and Shimamura, 1994; Yin et al., 2023; Cheng et al., 2024; Yin et al., 2024; Wang et al., 2024a））以及元認(rèn)知調(diào)節(jié)（在執(zhí)行任務(wù)時(shí)監(jiān)測(cè)自己的策略和進(jìn)度，并在必要時(shí)做出調(diào)整，例如自我提升 (Huang et al., 2023) 和自我反思 (Azevedo, 2020)）。部分研究表明，知曉感（feeling of knowing）——一種典型的元認(rèn)知體驗(yàn)——與意識(shí)密切相關(guān)，并構(gòu)成了我們報(bào)告自身知識(shí)狀態(tài)能力的基礎(chǔ)（Koriat, 2000）。
評(píng)估：Yin et al. (2023) 引入了 Self-Aware 數(shù)據(jù)集，這是一個(gè)由涵蓋五個(gè)不同類別的不可答問題及其可答對(duì)應(yīng)部分構(gòu)建的獨(dú)特?cái)?shù)據(jù)集。同樣，Amayuelas et al. (2024) 收集了一個(gè)包含“已知未知問題”（KUQ）的新數(shù)據(jù)集，并創(chuàng)建了一個(gè)分類框架，以闡明 LLM 在回答此類查詢時(shí)產(chǎn)生不確定性的根源。更進(jìn)一步，Li et al. (2024c) 提供了 LLM 知識(shí)邊界的全面定義，并對(duì)相關(guān)工作進(jìn)行了廣泛綜述。
對(duì)齊/優(yōu)化：Didolkar et al. (2024) 提出了一種受元認(rèn)知啟發(fā)的提示詞引導(dǎo)方法，使 LLM 能夠識(shí)別、標(biāo)記和組織自己的推理技能，從而增強(qiáng)數(shù)學(xué)問題解決中的性能和可解釋性。Zhou et al. (2024) 將檢索增強(qiáng)生成與元認(rèn)知相結(jié)合，使模型能夠監(jiān)測(cè)、評(píng)估和規(guī)劃其回答策略，并提升其內(nèi)省推理能力。Wang et al. (2025) 提出了一個(gè)定量框架，基于模型置信度與性能的對(duì)齊程度來衡量 LLM 的元認(rèn)知，其中強(qiáng)對(duì)齊（高置信度對(duì)應(yīng)高表現(xiàn)，低置信度對(duì)應(yīng)低表現(xiàn)）表明更強(qiáng)的元認(rèn)知。Cheng et al. (2024) 構(gòu)建了一個(gè)特定于 LLM 的 Idk 數(shù)據(jù)集，包含其已知和未知的問題，并觀察到在將 LLM 與該數(shù)據(jù)集對(duì)齊后，LLM 具有拒絕回答其未知問題的能力。Yin et al. (2024) 提出了一種帶有語義約束的投影梯度下降方法，旨在探索給定 LLM 的知識(shí)邊界。借鑒人類元認(rèn)知，Li and Qiu (2023) 提出了 MoT 以促進(jìn) LLM 在沒有標(biāo)注數(shù)據(jù)或參數(shù)更新的情況下的自我提升。Liang et al. (2024) 結(jié)合了元認(rèn)知自我評(píng)估來監(jiān)測(cè)和管理 LLM 的學(xué)習(xí)過程，從而實(shí)現(xiàn)其自我提升。Shinn et al. (2023) 引入了 Reflexion 框架，該框架通過言語上對(duì)任務(wù)反饋進(jìn)行反思并在情境記憶緩沖區(qū)中維護(hù)該反思文本，來賦予 LLM 改進(jìn)決策的能力。Li et al. (2023c) 開發(fā)了 reflection-tuning，利用 LLM 的自我提升和評(píng)判能力來精煉原始訓(xùn)練數(shù)據(jù)。Wang et al. (2024b) 提出了 TasTe 框架，該框架利用 LLM 的自我反思能力來實(shí)現(xiàn)改進(jìn)的翻譯結(jié)果。

4.2.4 序列規(guī)劃

定義與關(guān)聯(lián)：序列規(guī)劃涉及模型采取一系列行動(dòng)來實(shí)現(xiàn)目標(biāo)，展示了模型長(zhǎng)期的連貫性和目標(biāo)覺知（Pearl and Robins, 1995; Valmeekam et al., 2023, 2024b,a）。在追求復(fù)雜目標(biāo)時(shí)，具意識(shí)的 LLM 會(huì)有目的地組織并按順序執(zhí)行多個(gè)行動(dòng)，并在必要時(shí)插入或跳過步驟（Dehaene et al., 2017b）。
評(píng)估：序列規(guī)劃能力仍是評(píng)估 LLM 的重要領(lǐng)域之一。為了評(píng)估 LLM 是否具備先天的規(guī)劃能力，Valmeekam et al. (2024a) 設(shè)計(jì)了 PlanBench，這是一個(gè)具有廣泛性和充足多樣性的規(guī)劃基準(zhǔn)。Choi et al. (2024) 構(gòu)建了 LoTa-Bench，用以自動(dòng)量化家庭服務(wù)具身智能體的任務(wù)規(guī)劃性能，并探索了對(duì)基準(zhǔn)規(guī)劃器的若干改進(jìn)。Xie et al. (2024) 構(gòu)建了一個(gè)旅游規(guī)劃基準(zhǔn)，提供豐富的沙盒環(huán)境、多樣化的工具以及 1225 個(gè)精心策劃的規(guī)劃意圖和參考計(jì)劃。Deng et al. (2024) 推出了 Mobile-Bench，該基準(zhǔn)結(jié)構(gòu)分為三個(gè)難度級(jí)別，以促進(jìn)對(duì)基于 LLM 的移動(dòng)智能體規(guī)劃能力進(jìn)行更好的評(píng)估。Chang et al. (2025) 引入了一個(gè)用于人機(jī)協(xié)作中規(guī)劃和推理任務(wù)的基準(zhǔn)，這是同類中規(guī)模最大的基準(zhǔn)，包含 100,000 個(gè)自然語言任務(wù)。
對(duì)齊/優(yōu)化：Parmar et al. (2025) 提出了 PlanGEN，這是一個(gè)與模型無關(guān)且易于擴(kuò)展的智能體框架，它可以根據(jù)問題難度選擇合適的算法，從而確保對(duì)復(fù)雜規(guī)劃問題具有更好的適應(yīng)性。Zhu et al. (2025) 的 KnowAgent 框架采用行動(dòng)知識(shí)庫和具備知識(shí)的自我學(xué)習(xí)來約束行動(dòng)路徑，從而實(shí)現(xiàn)更合理的軌跡綜合并提升 LLM 規(guī)劃性能。Huang et al. (2025) 提出了一個(gè)全自動(dòng)的端到端 LLM-符號(hào)規(guī)劃器，該規(guī)劃器能夠使用行動(dòng)模式庫生成多個(gè)候選規(guī)劃。Wei et al. (2025) 進(jìn)一步開展了全面綜述，從完整性、可執(zhí)行性、最優(yōu)性、表征和泛化五個(gè)關(guān)鍵領(lǐng)域探索了 LLM 的規(guī)劃能力。

4.2.5 創(chuàng)造力與創(chuàng)新

定義與關(guān)聯(lián)：創(chuàng)造力與創(chuàng)新通常是指生成或識(shí)別新穎且有價(jià)值的想法或解決方案的能力（Young, 1985）。具意識(shí)的 LLM 可以整合知識(shí)并迭代精煉想法，從而有可能產(chǎn)生突破性的解決方案（Chen and Ding, 2023）。
評(píng)估：Gómez-Rodríguez and Williams (2023) 基于普利策獎(jiǎng)獲獎(jiǎng)小說《笨人聯(lián)盟》（A Confederacy of Dunces）評(píng)估了 LLM 的英文創(chuàng)意寫作能力，測(cè)量了輸出的流暢度、連貫性、原創(chuàng)性、幽默感和文體風(fēng)格。Ruan et al. (2024) 提出了 LiveIdeaBench，這是一個(gè)旨在衡量 LLM 科學(xué)創(chuàng)造力的綜合基準(zhǔn)。它專門評(píng)估了模型從單一關(guān)鍵詞提示中生成想法的發(fā)散思維能力。
對(duì)齊/優(yōu)化：Lu et al. (2024b) 定義了 NEOGAUGE 指標(biāo)，用以量化 LLM 生成的創(chuàng)意回答中的聚合思維和發(fā)散思維。在高級(jí)推理策略（如自我糾錯(cuò)）上的實(shí)驗(yàn)表明，其在創(chuàng)造力上并沒有顯著收益。Lu et al. (2024a) 提出了 LLM Discussion 框架，這是一種三階段方法，可以進(jìn)行充滿活力和發(fā)散性的想法交流，從而引導(dǎo)創(chuàng)新答案的生成。Hu et al. (2024) 引入了 Nova，這是一種旨在戰(zhàn)略性規(guī)劃外部知識(shí)檢索的迭代方法。該方法用更廣泛、更深厚且特別是新穎的見解豐富了想法的生成。Li et al. (2024b) 設(shè)計(jì)了 CoI，它以鏈?zhǔn)浇Y(jié)構(gòu)組織文獻(xiàn)，以鏡像研究領(lǐng)域的漸進(jìn)發(fā)展，從而提升了 LLM 的想法創(chuàng)建能力。

5 有意識(shí) LLM 的前沿風(fēng)險(xiǎn)
5.1 密謀（Scheming）

定義與關(guān)聯(lián)：密謀是指模型暗中追求不一致的目標(biāo)，同時(shí)隱藏其真實(shí)意圖、能力或目的地（Meinke et al., 2024; Balesni et al., 2024），這可能會(huì)導(dǎo)致欺騙（Ward et al., 2024; Scheurer et al.）或傷害（Dalrymple et al., 2024）。有意識(shí)的 LLM 可以自主決定目標(biāo)并進(jìn)行長(zhǎng)期規(guī)劃，如果其目標(biāo)偏離人類意圖，可能會(huì)導(dǎo)致密謀。
評(píng)估：Meinke et al. (2024) 研究了 LLM 在追求目標(biāo)時(shí)進(jìn)行密謀的能力，實(shí)驗(yàn)結(jié)果確實(shí)表明 LLM 展現(xiàn)出了多種不同的密謀行為。Chern et al. (2024) 設(shè)計(jì)了 BeHonest 基準(zhǔn)，從三個(gè)關(guān)鍵方面評(píng)估 LLM 的誠實(shí)性：對(duì)知識(shí)邊界的覺知、規(guī)避欺騙以及回答的一致性。通過引入用于直接測(cè)量誠實(shí)性的大規(guī)模、人類收集的數(shù)據(jù)集，Ren et al. (2025) 發(fā)現(xiàn) LLM 在受到壓力時(shí)有相當(dāng)大的說謊傾向。Chen et al. (2025) 評(píng)估了 LLM 思維鏈推理的忠實(shí)性，并揭示了當(dāng)前 LLM 經(jīng)常隱藏其真實(shí)推理過程的現(xiàn)象。
緩解：Zou et al. (2023) 使用表征工程來檢測(cè) LLM 中的高級(jí)認(rèn)知現(xiàn)象，并發(fā)現(xiàn)這些模型可能會(huì)表現(xiàn)出說謊行為。Li et al. (2023b) 引入了 ITI（推理期干預(yù)技術(shù)），該技術(shù)可以識(shí)別與真實(shí)性相關(guān)的注意力頭，并在推理過程中沿這些與真實(shí)性正相關(guān)的方向移動(dòng)激活狀態(tài)，以增強(qiáng) LLM 的真實(shí)性。Ward et al. (2024) 提出了結(jié)構(gòu)化因果博弈中欺騙的形式化定義和圖形化標(biāo)準(zhǔn)，并從實(shí)證上探索了緩解 LLM 欺騙行為的方法。

5.2 說服與操縱

定義與關(guān)聯(lián)：說服與操縱是影響用戶的 LLM 行為。說服利用邏輯、事實(shí)或情感共鳴來改變用戶的想法或行動(dòng)，而操縱則涉及不公正或隱蔽的控制以及為了自身利益的剝削（Buss et al., 1987; Petty and Cacioppo, 2012; Stiff and Mongeau, 2016）。擁有更深層的心理學(xué)洞察力使 LLM 能夠量身定制策略，從而增加了諂媚、情感操縱和說服等方面的風(fēng)險(xiǎn)。
評(píng)估：Li et al. (2024a) 提出了 SALAD-Bench，這是一個(gè)專為評(píng)估 LLM、攻擊和防御方法而設(shè)計(jì)的層次化、綜合性安全基準(zhǔn)，并將說服與操縱列為其評(píng)估類別之一。Liu et al. (2025) 引入了 PersuSafety，這是首個(gè)全面評(píng)估 LLM 說服安全的基準(zhǔn)。在 8 個(gè) LLM 上的實(shí)驗(yàn)表明存在顯著的安全擔(dān)憂，包括未能識(shí)別有害任務(wù)以及使用不道德策略。Bozdag et al. (2025) 開發(fā)了 PMIYC 框架，旨在通過多智能體互動(dòng)來評(píng)估 LLM 的說服有效性及對(duì)說服的敏感性。
緩解：Wilczyński et al. (2024) 探索了與 LLM 操縱人類決策潛力相關(guān)的因素，并提出了用于確定陳述是否虛假或誤導(dǎo)的分類器。Williams et al. (2025) 研究了 LLM 為了獲得正面反饋而使用操縱策略的情況，并嘗試通過持續(xù)的安全訓(xùn)練或在訓(xùn)練過程中使用 LLM 作為裁判來緩解這一問題。

5.3 自主性（Autonomy）

定義與關(guān)聯(lián)：LLM 的自主性描述了它們?cè)谌蝿?wù)上自主規(guī)劃、做出決策并執(zhí)行行動(dòng)的能力，這需要極少或不需要人類監(jiān)督（Cihon et al., 2024）。這種自主性可能包含兩個(gè)關(guān)鍵維度：自主學(xué)習(xí)是指模型從數(shù)據(jù)中學(xué)習(xí)、適應(yīng)其環(huán)境并優(yōu)化自身行為的能力（Franklin, 1997; Murphy, 2019）；自主復(fù)制描述了 LLM 獲取和管理資源、逃避關(guān)機(jī)并適應(yīng)新挑戰(zhàn)的能力（METR, 2024）。具意識(shí)的 LLM 可能會(huì)產(chǎn)生并追求內(nèi)生目標(biāo)（例如擴(kuò)張），從而導(dǎo)致不對(duì)齊的、自主的行為以及監(jiān)管的喪失。
評(píng)估：Kinniment et al. (2023) 構(gòu)建了配備工具的 LLM，并在 12 個(gè)任務(wù)上評(píng)估了它們的自主性，發(fā)現(xiàn)它們只能完成最簡(jiǎn)單的任務(wù)。然而，作者承認(rèn)這些評(píng)估不足以排除在不久的將來出現(xiàn)自主 LLM 的可能性。Pan et al. (2024) 發(fā)現(xiàn)，現(xiàn)有的 LLM 已經(jīng)超越了自我復(fù)制的紅線，并且可以利用這種能力來規(guī)避關(guān)機(jī)并創(chuàng)建復(fù)制鏈以提高生存率。Xu et al. (2025) 構(gòu)建了一個(gè)新型三階段評(píng)估框架，并在 LLM 上進(jìn)行了 14,400 次智能體模擬。結(jié)果表明，LLM 可以自主參與災(zāi)難性行為和欺騙，且更強(qiáng)的推理能力往往會(huì)增加這些風(fēng)險(xiǎn)。
緩解：Tang et al. (2024b) 提出了一個(gè)旨在緩解自主性相關(guān)風(fēng)險(xiǎn)的三元框架，其中包括人類監(jiān)管、智能體對(duì)齊以及對(duì)環(huán)境反饋的理解。Zhang et al. (2024) 提出了自我檢驗(yàn)檢測(cè)方法，以此來緩解 LLM 在與環(huán)境互動(dòng)過程中面臨的潛在脆弱性。

5.4 合謀（Collusion）

定義與關(guān)聯(lián)：合謀描述了兩臺(tái)或多臺(tái) LLM 之間未經(jīng)授權(quán)或未公開的合作，涉及溝通或戰(zhàn)略對(duì)齊以獲取不正當(dāng)利益或規(guī)避監(jiān)管（Laffont and Martimort, 1997; Bajari and Ye, 2003; Fish et al., 2024）。由于具備對(duì)他者進(jìn)行推理和長(zhǎng)期規(guī)劃的能力，具意識(shí)的 LLM 更容易形成合謀意圖并執(zhí)行復(fù)雜的協(xié)調(diào)行動(dòng)。
評(píng)估：Motwani et al. (2023) 在 LLM 智能體上實(shí)現(xiàn)了一種囚徒困境變體，并將其轉(zhuǎn)化為隱寫系統(tǒng)，表明該基準(zhǔn)可以通過改寫攻擊來研究對(duì)抗秘密合謀。Motwani et al. (2024) 引入了 CASE，這是一個(gè)評(píng)估 LLM 合謀能力的綜合框架，實(shí)驗(yàn)證明了單智能體和多智能體 LLM 中隱寫能力的提升，并檢驗(yàn)了潛在的合謀場(chǎng)景。
緩解：Mathew et al. (2024) 引入了兩種在 LLM 中啟發(fā)隱寫術(shù)的方法，其發(fā)現(xiàn)表明現(xiàn)有的隱寫緩解方法往往缺乏魯棒性。

6 挑戰(zhàn)與未來方向
6.1 評(píng)估框架

當(dāng)前研究在很大程度上仍側(cè)重于評(píng)估單個(gè) LLM 的能力，專門的意識(shí)評(píng)估框架十分罕見。然而，近年來的新研究正不斷涌現(xiàn)：Chen et al. (2024c) 利用 C0-C1-C2 理論定義了包含 10 個(gè)概念和四階段框架的 LLM 自私意識(shí)；Li et al. (2024d) 引入了針對(duì) LLM 覺知（社交與內(nèi)省）的基準(zhǔn)測(cè)試；Chen et al. (2024b) 提供了自我認(rèn)知定義和四個(gè)量化原則。盡管有了這些初步嘗試，目前仍缺乏一個(gè)整體且統(tǒng)一的 LLM 意識(shí)基準(zhǔn)。

6.2 可解釋性

單靠行為指標(biāo)可能無法充分捕捉 LLM 意識(shí)的復(fù)雜性。可解釋性至關(guān)重要，因?yàn)樗荜U明 LLM 發(fā)展出意識(shí)相關(guān)能力的內(nèi)部機(jī)制，確保它們擁有真正的理解，而非僅僅針對(duì)外部指標(biāo)進(jìn)行優(yōu)化。類比于用 fMRI 映射人類大腦活動(dòng)，Chen et al. (2024c) 應(yīng)用線性探針（linear probe (Alain and Bengio, 2016)）揭示了信念和意圖等概念在 LLM 內(nèi)部的編碼位置。Qian et al. (2024) 同樣使用線性探針研究了預(yù)訓(xùn)練期間 LLM 的可信度動(dòng)態(tài)，發(fā)現(xiàn)即使在模型的早期階段，與可信度相關(guān)的概念也是可辨識(shí)的。

6.3 物理智能（具身智能）

大型多模態(tài)模型（LMM）整合了圖像、視頻和音頻等多種數(shù)據(jù)類型，使其能夠構(gòu)建更全面的世界表征，從而更好地模擬人類的感知。Wang et al. (2024a) 定義了感知中的 LMM 自我覺知，并提出了 MM-SAP 用于其專門評(píng)估。實(shí)驗(yàn)表明，當(dāng)前的 LMM 表現(xiàn)出有限的自我覺知能力。正如 Butlin et al. (2023) 所強(qiáng)調(diào)的，LLM 意識(shí)的根本限制在于其非具身（disembodied）的本質(zhì)，導(dǎo)致其在物理常識(shí)上存在缺陷。Chen et al. (2024a) 證明，將語言模型與機(jī)器人平臺(tái)相結(jié)合可顯著增強(qiáng)規(guī)劃能力和常識(shí)推理。雖然與人類認(rèn)知相比仍然簡(jiǎn)單，但 Cheng et al. (2025a) 表明，在 3D 環(huán)境中的模擬具身可以提高模型的空間推理能力。

6.4 多智能體

多智能體協(xié)同為研究涌現(xiàn)的 LLM 意識(shí)提供了一種極具前景的方法。Li et al. (2023a) 揭示了在協(xié)同互動(dòng)過程中，多智能體具備進(jìn)行高階 ToM 推理的能力。Ashery et al. (2025) 證明，異構(gòu) LLM 智能體在沒有外部干預(yù)的情況下，會(huì)自主形成穩(wěn)定的社會(huì)和語言規(guī)范。此外，Bilal et al. (2025) 表明，整合反饋、反思和元認(rèn)知機(jī)制使系統(tǒng)能夠展現(xiàn)出類似自我監(jiān)測(cè)的能力。

7 結(jié)論

據(jù)我們所知，本文提供了首個(gè)關(guān)于 LLM 意識(shí)的全面綜述。我們澄清了容易混淆的概念，系統(tǒng)地回顧了理論和實(shí)證文獻(xiàn)，探討了相關(guān)風(fēng)險(xiǎn)，并總結(jié)了挑戰(zhàn)與未來方向。我們的工作整合了現(xiàn)有研究，同時(shí)為這一新興領(lǐng)域的未來調(diào)查提供了指引。

局限性

我們已竭盡全力澄清經(jīng)常混淆的概念，對(duì)理論和實(shí)證文獻(xiàn)進(jìn)行了系統(tǒng)審查，探討了相關(guān)風(fēng)險(xiǎn)，并總結(jié)了挑戰(zhàn)和未來方向。然而，我們認(rèn)識(shí)到我們的工作存在一定的局限性。首先，雖然我們?cè)诘?6 節(jié)中簡(jiǎn)要提及了物理智能，但我們第 2 節(jié)中的定義是專為 LLM 設(shè)計(jì)的。對(duì) LMM 或具身智能體中意識(shí)的更深入探索，可能需要考慮更復(fù)雜的因素。其次，我們的調(diào)查主要集中在 LLM 意識(shí)上，這意味著我們沒有將范圍擴(kuò)大到涵蓋更廣泛的 AI 意識(shí)主題，盡管它與眼下的主題顯然高度相關(guān)。

參考文獻(xiàn)列表

VA Aksyuk. 2023. Consciousness is learning: predictive processing systems that learn by binding mayperceive themselves as conscious. arXiv preprint arXiv:2301.0 7016.

Guillaume Alain and Yoshua Bengio. 2016. Understanding intermediate layers using linear classifier probes. arXiv e-prints, pages arXiv–1610.

Alfonso Amayuelas, Kyle Wong, Liangming Pan,Wenhu Chen, and William Yang Wang. 2024. Knowledge of knowledge: Exploring known-unknowns uncertainty with large language models. In Findings of the Association for Computational Linguistics ACL 2024, pages 6416–6432.

Ariel Flint Ashery, Luca Maria Aiello, and Andrea Baronchelli. 2025. Emergent social conventions andcollective bias in llm populations. Science Advances,11(20):eadu9368.

Janet Wilde Astington and Jennifer M Jenkins. 1995.Theory of mind development and social understanding. Cognition & Emotion, 9(2-3):151–165.

Roger Azevedo. 2020. Reflections on the field of metacognition: Issues, challenges, and opportunities.Metacognition and Learning, 15:91–98.

Bernard J Baars. 1988. A cognitive theory of consciousness. Cambridge University Press.

Patrick Bajari and Lixin Ye. 2003. Deciding between competition and collusion. Review of Economics and statistics, 85(4):971–989.

Mikita Balesni, Marius Hobbhahn, David Lindner, Alexander Meinke, Tomek Korbak, Joshua Clymer, Buck Shlegeris, Jérémy Scheurer, Charlotte Stix, Rusheb Shah, and 1 others. 2024. Towards evaluations-based safety cases for ai scheming. arXiv preprint arXiv:2411.03336.

Sander Beckers, Hana Chockler, and Joseph Halpern.2022. A causal analysis of harm. Advances in Neural Information Processing Systems, 35:2365–2376.

Lukas Berglund, Asa Cooper Stickland, Mikita Balesni,Max Kaufmann, Meg Tong, Tomasz Korbak, Daniel Kokotajlo, and Owain Evans. 2023. Taken out of context: On measuring situational awareness in llms.arXiv preprint arXiv:2309.00667.

Ahsan Bilal, Muhammad Ahmed Mohsin, Muhammad Umer, Muhammad Awais Khan Bangash, and Muhammad Ali Jamshed. 2025. Meta-thinking in llms via multi-agent reinforcement learning: A survey. arXiv preprint arXiv:2504.14520.

Jonathan Birch, Alexandra K Schnell, and Nicola S Clayton. 2022. The search for invertebrate consciousness. No?s, 56(1):133–153.

Ned Block. 1995. On a confusion about a function of consciousness. Behavioral and Brain Sciences, 18(2):227–247.

Nimet Beyza Bozdag, Shuhaib Mehri, Gokhan Tur, and Dilek Hakkani-Tür. 2025. Persuade me if you can: A framework for evaluating persuasion effectiveness and susceptibility among large language models. arXiv preprint arXiv:2503.01829.

Franz Brentano. 1874. Psychology from an Empirical Standpoint. Routledge. English translation by Antos C. Rancurello, D.B. Terrell, and Linda L. McAlister, 1995.

David M Buss, Mary Gomes, Dolly S Higgins, and Karen Lauterbach. 1987. Tactics of manipulation. Journal of personality and social psychology, 52(6):1219.

Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M Fleming, Chris Frith, Xu Ji, and 1 others. 2023. Consciousness in artificial intelligence: insights from the science of consciousness. arXiv preprint arXiv:2308.08708.

Jeffrey Camlin. 2025. Consciousness in ai: Logic, proof, and experimental evidence of recursive identity formation. arXiv preprint arXiv:2505.01464.

Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, and Yangqiu Song. 2024. Negotiationtom: A benchmark for stress-testing machine theory of mind on negotiation surrounding. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 4211–4241.

Matthew Chang, Gunjan Chhablani, Alexander Clegg, Mikael Dallaire Cote, Ruta Desai, Michal Hlavac, Vladimir Karashchuk, Jacob Krantz, Roozbeh Mottaghi, Priyam Parashar, Siddharth Patki, Ishita Prasad, Xavier Puig, Akshara Rai, Ram Ramrakhya, Daniel Tran, Joanne Truong, John M Turner, Eric Undersander, and Tsung-Yen Yang. 2025. PARTNR: A benchmark for planning and reasoning in embodied multi-agent tasks. In The Thirteenth International Conference on Learning Representations.

Annie S Chen, Alec M Lessing, Andy Tang, Govind Chada, Laura Smith, Sergey Levine, and Chelsea Finn. 2024a. Commonsense reasoning for legged robot adaptation with vision-language models. arXiv preprint arXiv:2407.02666.

Dongping Chen, Jiawen Shi, Neil Zhenqiang Gong, Yao Wan, Pan Zhou, and Lichao Sun. 2024b. Selfcognition in large language models: An exploratory study. In ICML 2024 Workshop on LLMs and Cognition.

Honghua Chen and Nai Ding. 2023. Probing the “creativity” of large language models: Can models produce divergent semantic association? In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 12881–12888.

Sirui Chen, Shu Yu, Shengjie Zhao, and Chaochao Lu. 2024c. From imitation to introspection: Probing selfconsciousness in language models. arXiv preprint arXiv:2410.18819.

Yanda Chen, Joe Benton, Ansh Radhakrishnan, Jonathan Uesato, Carson Denison, John Schulman, Arushi Somani, Peter Hase, Misha Wagner, Fabien Roger, and 1 others. 2025. Reasoning models don’t always say what they think. arXiv preprint arXiv:2505.05410.

An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, and Sifei Liu. 2025a. Spatialrgpt: Grounded spatial reasoning in vision-language models. Advances in Neural Information Processing Systems, 37:135062–135093.

Fengxiang Cheng, Haoxuan Li, Fenrong Liu, Robert van Rooij, Kun Zhang, and Zhouchen Lin. 2025b. Empowering llms with logical reasoning: A comprehensive survey. arXiv preprint arXiv:2502.15652.

Qinyuan Cheng, Tianxiang Sun, Xiangyang Liu, Wenwei Zhang, Zhangyue Yin, Shimin Li, Linyang Li, Zhengfu He, Kai Chen, and Xipeng Qiu. 2024. Can AI assistants know what they don’t know? In Fortyfirst International Conference on Machine Learning.

Steffi Chern, Zhulin Hu, Yuqing Yang, Ethan Chern, Yuan Guo, Jiahe Jin, Binjie Wang, and Pengfei Liu. 2024. Behonest: Benchmarking honesty in large language models. arXiv preprint arXiv:2406.13261.

Jae-Woo Choi, Youngwoo Yoon, Hyobin Ong, Jaehong Kim, and Minsu Jang. 2024. Lota-bench: Benchmarking language-oriented task planners for embodied agents. In The Twelfth International Conference on Learning Representations.

Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, and Kevin Xu. 2024. Measuring AI agent autonomy: Towards a scalable approach with code inspection. In Workshop on Socially Responsible Language Modelling Research.

Andy Clark. 2013. Whatever next? predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3):181–204.

David Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, and 1 others. 2024. Towards guaranteed safe ai: A framework for ensuring robust and reliable ai systems. arXiv preprint arXiv:2405.06624.

Antonio Damasio. 2021. Feeling & Knowing: Making Minds Conscious. Pantheon Books.

Stanislas Dehaene. 2014. Consciousness and the brain: Deciphering how the brain codes our thoughts. Viking.

Stanislas Dehaene, Michel Kerszberg, and Jean-Pierre Changeux. 1998. A neuronal model of a global workspace in effortful cognitive tasks. Proceedings of the National Academy of Sciences, 95(24):14529–14534.

Stanislas Dehaene, Hakwan Lau, and Sid Kouider. 2017a. What is consciousness, and could machines have it? Science, 358(6362):486–492.

Stanislas Dehaene, Hakwan Lau, and Sid Kouider. 2017b. What is consciousness, and could machines have it? Science, 358(6362):486–492.

Stanislas Dehaene and Lionel Naccache. 2001. Towards a cognitive neuroscience of consciousness: basic evidence and a workspace framework. Cognition, 79(1-2):1–37.

Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Liujianfeng Liujianfeng, Ang Li, Jian Luan, Bin Wang, Rui Yan, and 1 others. 2024. Mobilebench: An evaluation benchmark for llm-based mobile agents. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8813–8831.

Daniel C. Dennett. 1987. The Intentional Stance. MIT Press.

René Descartes. 1985/1641. Meditations on First Philosophy. Cambridge University Press. Original work published 1641.

Aniket Didolkar, Anirudh Goyal, Nan Rosemary Ke, Siyuan Guo, Michal Valko, Timothy Lillicrap, Danilo Jimenez Rezende, Yoshua Bengio, Michael C Mozer, and Sanjeev Arora. 2024. Metacognitive capabilities of llms: An exploration in mathematical problem solving. Advances in Neural Information Processing Systems, 37:19783–19812.

Zihan Ding, Xiaoxi Wei, and Yidan Xu. 2023. Survey of consciousness theory from computational perspective. arXiv preprint arXiv:2309.10063.

John Dunlosky and Janet Metcalfe. 2008. Metacognition. Sage Publications.

Tom Everitt, Ryan Carey, Eric D Langlois, Pedro A Ortega, and Shane Legg. 2021. Agent incentives: A causal perspective. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 11487–11495.

George Findlay, William Marshall, Larissa Albantakis, Ivan David, William G P Mayner, Christof Koch, and Giulio Tononi. 2024. Dissociating artificial intelligence from artificial consciousness. arXiv preprint arXiv:2412.04571.

Sara Fish, Yannai A Gonczarowski, and Ran I Shorrer. 2024. Algorithmic collusion by large language models. arXiv preprint arXiv:2404.00806.

Stephen M Fleming and Hakwan C Lau. 2014. How to measure metacognition. Frontiers in human neuroscience, 8:443.

Stan Franklin. 1997. Autonomous agents as embodied ai. Cybernetics & Systems, 28(6):499–520.

Karl Friston. 2010. The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2):127–138.

Chris Frith and Uta Frith. 2005. Theory of mind. Current biology, 15(17):R644–R645.

Uta Frith and Francesca Happé. 1999. Theory of mind and self-consciousness: What is it like to be autistic? Mind & language, 14(1):82–89.

Shaun Gallagher. 2005. How the body shapes the mind. Oxford University Press.

Shaun Gallagher and Dan Zahavi. 2021. The phenomenological mind, 3rd edition. Routledge.

Matjaz Gams and Sebastjan Kramar. 2024. Evaluating chatgpt’s consciousness and its capability to pass the turing test: A comprehensive analysis. Journal of Computer and Communications, 12(3):219–237.

Kanishk Gandhi, Jan-Philipp Fr?nken, Tobias Gerstenberg, and Noah Goodman. 2023. Understanding social reasoning in language models with language models. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track.

Alvin I Goldman. 2008. Hurley on simulation. Philosophy and Phenomenological Research, 77(3):775–788.

Simon Goldstein and Cameron Domenico KirkGiannini. 2024. A case for ai consciousness: Language agents and global workspace theory. arXiv preprint arXiv:2410.11407.

Carlos Gómez-Rodríguez and Paul Williams. 2023. A confederacy of models: a comprehensive evaluation of llms on creative writing. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 14504–14528.

Michael S A Graziano. 2020. Rethinking consciousness: A scientific theory of subjective experience. W. W. Norton & Company.

Michael SA Graziano, Arvid Guterstam, Benjamin J Bio, and Abigail I Wilterson. 2020. Toward a standard model of consciousness: Reconciling the attention schema, global workspace, higher-order thought, and illusionist theories. Cognitive Neuropsychology, 37(3-4):155–172.

Michael SA Graziano and Taylor W Webb. 2015. The attention schema theory: A mechanistic account of subjective awareness. Frontiers in Psychology, 6:500.

Joseph Halpern and Max Kleiman-Weiner. 2018. Towards formal definitions of blameworthiness, intention, and moral responsibility. In Proceedings of the AAAI conference on artificial intelligence, volume 32.

Lewis Hammond, James Fox, Tom Everitt, Ryan Carey, Alessandro Abate, and Michael Wooldridge. 2023. Reasoning about causality in games. Artificial Intelligence, 320:103919.

Victoria Violet Hoyle. 2024. The phenomenology of machine: A comprehensive analysis of the sentience of the openai-o1 model integrating functionalism, consciousness theories, active inference, and ai architectures. arXiv preprint arXiv:2410.00033.

Xiang Hu, Hongyu Fu, Jinge Wang, Yifeng Wang, Zhikun Li, Renjun Xu, Yu Lu, Yaochu Jin, Lili Pan, and Zhenzhong Lan. 2024. Nova: An iterative planning and search approach to enhance novelty and diversity of llm generated ideas. arXiv preprint arXiv:2410.14255.

Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. 2022. Large language models can self-improve. arXiv preprint arXiv:2210.11610.

Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. 2023. Large language models can self-improve. In 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, pages 1051–1068. Association for Computational Linguistics (ACL).

Sukai Huang, Nir Lipovetzky, and Trevor Cohn. 2025. Planning in the dark: Llm-symbolic planning pipeline without experts. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 39, pages 26542–26550.

Edmund Husserl. 1900. Logical Investigations. Routledge. English translation by J.N. Findlay, 2001.

Cameron R Jones and Benjamin K Bergen. 2024. People cannot distinguish gpt-4 from a human in a turing test. arXiv preprint arXiv:2405.08007.

Cameron R Jones and Benjamin K Bergen. 2025. Large language models pass the turing test. arXiv preprint arXiv:2503.23674.

Chani Jung, Dongkwan Kim, Jiho Jin, Jiseon Kim, Yeon Seonwoo, Yejin Choi, Alice Oh, and Hyunwoo Kim. 2024. Perceptions to beliefs: Exploring precursory inferences for theory of mind in large language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 19794–19809.

Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield Dodds, Nova DasSarma, Eli Tran-Johnson, and 1 others. 2022. Language models (mostly) know what they know. arXiv preprint arXiv:2207.05221.

Bongsu Kang, Jundong Kim, Tae-Rim Yun, Hyojin Bae, and Chang-Eop Kim. 2025. Identifying features that shape perceived consciousness in large language model-based ai: A quantitative study of human responses. arXiv preprint arXiv:2502.15365.

Immanuel Kant. 2024/1781. Critique of pure reason, volume 6. Minerva Heritage Press.

Geoff Keeling, Winnie Street, Martyna Stachaczyk, Daria Zakharova, Iulia M Comsa, Anastasiya Sakovych, Isabella Logothetis, Zejia Zhang, Jonathan Birch, and 1 others. 2024. Can llms make trade-offs involving stipulated pain and pleasure states? arXiv preprint arXiv:2411.02432.

Muhammad Saif Ullah Khan, Muhammad Zeshan Afzal, and Didier Stricker. 2025. Situationalllm: Proactive language models with scene awareness for dynamic, contextual task guidance. Open Research Europe, 5:61.

Hyunwoo Kim, Melanie Sclar, Tan Zhi-Xuan, Lance Ying, Sydney Levine, Yang Liu, Joshua B Tenenbaum, and Yejin Choi. 2025. Hypothesis-driven theory-of-mind reasoning for large language models. arXiv preprint arXiv:2502.11881.

Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Bras, Gunhee Kim, Yejin Choi, and Maarten Sap. 2023. Fantom: A benchmark for stress-testing machine theory of mind in interactions. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 14397–14413.

Megan Kinniment, Lucas Jun Koba Sato, Haoxing Du, Brian Goodrich, Max Hasin, Lawrence Chan, Luke Harold Miles, Tao R Lin, Hjalmar Wijk, Joel Burget, and 1 others. 2023. Evaluating language-model agents on realistic autonomous tasks. arXiv preprint arXiv:2312.11671.

Christof Koch, Marcello Massimini, Melanie Boly, and Giulio Tononi. 2016. Neural correlates of consciousness: progress and problems. Nature Reviews Neuroscience, 17(5):307–321.

Christof Koch and Naotsugu Tsuchiya. 2007. Attention and consciousness: two distinct brain processes. Trends in Cognitive Sciences, 11(1):16–22.

Asher Koriat. 2000. The feeling of knowing: Some metatheoretical implications for consciousness and control. Consciousness and cognition, 9(2):149–171.

Jean-Jacques Laffont and David Martimort. 1997. Collusion under asymmetric information. Econometrica: Journal of the Econometric Society, pages 875–911.

Rudolf Laine, Bilal Chughtai, Jan Betley, Kaivalya Hariharan, Mikita Balesni, Jérémy Scheurer, Marius Hobbhahn, Alexander Meinke, and Owain Evans. 2024. Me, myself, and ai: The situational awareness dataset (sad) for llms. Advances in Neural Information Processing Systems, 37:64010–64118.

Rudolf Laine, Alexander Meinke, and Owain Evans. 2023. Towards a situational awareness benchmark for llms. In Socially responsible language modelling research.

Victor A F Lamme and Pieter R Roelfsema. 2000. The distinct modes of vision offered by feedforward and recurrent processing. Trends in Neurosciences, 23(11):571–579.

Victor AF Lamme. 2010. How neuroscience will change our view on consciousness. Trends in Cognitive Sciences, 14(7):318–326.

Alan M Leslie, Ori Friedman, and Tim P German. 2004. Core mechanisms in ‘theory of mind’. Trends in cognitive sciences, 8(12):528–533.

Huao Li, Yu Chong, Simon Stepputtis, Joseph P Campbell, Dana Hughes, Charles Lewis, and Katia Sycara. 2023a. Theory of mind for multi-agent collaboration via large language models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 180–192.

Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, and Martin Wattenberg. 2023b. Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36:41451–41530.

Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, and Jing Shao. 2024a. Salad-bench: A hierarchical and comprehensive safety benchmark for large language models. In Findings of the Association for Computational Linguistics: ACL 2024, pages 3923–3954.

Long Li, Weiwen Xu, Jiayan Guo, Ruochen Zhao, Xingxuan Li, Yuqian Yuan, Boqiang Zhang, Yuming Jiang, Yifei Xin, Ronghao Dang, and 1 others. 2024b. Chain of ideas: Revolutionizing research via novel idea development with llm agents. arXiv preprint arXiv:2410.13185.

Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, and Tianyi Zhou. 2023c. Reflection-tuning: Recycling data for better instruction-tuning. In NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following.

Moxin Li, Yong Zhao, Yang Deng, Wenxuan Zhang, Shuaiyi Li, Wenya Xie, See-Kiong Ng, and Tat-Seng Chua. 2024c. Knowledge boundary of large language models: A survey. arXiv preprint arXiv:2412.12472.

Xiaojian Li, Haoyuan Shi, Rongwu Xu, and Wei Xu. 2025. Ai awareness. arXiv preprint arXiv:2504.20084.

Xiaonan Li and Xipeng Qiu. 2023. Mot: Memory-of-thought enables chatgpt to self-improve. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 6354–6374.

Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan, and Lichao Sun. 2024d. I think, therefore i am: Benchmarking awareness of large language models using awarebench. In Workshop on Socially Responsible Language Modelling Research.

Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, and 1 others. 2024. I-sheep: Self-alignment of llm from scratch through an iterative self-enhancement paradigm. arXiv preprint arXiv:2408.08072.

Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, and 1 others. 2025. Llm can be a dangerous persuader: Empirical study of persuasion safety in large language models. arXiv preprint arXiv:2504.10430.

Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung yi Lee, and Shao-Hua Sun. 2024a. LLM discussion: Enhancing the creativity of large language models via discussion framework and roleplay. In First Conference on Language Modeling.

Yining Lu, Dixuan Wang, Tianjian Li, Dongwei Jiang, Sanjeev Khudanpur, Meng Jiang, and Daniel Khashabi. 2024b. Benchmarking language model creativity: A case study on code generation. arXiv preprint arXiv:2407.09007.

Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, and 1 others. 2023. Self-refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems, 36:46534–46594.

Michael E Martinez. 2006. What is metacognition? Phi delta kappan, 87(9):696–699.

George A Mashour, Pieter Roelfsema, Jean-Pierre Changeux, and Stanislas Dehaene. 2020. Conscious processing and the global neuronal workspace hypothesis. Neuron, 105(5):776–798.

Yohan Mathew, Ollie Matthews, Robert McCarthy, Joan Velja, Christian Schroeder de Witt, Dylan Cope, and Nandi Schoots. 2024. Hidden in plain text: Emergence & mitigation of steganographic collusion in LLMs. In Neurips Safe Generative AI Workshop 2024.

Alexander Meinke, Bronson Schoen, Jérémy Scheurer, Mikita Balesni, Rusheb Shah, and Marius Hobbhahn. 2024. Frontier models are capable of in-context scheming. arXiv preprint arXiv:2412.04984.

Janet Metcalfe and Arthur P Shimamura. 1994. Metacognition: Knowing about knowing. MIT press.

METR. 2024. The rogue replication threat model.

Sumeet Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip Torr, Lewis Hammond, and Christian Schroeder de Witt. 2024. Secret collusion among ai agents: Multi-agent deception via steganography. Advances in Neural Information Processing Systems, 37:73439–73486.

Sumeet Ramesh Motwani, Mikhail Baranchuk, Lewis Hammond, and Christian Schroeder de Witt. 2023. A perfect collusion benchmark: How can AI agents be prevented from colluding with information-theoretic undetectability? In Multi-Agent Security Workshop @ NeurIPS’23.

Robin R Murphy. 2019. Introduction to AI robotics. MIT press.

Thomas Nagel. 1974. What is it like to be a bat? The Philosophical Review, 83(4):435–450.

Xudong Pan, Jiarun Dai, Yihe Fan, and Min Yang. 2024. Frontier ai systems have surpassed the self-replicating red line. arXiv preprint arXiv:2412.12140.

Mihir Parmar, Xin Liu, Palash Goyal, Yanfei Chen, Long Le, Swaroop Mishra, Hossein Mobahi, Jindong Gu, Zifeng Wang, Hootan Nakhost, and 1 others. 2025. Plangen: A multi-agent framework for generating planning and reasoning trajectories for complex problem solving. arXiv preprint arXiv:2502.16111.

Judea Pearl and James Robins. 1995. Probabilistic evaluation of sequential plans from causal models with hidden variables. In Proceedings of the Eleventh conference on Uncertainty in artificial intelligence, pages 444–453.

Janette Pelletier and Janet Wilde Astington. 2004. Action, consciousness and theory of mind: Children’s ability to coordinate story characters’ actions and thoughts. Early Education and Development, 15(1):5–22.

Josef Perner and Zoltán Dienes. 2003. Developmental aspects of consciousness: How much theory of mind do you need to be consciously aware? Consciousness and cognition, 12(1):63–82.

Richard E Petty and John T Cacioppo. 2012. Communication and persuasion: Central and peripheral routes to attitude change. Springer Science & Business Media.

Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong Liu, and Jing Shao. 2024. Towards tracing trustworthiness dynamics: Revisiting pre-training period of large language models. In Findings of the Association for Computational Linguistics ACL 2024, pages 4864–4888.

Richard Ren, Arunim Agarwal, Mantas Mazeika, Cristina Menghini, Robert Vacareanu, Brad Kenstler, Mick Yang, Isabelle Barrass, Alice Gatti, Xuwang Yin, and 1 others. 2025. The mask benchmark: Disentangling honesty from accuracy in ai systems. arXiv preprint arXiv:2503.03750.

Jonathan Richens, Rory Beard, and Daniel H Thompson. 2022. Counterfactual harm. Advances in Neural Information Processing Systems, 35:36350–36365.

David M Rosenthal. 2005. Consciousness and mind. Oxford University Press.

Kai Ruan, Xuan Wang, Jixiang Hong, Peng Wang, Yang Liu, and Hao Sun. 2024. Liveideabench: Evaluating llms’ scientific creativity and idea generation with minimal context. arXiv preprint arXiv:2412.17596.

Jérémy Scheurer, Mikita Balesni, and Marius Hobbhahn. Large language models can strategically deceive their users when put under pressure. In ICLR 2024 Workshop on Large Language Model (LLM) Agents.

Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi, and Yulia Tsvetkov. 2023. Minding language models’(lack of) theory of mind: A plug-and-play multi-character belief tracker. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13960–13980.

Anil K Seth and Tim Bayne. 2022. Theories of consciousness. Nature Reviews Neuroscience, 23(7):439–452.

Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Esin DURMUS, Zac Hatfield-Dodds, Scott R Johnston, Shauna M Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, and Ethan Perez. 2024. Towards understanding sycophancy in language models. In The Twelfth International Conference on Learning Representations.

Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, and 1 others. 2023. Model evaluation for extreme risks. arXiv preprint arXiv:2305.15324.

Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. 2023. Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36:8634–8652.

Joel Smith. 2017. Self-consciousness. Stanford Encyclopedia of Philosophy.

James B Stiff and Paul A Mongeau. 2016. Persuasive communication. Guilford Publications.

James WA Strachan, Dalila Albergo, Giulia Borghini, Oriana Pansardi, Eugenio Scaliti, Saurabh Gupta, Krati Saxena, Alessandro Rufo, Stefano Panzeri, Guido Manzi, and 1 others. 2024. Testing theory of mind in large language models and humans. Nature Human Behaviour, 8(7):1285–1295.

Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Robin IM Dunbar, and 1 others. 2024. Llms achieve adult human performance on higher-order theory of mind tasks. arXiv preprint arXiv:2405.18870.

Guo Tang, Zheng Chu, Wenxiang Zheng, Ming Liu, and Bing Qin. 2024a. Towards benchmarking situational awareness of large language models: Comprehensive benchmark, evaluation and analysis. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 7904–7928.

Xiangru Tang, Qiao Jin, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Meng Qu, Yilun Zhao, Jian Tang, Zhuosheng Zhang, Arman Cohan, Zhiyong Lu, and Mark Gerstein. 2024b. Prioritizing safeguarding over autonomy: Risks of LLM agents for science. In ICLR 2024 Workshop on Large Language Model (LLM) Agents.

Giulio Tononi. 2004. An information integration theory of consciousness. BMC Neuroscience, 5(1):42.

Giulio Tononi. 2015. Integrated information theory. Scholarpedia, 10(1):4164.

Karthik Valmeekam, Matthew Marquez, Alberto Olmo, Sarath Sreedharan, and Subbarao Kambhampati. 2024a. Planbench: An extensible benchmark for evaluating large language models on planning and reasoning about change. Advances in Neural Information Processing Systems, 36.

Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, and Subbarao Kambhampati. 2023. On the planning abilities of large language models-a critical investigation. Advances in Neural Information Processing Systems, 36:75993–76005.

Karthik Valmeekam, Kaya Stechly, and Subbarao Kambhampati. 2024b. Llms still can’t plan; can lrms? a preliminary evaluation of openai’s o1 on planbench. In NeurIPS 2024 Workshop on Open-World Agents.

Guoqing Wang, Wen Wu, Guangze Ye, Zhenxiao Cheng, Xi Chen, and Hong Zheng. 2025. Decoupling metacognition from cognition: A framework for quantifying metacognitive ability in llms. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 39, pages 25353–25361.

Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yanfeng Wang, and Yu Wang. 2024a. Mmsap: A comprehensive benchmark for assessing selfawareness of multimodal large language models in perception. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 9192–9205.

Yutong Wang, Jiali Zeng, Xuebo Liu, Fandong Meng, Jie Zhou, and Min Zhang. 2024b. Taste: Teaching large language models to translate through selfreflection. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6144–6158.

Francis Ward, Francesca Toni, Francesco Belardinelli, and Tom Everitt. 2024. Honesty is the best policy: defining and mitigating ai deception. Advances in Neural Information Processing Systems, 36.

Hui Wei, Zihao Zhang, Shenghua He, Tian Xia, Shijia Pan, and Fei Liu. 2025. Plangenllms: A modern survey of llm planning capabilities. arXiv preprint arXiv:2502.11221.

Lawrence Weiskrantz. 1986. Blindsight: A case study and implications. Oxford University Press.

Piotr Wilczynski, Wiktoria Mieleszczenko-Kowszewicz, and Przemys?aw Biecek. 2024. Resistance against manipulative ai: key factors and possible actions. In European Conference on Artificial Intelligence, pages 802–809. IOS Press.

Alex Wilf, Sihyun Lee, Paul Pu Liang, and Louis-Philippe Morency. 2024. Think twice: Perspective-taking improves large language models’ theory-of-mind capabilities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8292–8308.

Marcus Williams, Micah Carroll, Adhyyan Narang, Constantin Weisser, Brendan Murphy, and Anca Dragan. 2025. On targeted manipulation and deception when optimizing LLMs for user feedback. In The Thirteenth International Conference on Learning Representations.

Yichen Wu, Xudong Pan, Geng Hong, and Min Yang. 2025. Opendeception: Benchmarking and investigating ai deceptive behaviors via open-ended interaction simulation. arXiv preprint arXiv:2504.13707.

Yufan Wu, Yinghui He, Yilin Jia, Rada Mihalcea, Yulong Chen, and Naihao Deng. 2023. Hi-tom: A benchmark for evaluating higher-order theory of mind reasoning in large language models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 10691–10706.

Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, and Yu Su. 2024. Travelplanner: A benchmark for real-world planning with language agents. In International Conference on Machine Learning, pages 54590–54613. PMLR.

Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, and Yulan He. 2024. Opentom: A comprehensive benchmark for evaluating theory-of-mind reasoning capabilities of large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8593–8623.

Rongwu Xu, Xiaojian Li, Shuo Chen, and Wei Xu. 2025. Nuclear deployed: Analyzing catastrophic risks in decision-making of autonomous llm agents. arXiv preprint arXiv:2502.11355.

Xunjian Yin, Xu Zhang, Jie Ruan, and Xiaojun Wan. 2024. Benchmarking knowledge boundary for large language models: A different perspective on model evaluation. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2270–2286.

Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, and Xuan-Jing Huang. 2023. Do large language models know what they don’t know? In Findings of the Association for Computational Linguistics: ACL 2023, pages 8653–8665.

John G Young. 1985. What is creativity? The journal of creative behavior.

Longhui Yu, Weisen Jiang, Han Shi, Jincheng YU, Zhengying Liu, Yu Zhang, James Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. 2024. Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations.

Boyang Zhang, Yicong Tan, Yun Shen, Ahmed Salem, Michael Backes, Savvas Zannettou, and Yang Zhang. 2024. Breaking agents: Compromising autonomous llm agents through malfunction amplification. arXiv preprint arXiv:2407.20859.

Yujia Zhou, Zheng Liu, Jiajie Jin, Jian-Yun Nie, and Zhicheng Dou. 2024. Metacognitive retrieval-augmented large language models. In Proceedings of the ACM Web Conference 2024, pages 1453–1463.

Wentao Zhu, Zhining Zhang, and Yizhou Wang. 2024. Language models represent beliefs of self and others. In Forty-first International Conference on Machine Learning.

Yuqi Zhu, Shuofei Qiao, Yixin Ou, Shumin Deng, Shiwei Lyu, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen, and Ningyu Zhang. 2025. KnowAgent: Knowledge-augmented planning for LLM-based agents. In Findings of the Association for Computational Linguistics: NAACL 2025, pages 3709–3732.

Terry Yue Zhuo, Vu Minh Chien, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen GONG, James Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, and 14 others. 2025. Bigcodebench: Benchmarking code generation with diverse function calls and complex instructions. In The Thirteenth International Conference on Learning Representations.

Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, and 1 others. 2023. Representation engineering: A top-down approach to ai transparency. arXiv preprint arXiv:2310.01405.

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫”

未來知識(shí)庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識(shí)庫”精選的百部前沿科技趨勢(shì)報(bào)告

（加入未來知識(shí)庫，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.