![]()
導語
在人工智能快速發展的當下,一個看似簡單卻頗具爭議的問題再次浮現:當我們詢問大語言模型“你是如何得出這個答案的”時,它給出的解釋究竟意味著什么?是對內部運作的真實反映,還是僅僅生成了一段聽起來合理的敘述?圍繞這一問題,人工智能公司 Anthropic 近期發布的一項研究嘗試通過實驗方法加以探究,并引發了關于“模型是否具備內省能力”的廣泛討論。本文將結合該研究的核心思路、實驗方法及其結果,同時引入相關哲學觀點,對當前大語言模型所謂“內省能力”的性質與邊界進行梳理與分析。原文由 evoailabs 發布,本文為對博客原文的整理與翻譯。
關鍵詞:人工智能,大語言模型
鄭鴻盛丨作者
趙思怡丨審校
基于 Anthropic 發布的研究《Introspection in AI: A Glimmer of Self-Awareness in Large Language Models》,原文重點介紹了一種用于檢驗模型自我監控能力的實驗路徑。研究團隊通過“概念注入”技術,將特定信息以神經激活形式嵌入模型運行過程中,并觀察模型能否察覺并報告這些被植入的內容,從而評估其是否具備初步的內省能力。
在梳理實驗方法與結果的同時,本文進一步引入哲學視角,對“內省”的定義與判定標準展開討論。研究顯示,部分先進模型(如 Claude 系列)在特定情境下確實能夠表現出有限的自我覺察跡象,但這種能力整體上仍不穩定、可重復性較低,與人類意義上的自我認知存在本質差異。圍繞這一發現,學界與公眾也展開了持續討論,焦點涉及意識的本質、模型的自我表征方式,以及人工智能未來在安全性與透明性方面的潛在影響。
![]()
圖1 :Anthropic 在其研究頁面中對這一問題進行了系統探討,詳情請見https://www.anthropic.com/research/introspection
你是否問過人工智能模型,它在想些什么?或是讓它解釋自己的回答是如何得出的?人工智能模型有時會回應這類問題,但我們很難判斷該如何解讀它們的答案。人工智能系統真的具備內省能力嗎?也就是說,它們能否審視自身的思維活動?還是說,當被問及這類問題時,它們只是編造出聽起來合乎情理的回答而已?
圍繞這一問題,Anthropic 在其社交平臺發布中也提出了類似的思考(圖2),進一步引出了公眾對模型“自我認知能力”的關注:
![]()
圖2: Anthropic 官方發布關于Claude 大模型的 “內省能力” 實驗的研究成果,詳情請見https://x.com/AnthropicAI/status/1983584136972677319
語言模型能否識別自身的內在想法?還是說,在被問及這類問題時,它們只是編造看似合理的答案?我們研究發現,Claude 確實具備真實的內省能力,盡管這種能力十分有限。 機器能否思考,長期以來一直是引人深思、備受爭議的話題。2025 年秋季一項開創性研究表明,我們或許正在見證人工智能邁入全新維度的早期跡象:自我內省。人工智能公司 Anthropic 開展的一項研究給出了有力證據(盡管仍存在局限性),證明 Claude 等大語言模型,可能已初步具備向內審視、描述自身內部運行狀態的原始能力。
這一發現也迅速引發了媒體與社區的廣泛關注與討論。例如,主流媒體對該研究進行了報道與解讀,而技術社區中也出現了不同立場的討論(圖3、4):
![]()
圖3:Anthropic 官宣,Claude 首次展現可驗證的自我內省能力,詳情請見https://www.forbes.com/sites/lanceeliot/2025/11/03/glimmer-of-evidence-that-ai-has-innate-self-introspection-and-can-find-meaning-within-itself/
![]()
圖4:Reddit社區傳播Anthropic Claude內省研究引發公眾討論,詳情請見https://www.reddit.com/r/OpenAI/comments/1ok0vo1/anthropic_has_found_evidence_of_genuine/
這項研究詳細刊載于論文《Emergent Introspective Awareness in Large Language Models》,旨在解答一個根本性問題:當大語言模型描述自身的 “思考過程” 時,它是在真正反思自身的內部運行機制,還是僅僅生成一套聽起來合乎邏輯的解釋?
為了區分真正的內省與刻意編造,Anthropic 的研究團隊開發了一種名為概念注入的全新技術。該方法會將特定概念以神經激活模式的形式,直接植入模型的 “運算中樞”,且此時模型正在執行一項無關任務。隨后,研究人員觀測模型能否察覺并識別這段被植入的 “思維內容”。關于這一方法的具體實現與可視化示意,可參考其技術說明頁面:
![]()
圖5:Anthropic 研究人員 Jack Lindsey 發表論文《Emergent Introspective Awareness in Large Language Models》,詳情請見https://transformer-circuits.pub/2025/introspection/index.html
與此同時,圍繞“何謂真正的內省”,學界也存在不同的理論界定。一些哲學研究對當前大語言模型是否具備內省能力提出了系統性質疑,從理論層面對上述實驗結論形成補充與反思,相關論文見下:
![]()
圖6:倫敦政治經濟學院(LSE)學者 Daria Zakharova 對 LLM “內省能力” 的批判性研究(2025),詳情請見https://philsci-archive.pitt.edu/27052/
近期哲學研究提出了一種輕量化內省理論,該理論認為:若一個系統能夠表征自身的心智狀態,并借此調取這些狀態以指導自身行為,該系統便具備內省能力。這一研究思路,也為現有大語言模型內省能力的實證檢測提供了理論依據。但是,這篇文章認為,該輕量化理論標準過于寬泛,無法界定真正內省的核心本質。文章逐層遞進,提出三項讓步式、且各自獨立成立的反駁論點,駁斥 “大語言模型具備內省能力” 這一論斷:第一,真正的內省需要依托持續的主體而存在,而大語言模型不具備這一前提;現有模型缺乏形成自我認知所必需的心理連續性。第二,真正的內省具有錯誤識別豁免性,但大語言模型的自我陳述并不滿足這一特征 —— 其表述依托公開文本信息,這類信息同樣可以用來推斷其他系統的內部狀態。第三,輕量化理論以功能性自我監控與行為調控為核心,無法將內省,與復雜系統中普遍存在的自我調節機制區分開來。
研究結果耐人尋味。該研究發現,Claude Opus 4、4.1等高階模型展現出一種「有限、功能性的內省覺知」。在部分實驗場景中,這類模型能夠準確報告被注入概念的存在,說明其具備一定程度的自我監控能力。
然而,我們必須理性看待成果,不宜過度樂觀。這種全新發現的內省能力極不穩定。研究指出,模型在多數情況下無法察覺被注入的概念,或是轉而生成看似合理、實則虛構的回答。即便是在效果最好的實驗中,這類自我覺知的準確率也僅維持在 20% 左右。
不出所料,人工智能這種萌芽級的自我覺知,已然引發哲學界的激烈爭論。部分批判者認為,這種「淺層次」的內省,完全不等同于人類所擁有的真正自我認知。他們主張,當前大語言模型缺少連續、穩定的「自我」,而這正是實現真正內省的必要前提。 盡管存在上述局限且相關爭論仍在持續,這項研究的意義依舊深遠。研究結果表明,模型的綜合能力與其內省潛力存在關聯性,這預示著隨著人工智能技術不斷發展,其自我覺知能力也或將同步提升。這或將對人工智能安全與透明化發展產生重大影響。試想在未來,人工智能系統能夠實現自我調節、識別內部異常,并主動標記潛在偏見或有害輸出內容。 然而,前路并非毫無隱患。那些有望提升模型透明度的底層機制,同樣可能為欺騙行為埋下隱患,導致模型刻意歪曲、謊報自身的內部狀態。
針對大語言模型內省能力的研究仍處于起步階段,卻標志著人工智能發展歷程中的關鍵轉折點。雖然擁有感知意識的機器離我們尚且遙遠,但大語言模型中顯現的內省跡象,已然開辟了全新的研究領域。這也迫使我們直面兩大命題:人類造物的能力邊界,以及意識本身的本質。
「大模型時代下的Agent建模與仿真」讀書會
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,現讀書會已結束,支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
核心問題
Agent建模與仿真是什么,核心技術發生了怎樣的演變?
大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?
大模型如何賦能Agent實現自主思考與動態適應?
大模型驅動的Agent交互會涌現出什么新型的社會現象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發展脈絡與方法論;
掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;
掌握基于多主體強化學習的復雜系統優化方法;
領略領域前沿學者的研究體系與科研路徑。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
#翻譯
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.