網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

PNAS | 從視覺特征到語義空間：大語言模型預(yù)測人類個(gè)體眼動(dòng)軌跡

2026-06-14 12:10:58　來源: PsyBrain腦心前沿

北京舉報(bào)

分享至

認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享

基本信息

Title:Conceptual priorities shape individual gaze patterns during naturalistic visual attention

發(fā)表時(shí)間:2026-06-12

發(fā)表期刊:PNAS

影響因子:9.1

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

當(dāng)我們步入一個(gè)全新的視覺環(huán)境時(shí)，大腦會(huì)立刻開始通過眼動(dòng)來探索周圍的世界。在這個(gè)過程中，究竟是什么因素決定了我們會(huì)看向哪里、忽略哪里？

傳統(tǒng)注意力理論通常將視線分布解釋為兩種力量的博弈：由圖像亮度、對比度驅(qū)動(dòng)的“自下而上”顯著性，以及由當(dāng)前具體任務(wù)驅(qū)動(dòng)的“自上而下”目標(biāo)。然而，這種二分法忽略了一個(gè)關(guān)鍵的內(nèi)在變量：觀察者自身的知識(shí)儲(chǔ)備、經(jīng)驗(yàn)和偏好。當(dāng)我們在自然場景中自由探索時(shí)，我們并非被動(dòng)接收像素，而是主動(dòng)調(diào)用內(nèi)在的概念知識(shí)來理解事物之間的聯(lián)系。例如，一個(gè)人可能會(huì)在不同的場景中反復(fù)關(guān)注與“愛國主義”相關(guān)的元素（如教室里的國旗、機(jī)場的戰(zhàn)斗機(jī)），盡管這些物體在視覺上毫無相似之處。

那么，這種超越了單純視覺特征的“概念優(yōu)先權(quán)”（conceptual priorities），是否真的構(gòu)成了引導(dǎo)個(gè)體注意力的潛在框架？

為了回答這個(gè)問題，研究者引入了全新的技術(shù)組合。他們讓61名參與者佩戴帶有眼動(dòng)追蹤功能的VR頭顯，自由探索100個(gè)360度沉浸式真實(shí)世界場景。更巧妙的是，研究者并沒有依賴傳統(tǒng)的人工標(biāo)注，而是引入了視覺大模型（ViT）來提取視覺特征，并利用大語言模型（LLM）的詞嵌入空間來表征場景中的抽象概念關(guān)系。這項(xiàng)最近發(fā)表在 PNAS 上的研究試圖證明：每個(gè)人的眼動(dòng)軌跡中，都隱藏著獨(dú)一無二且高度穩(wěn)定的概念優(yōu)先權(quán)。

研究核心總結(jié)

為了剝離出真正的“概念”影響，研究者采用了一種堆疊回歸（stacked regression）與方差分配的建模框架。他們將場景劃分為網(wǎng)格，分別提取空間坐標(biāo)、視覺特征（ViT）和概念特征（基于人類對該區(qū)域的密集自然語言描述輸入LLM得到），以此來預(yù)測個(gè)體的注視密度。

一、概念特征能解釋視覺與空間之外的獨(dú)特注視模式

研究首先確認(rèn)了人們在觀察場景時(shí)存在共享的底層邏輯，即空間偏好（如喜歡看視野正前方）和視覺偏好（如喜歡看特定物體）。然而，當(dāng)把LLM提取的概念特征加入預(yù)測模型后，個(gè)體注視行為的預(yù)測準(zhǔn)確率出現(xiàn)了顯著提升。

這意味著，即使控制了空間位置和物體本身的視覺外觀，場景中蘊(yùn)含的“概念結(jié)構(gòu)”依然在獨(dú)立地解釋著人們的視線落點(diǎn)。自然狀態(tài)下的視覺注意力不僅是多層級的，而且高階的語義結(jié)構(gòu)與人類的注意力分配高度契合。

Fig 1. 實(shí)驗(yàn)范式示意圖：參與者在VR中自由探索復(fù)雜場景，研究者通過對場景進(jìn)行密集的語義描述，提取出跨越視覺差異的抽象概念主題。

Fig 2. 堆疊回歸模型框架：展示了如何將空間、視覺（ViT）和概念（LLM）三種特征空間結(jié)合，以量化各自對注視行為的獨(dú)特解釋力。

二、概念優(yōu)先權(quán)是區(qū)分不同個(gè)體“注意力指紋”的關(guān)鍵

這篇研究最核心的發(fā)現(xiàn)之一，是概念特征在“區(qū)分個(gè)體”上展現(xiàn)出的壓倒性優(yōu)勢。

研究者進(jìn)行了一項(xiàng)“自我 vs. 他人”的模型對比測試：用參與者A在部分場景中的眼動(dòng)數(shù)據(jù)訓(xùn)練出一個(gè)模型，去預(yù)測A在全新場景中的表現(xiàn)，并與用其他參與者數(shù)據(jù)訓(xùn)練出的模型進(jìn)行對比。結(jié)果顯示，基于空間特征的模型幾乎無法區(qū)分個(gè)體；基于視覺特征的模型能產(chǎn)生一定的區(qū)分度；而基于概念特征（LLM）的模型則展現(xiàn)出了極強(qiáng)的個(gè)體特異性。每個(gè)人的注視行為都能被自己的概念模型最精準(zhǔn)地預(yù)測。這表明，概念特征捕獲了那些真正讓你的視線區(qū)別于他人的獨(dú)特結(jié)構(gòu)。

Fig 3. 個(gè)體特異性預(yù)測結(jié)果：在概念特征空間中，利用個(gè)體自身數(shù)據(jù)訓(xùn)練的模型預(yù)測準(zhǔn)確率遠(yuǎn)高于他人模型，證實(shí)了概念優(yōu)先權(quán)的高度個(gè)人化特征。

三、概念對注意力的引導(dǎo)在場景探索中后期逐漸顯現(xiàn)

如果概念知識(shí)是在幫助我們理解場景，那么它的作用時(shí)機(jī)應(yīng)該有別于底層的視覺反射。通過對16秒的場景探索過程進(jìn)行時(shí)間分辨分析，研究者發(fā)現(xiàn)了清晰的動(dòng)態(tài)演變軌跡。

在觀察的最初幾秒，空間特征的預(yù)測力最強(qiáng)，反映了人們剛進(jìn)入新環(huán)境時(shí)粗略的掃視習(xí)慣；緊接著，視覺特征的貢獻(xiàn)開始上升；而到了第6到8秒之后，概念特征的預(yù)測力顯著反超了空間和視覺特征。這種漸進(jìn)式的增強(qiáng)表明，隨著觀察者不斷積累場景信息，他們內(nèi)在的概念優(yōu)先權(quán)開始接管控制權(quán)，引導(dǎo)他們?nèi)ふ曳献陨碚J(rèn)知結(jié)構(gòu)的深層信息。此外，這種基于概念的注視模式在跨越數(shù)天的兩次獨(dú)立測試中表現(xiàn)出了極高的重測信度，證明它是一種穩(wěn)定的特質(zhì)，而非暫時(shí)的狀態(tài)。

Fig 4. 注意力優(yōu)先權(quán)的時(shí)間演變與跨期穩(wěn)定性：概念特征的預(yù)測優(yōu)勢在觀察中后期才顯著浮現(xiàn)，且個(gè)體專屬的概念注視模式在不同測試日之間保持穩(wěn)定。

四、越深層的概念推理，越能準(zhǔn)確預(yù)測個(gè)體的注視軌跡

為了進(jìn)一步證實(shí)LLM模型確實(shí)利用了“概念”而非僅僅是復(fù)雜的詞匯，研究者對輸入LLM的文本描述進(jìn)行了分層截?cái)鄬?shí)驗(yàn)。

他們將場景描述分為三個(gè)層級：第一層僅包含物體身份（如“一頂帽子”）；第二層包含關(guān)系語境（如“戴在她頭上的帽子”）；第三層包含推理性或功能性信息（如“戴在她頭上，可以用來遮擋陽光的帽子”）。結(jié)果顯示，隨著概念深度的增加，模型對個(gè)體注視軌跡的預(yù)測準(zhǔn)確率也隨之攀升，第三層級帶來了最大的性能增益。這說明，真正吸引個(gè)體視線的，往往是物體背后的功能啟示和深層語境，而不僅僅是物體本身。

Fig 5. 概念深度對預(yù)測準(zhǔn)確率的影響：包含推理性信息的第三層級描述能最有效地提升個(gè)體注視行為的預(yù)測精度。

Fig 6. 個(gè)體概念優(yōu)先權(quán)的可視化：通過t-SNE降維，可以看到被某一個(gè)體獨(dú)特關(guān)注的場景區(qū)域，往往在概念空間中聚類（如都與“書寫”或“室內(nèi)裝飾”相關(guān)），即便它們在視覺上截然不同。

研究意義

這項(xiàng)工作在多個(gè)層面上推進(jìn)了我們對視覺注意力的理解。

首先，在理論層面上，它打破了傳統(tǒng)視覺注意力研究中過度依賴視覺特征的局限，證明了自然語言模型的詞嵌入空間可以作為人類概念組織的有效代理。這為“主動(dòng)感知”理論提供了強(qiáng)有力的行為學(xué)證據(jù)：我們在看世界時(shí)，始終在用內(nèi)在的世界知識(shí)進(jìn)行假設(shè)檢驗(yàn)和信息采樣。

其次，在臨床與應(yīng)用啟發(fā)上，這種穩(wěn)定的“注意力指紋”為理解認(rèn)知差異提供了新視角。例如，自閉癥譜系障礙群體在自然場景中表現(xiàn)出的非典型注視模式，可能不僅僅是因?yàn)椤安粣劭茨槨钡纫曈X偏好差異，其冰山之下可能隱藏著更廣泛的概念優(yōu)先權(quán)差異。

最后，這項(xiàng)研究也明確指出了其應(yīng)用邊界與潛在風(fēng)險(xiǎn)。雖然眼動(dòng)軌跡揭示了概念偏好，但它并不能直接等同于個(gè)人的價(jià)值觀或信仰。然而，隨著VR/AR設(shè)備中眼動(dòng)追蹤技術(shù)的普及，我們的視線數(shù)據(jù)確實(shí)能夠暴露出高度個(gè)人化的認(rèn)知特質(zhì)，這無疑為未來的空間計(jì)算設(shè)備提出了更為嚴(yán)峻的數(shù)據(jù)隱私挑戰(zhàn)。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨(dú)行。歡迎加入PsyBrain 學(xué)術(shù)社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點(diǎn)擊卡片進(jìn)群，歡迎你的到來

一鍵關(guān)注，點(diǎn)亮星標(biāo) ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.