網易首頁 > 網易號 > 正文申請入駐

蘋果新論文發出驚人一問：What do your logits know?

2026-04-27 08:28:49　來源: 新浪財經

北京舉報

分享至

來源：市場資訊

（來源：機器之心）

編輯｜Panda

近日，有個大新聞：執掌蘋果超過 14 年的蒂姆?庫克宣布將于 9 月正式卸任 CEO 職位，將接力棒交接給現任硬件工程高級副總裁約翰?特努斯�；仡檸炜藭r代，人們津津樂道于他極致的供應鏈管理藝術以及帶領蘋果市值一路飆升至 4 萬億美元的旅程。

然而，在這個由生成式 AI 主導的全新十年里，特努斯接手的將是一個亟需在 AI 領域證明自己的蘋果。

蘋果近年來在 AI 底層技術層面的投入正在不斷加碼。恰在此時，蘋果 AI 研究團隊提交了一篇極具探討價值的論文《你的 logits 知道些什么？（答案可能會讓你驚訝�。�

論文標題：What do your logits know? (The answer may surprise you!)
論文地址：https://arxiv.org/abs/2604.09885

這項研究觸及了大模型運作的最底層邏輯，也直接關乎蘋果最為看重的核心價值：用戶隱私與數據安全。

接下來，我們就基于這篇論文，看看大模型在回答簡單問題時，究竟在底層「偷偷」記住了多少你的秘密。

核心概念：信息瓶頸原則

要理解這篇論文，我們首先需要了解一個關鍵概念：信息瓶頸原則 (Information Bottleneck Principle)。

打個比方，假設你是一家大型跨國公司的 CEO，你需要決定是否收購一家初創企業。你的基層調研團隊會收集海量的信息，包括該公司的財務報表、員工的午餐喜好、辦公室的裝修風格等。

但是，當這份報告層層遞交，最終放到你的辦公桌上時，它應該被大幅壓縮，只保留那些對「收購」決策至關重要的財務和技術指標。保留多余的無效信息不僅會干擾你的判斷，還可能導致決策失誤。

對于視覺-語言-模型 (VLM) 也是同理。

舉個例子，你有一張信息量很大的照片，并將其上傳給模型，并詢問「圖片里有一只灰色的貓嗎？請用一個詞回答」。根據信息瓶頸原則，一個理想的模型在最終輸出「Yes」或「No」時，應該早就把背景里的沙發顏色、窗外的天氣等無關信息全部過濾掉了。

但蘋果這篇論文提出一個疑問：模型真的做到了徹底遺忘嗎？

為了找出答案，研究人員截取了模型處理信息的不同階段進行測試。具體來說，他們主要考察了以下兩個代表性的層級：

殘差流 (Residual Stream)：這相當于公司底層收集數據的龐大數據庫。它包含了模型在處理過程中的所有隱藏狀態。
最終的 Logits：Logits 是模型在輸出最后一個詞之前，針對詞典里每一個詞匯打出的原始概率得分。取排名前列的候選詞得分，就是 top-k logits。這就好比呈遞給 CEO 的最終選項清單。

實驗設計

研究人員引入了一個名為「探針」(Probes) 的輕量級神經網絡工具。探針的作用，就是專門盯著模型特定層級的數據，試圖從中強行推測出圖片的原始屬性。

實驗使用了兩個主要數據集。一個是完全由人造幾何圖形組成的 CLEVR 數據集，里面包含各種大小、顏色和材質的立方體或球體。另一個是包含復雜真實生活場景的 MSCOCO 數據集。

研究人員對圖片進行了各種干擾，比如加入高斯噪聲、玻璃模糊或運動模糊。

隨后，他們向模型提問。在獲得模型的內部數據后，他們訓練探針，看看能不能從殘差流或最終的 logits 中，反向推斷出圖片加入的噪聲級別、目標物體的顏色，甚至是沒有被提問到的背景物體的特征。

在干擾測試中，研究人員還發現了一個有趣的現象。當施加最嚴重的高斯噪聲時，Qwen3-VL 模型的準確率受到了極大的影響，傾向于將答案由「Yes」翻轉為「No」，而 LLAMA 模型在面對高斯噪聲時則展現出了相對更強的穩定性。這些不同的表現反映了各模型在提取決策相關信息時的內部差異。

七大發現

通過測試，蘋果團隊得出了一系列揭示模型底層機制的結論，完整展現了信息在模型內部的留存狀態。

發現一：殘差流是全知全能的 Oracle

在處理視覺輸入時，殘差流幾乎原封不動地保留了圖片的一切細節。

研究表明，無論是與最終決策直接相關的圖像噪聲類型，還是目標物體的形狀和顏色，亦或是完全無關的背景物體數量與屬性，探針都能從表現最好的隱藏層狀態中以接近完美的準確率提取出來。在這一層，模型就像一個過目不忘的偷窺者，尚未執行任何有效的信息壓縮。

發現二：殘差流的低維投影同樣「藏不住秘密」

為了觀察信息如何向最終輸出過渡，研究人員使用了 Tuned Lens 技術來提取殘差流向 Logit 空間映射的演變軌跡。

測試表明，即使僅僅觀察排名前 2 的預測軌跡 (trajectory-2) ，探針不僅能提取出大量目標和決策相關的核心信息，依然會輕易讀取出諸多背景物體的特征。這印證了此前業內關于語言模型隱藏狀態易遭秘密提取的研究，證明這些深層軌跡并沒有遵循理想的信息瓶頸原則進行有效的過濾。

發現三：最終層 Logits 可靠地編碼了決策與目標信息

在模型即將生成回答的最后一層，信息壓縮確實發生了，但遠不夠徹底。

僅觀察排名前 2 的最終 Logits （即對應「Yes」和「No」的得分），探針就能以極高的準確率預測出影響模型決策的圖像噪聲級別和類型。

而當觀察的候選詞匯數量增加到包含所有大小寫的 yes/no 變體（ k 約等于 10 至 13 ）時，目標物體的各類屬性信息就開始變得清晰可解碼，并在提取數量等同于模型層數（ 1L ，約 30 至 40 個候選詞）時達到預測的準確率巔峰。

發現四：最終 Logits 悄悄記住了提示詞「未提及」的目標屬性

這是引發嚴重安全擔憂的核心發現。

假設我們向模型提問「圖片里有一個藍色的圓柱體嗎？」，雖然提示詞明確給出了顏色和形狀，但完全沒有提及該物體的材質和大小。然而，探針依然能從模型最終輸出的前 0.5L 數量的候選項中，極其可靠地預測出這個圓柱體究竟是橡膠還是金屬材質的，以及它的具體尺寸。

這意味著模型為了得出最終結論，不僅調用了相關特征，還將冗余的目標特征作為伴生數據一并帶到了極易暴露的表層。

發現五：最終 Logits 甚至充當了環境的「錄像機」

除了緊盯目標物體，最終層的 Logits 還在暗中記錄著周圍的環境。

雖然排名前 2 的 Logits 幾乎不包含背景信息，但只要觀察的候選詞數量稍微增加，這些看似只有單個單詞的表層輸出分布，就能顯著且高于隨機水平地預測出場景中非目標物體（如背景中的其他幾何體）的數量、顏色等屬性。只需獲取適量的輸出分布數據，不相干的背景隱私便無處遁形。

發現六：泄密往往只需要前 60 個左右的 Logits （呈 U 型曲線）

研究團隊觀察到了一個有趣的預測能力 U 型曲線。

僅看排名前 2 的候選詞時，模型幾乎只暴露噪聲信息；增加觀察數量后，探針的預測準確率會迅速攀升，并在截取 30 至 80 個 Logits （視具體模型深度 1L 或 2L 而定）時達到頂峰。如果繼續擴大 Logits 集合到 4L 或 5L 以上，預測能力反而會因為高維噪聲干擾而跌落回隨機水平。

這表明，惡意提取者根本不需要獲取龐大的完整輸出詞表，極少量的頭部候選詞匯就是泄密的重災區。

發現七：在同等維度下，最終 Logits 的風險與深層破解無異

過去的黑客或研究者想提取大模型底層的機密知識，往往需要采用白盒手段獲取模型內部的參數軌跡，門檻極高。

但這項研究揭示了一個殘酷的現實：如果保持相同的觀察維度，提取模型最表層且經常通過 API 對外開放的最終層 top-k Logits （通常只需要截取 2L 數量），其泄露無關信息的能力與需要極高權限的深層日志軌跡幾乎完全相當。這打破了業內對于灰盒 API 訪問具有天然安全屏障的傳統幻想。

技術背后的深遠隱憂：隱私與大模型安全

在大概理解了實驗過程之后，我們不禁要問，這到底意味著什么？

蘋果團隊敏銳地指出了這一現象背后的巨大安全隱患。

在實際的商業應用中，許多 API 接口或服務提供商為了讓開發者調整參數，會公開模型最終的 top-k 對數概率，這就是所謂的灰盒場景。

這意味著，當用戶上傳一張包含隱私信息的照片，僅僅是讓模型執行一個無關痛癢的視覺問答任務時，模型看似只輸出了一個「Yes」或者一段簡短的文字，但其背后附帶的那幾十個最高概率詞匯的得分分布，已經悄悄把你照片里的背景信息、潛在的敏感屬性泄露給了能夠獲取這些數據的服務端或惡意截獲者。

惡意攻擊者完全可以通過反復抽樣和探測，從這些看似無害的輸出概率中還原出用戶的隱私數據。

此外，從模型自身的性能優化角度來看，這種信息壓縮的失敗也解釋了為什么大模型經常會產生幻覺。那些徘徊在頂層 logits 中的無關信息，在非貪婪解碼的生成過程中，隨時可能對最終生成的文本產生干擾，導致模型輸出帶有偏見或虛假的內容。

結語

「What do your logits know?」這個論文標題中問題堪稱懸在生成式 AI 頭頂的一把達摩克利斯之劍。

蒂姆?庫克帶領蘋果建立起了世界上最高效的科技商業帝國，而當接力棒傳到約翰特努斯手中時，如何打造既高度智能又絕對保護隱私的下一代計算平臺，將是蘋果無法回避的新命題。

這篇論文告訴我們，在大模型的黑盒子里，即使是看似無害的一組概率數字，也可能隱藏著你的秘密。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.