網易首頁 > 網易號 > 正文申請入駐

港科大等機構發現：AI的"眼睛"和"耳朵"其實可以相互替代的關鍵

2026-05-14 22:14:13　來源: 科技行者

天津舉報

分享至

這項由香港科技大學（廣州）、新加坡國立大學、加州大學圣地亞哥分校、斯坦福大學、北京大學和清華大學聯合開展的研究，以預印本形式發布于2026年5月，論文編號為arXiv:2605.07825，有興趣深入了解的讀者可通過該編號查詢完整論文。

一、為什么AI同時看圖和讀文字，竟然是個大難題

訓練一個既能看圖又能讀文字的AI，聽起來理所應當——畢竟人類自己也是同時用眼睛和耳朵感知世界的。然而對于當今的大型多模態語言模型（簡單說就是那種既能理解圖片又能理解文字的AI系統）來說，這件事遠沒有表面上那么簡單。核心難題在于：要訓練這類系統，你需要海量"圖文配對"數據，也就是每一張圖片都配有對應的文字描述。這類數據的收集和標注成本極高，數量也遠不夠用。

于是研究者們想到一個聰明的迂回方案：既然CLIP這類多模態對比學習模型（它的職責是把圖片和文字映射到同一個"語義空間"里，讓含義相近的圖文在這個空間里靠得很近），已經把圖片和文字都放進了同一個空間，那能不能干脆把文字的表示"變裝"成圖片的表示，然后只用文字數據就訓練出能處理視覺任務的AI？

這個思路很吸引人，但它有一個根本前提沒有得到足夠重視：圖片的表示和文字的表示在那個"共享空間"里，真的可以互換嗎？兩者之間的差距究竟是什么性質的？如果連這個問題都沒搞清楚，所謂的"變裝"就只是在瞎猜。

正是帶著這個問題，這支跨機構的研究團隊開始了一場系統性的幾何偵查。他們把圖片表示和文字表示放在同一個坐標系下仔細審視，試圖弄清楚：這兩個"居民"在同一片土地上，到底住得有多近，又因為什么原因格格不入？

二、共同的"地圖"：兩種模態其實說著同一種語言

這場偵查的第一步，是檢驗圖片表示和文字表示是否具有相似的"基本骨架"。用一個更直覺的比喻來說：假設整個語義空間是一張城市地圖，圖片的聚居區和文字的聚居區是否遵循相似的城市規劃規律？

研究團隊分析了一百萬對圖文表示數據，分別計算了圖片和文字各自的"協方差譜"——這個概念描述的是，在這片空間里，各個方向上信息是如何分布的。結果發現，圖片和文字的信息分布模式驚人地相似：都是少數幾個方向承載了大量信息，而其他方向的信息則迅速衰減，形成一條長長的尾巴。這種相似程度用一個相關系數來衡量，達到了0.845——接近完美正相關。

但僅僅是"分布形狀"像，不代表兩者用的是同一批方向。用城市的比喻來說：兩個城市的道路可能都是棋盤格式，但東西南北的方向可能完全不同。于是研究團隊進一步比較了兩種模態最重要的那批"方向"是否重合，專業上叫做"主子空間重疊度"。

結果同樣令人振奮。當取最重要的128個方向時，圖片和文字的重疊度達到了0.441，而如果兩者是隨機無關的，期望重疊度只有0.100。換言之，觀測到的重疊程度是隨機情況的四倍多，說明兩種模態確實共享了一批"非隨機的主要方向"。

由此可以得出第一個結論：多模態對比預訓練已經在圖片和文字之間建立了一套共同的幾何骨架。它們不是兩個毫不相關的世界，而更像兩座在同一城市規劃體系下建造的城區，基礎設施是共通的。

三、"搬家"不夠用：模態差距比想象中復雜得多

既然兩種模態有共同的基礎，那它們之間的差距是不是僅僅因為"地址不同"——也就是說，只要把文字的聚居地整體平移到圖片聚居地的位置，問題就解決了？

這是一個直覺上很合理的假設，也是很多早期方法的默認思路：計算出圖片中心和文字中心之間的偏移，然后把所有文字表示統一往那個方向移動一段距離。

研究團隊用實驗直接檢驗了這個假設。他們固定圖片表示不動，把所有文字表示整體移到圖片那邊，然后測量移動之后配對圖文之間的殘余距離。結果發現，移動之后，配對差距殘余比率高達0.89——意思是，原本的差距幾乎沒有消除，89%的不匹配還留在那里。

更進一步，研究團隊檢驗了這個殘余差距的"形狀"。如果殘余差距只是隨機的各向同性噪聲（用城市比喻來說，就是兩個聚居區的居民散落程度相同，只是隨機地分布在各處），那么殘余的協方差矩陣應該接近"各方向相等"。然而實際情況完全不是這樣：殘余協方差的最大特征值比平均特征值大了28.6倍，這個數字叫做"各向異性比率"，它清楚地說明殘余差距高度集中在少數幾個特定方向上，而不是均勻散布的噪聲。

計算"有效維度"（衡量差距實際集中在多少個方向上）時，結果顯示有效維度只占總維度的28.4%，進一步確認了這個殘余差距其實是一個低維結構的集中分布。

這就引出了第二個關鍵結論：模態差距的本質不是"整體偏移"，而是一個低維的、方向性極強的"各向異性殘余結構"。就好像兩個城區不只是東西方向上相差了幾公里，而是在某幾條特定的街道上存在明顯的地形扭曲，解決這種扭曲靠簡單的整體平移是不夠的。

四、對齊的正確姿勢：既要"搬進去"，也要"保持自己"

這個發現直接導向了一個方法論上的新原則：有效的模態對齊，必須同時滿足兩個要求，而不是只追求其中一個。

研究團隊用五種不同的變換方式做了對比實驗，像五種不同的"變裝策略"：第一種是什么都不做，直接用原始文字表示；第二種只做整體平移，把文字移到圖片的中心位置；第三種做更完整的統計矯正，不僅平移，還調整整體的分布形狀；第四種是"反面教材"，直接隨機抽取真實圖片表示替換掉文字表示，強行模仿圖片分布；第五種則是沿著之前發現的"主要殘余方向"做有控制的插值修正。

實驗結果揭示了一個清晰的權衡關系。直接隨機替換確實讓分布從外觀上看像圖片了，但它完全破壞了文字本來的語義結構——兩個語義相近的文字表示，被替換之后在空間里可能離得很遠。相反，只做統計矯正在整體分布上有所改善，但對語義結構造成了明顯擾動。只有沿著"主要殘余方向"做有界修正的策略，才能在保留原有語義的同時，讓表示真正進入圖片分布的支撐區域。

這就好像你要把一段錄音"變裝"成視頻：只改變音量高低（整體縮放）或只換一段別人的視頻（隨機替換），都達不到目的。真正需要做的是，找到錄音和視頻之間在特定維度上的結構差異，然后有針對性地、有限度地去調整那幾個關鍵維度，同時保證音頻本身的內容邏輯不被破壞。

由此，研究團隊提出了"各向異性模態對齊原則"：有效的模態對齊應當保留源模態的語義幾何結構，同時修正阻礙其與目標模態分布兼容的主要各向異性殘余方向。

五、AnisoAlign：一個三步走的精準"變裝"方案

基于上述原則，研究團隊設計了一個名為AnisoAlign的方法，它的工作邏輯可以用一個精心規劃的"裝修改造"來理解：你的房子（文字表示）和隔壁的參考房子（圖片表示）建在同一個社區（共享空間），整體格局相似，但某幾面墻的方向和厚度有系統性的偏差。改造的目標是讓你的房子在這幾個關鍵維度上跟參考房子一致，但不要把家具都搬走重新布置——因為那些家具的擺放位置承載著你自己的生活邏輯（語義結構）。

第一步是"劃定施工區域"。研究團隊把整個共享空間分成兩個子空間：一個是"主導子空間"，包含了圖片和文字共同方差最大的那批方向；另一個是其余的補充空間。主導子空間通過計算圖片和文字協方差矩陣之和的前若干個特征向量來確定，所有后續的改造工作主要在這個子空間內進行。

第二步是"極坐標解耦"。在主導子空間內，研究團隊把每一對坐標軸兩兩組合，形成多個二維"街區"，然后在每個街區內用極坐標（半徑+角度）來描述表示向量的位置。這樣做的好處是把"能量大小"（半徑）和"方向偏好"（角度）分開來處理。為了避免這種分組方式對特征向量的任意排列順序產生依賴，系統引入了一個可學習的正交混合矩陣，讓分組方式自適應地找到最穩定的內部坐標組織。

第三步分為兩個階段。第一階段只用圖片數據來學習圖片在"角度空間"里的分布規律，具體包括每個二維街區的典型方向偏好，以及不同街區之間的角度關聯結構。這個學習的結果被固化為一個"目標模態相位先驗"，相當于一份描述"圖片的空間居住習慣"的地圖。第二階段才引入文字表示，先做一次基于統計的全局初始化（包括整體平移、半徑分布對齊和補充空間的方差匹配），然后用一個輕量網絡在這個初始化基礎上進行有界的精細修正。這個修正既受到第一階段學到的圖片角度先驗約束（鼓勵修正后的角度分布與圖片一致），也受到一個"相對角度變形約束"（防止街區之間的角度關系被過度改變，從而保護語義結構）。最終輸出的表示經過歸一化和全局中心校準，就成為可以替代真實圖片表示的"文字版視覺表示"。

整個方案的設計核心是"有界性"——無論是角度的修正量還是半徑的縮放比例，都被tanh函數（一種把輸出限制在有限范圍內的數學工具）嚴格壓縮，防止修正過頭而破壞語義。論文的理論部分也嚴格證明了：只要修正幅度被控制在一定范圍內，原始表示的成對相似度結構就能得到有界的保護。

六、實驗結果：幾何上更像圖片，語義上更像文字，實際任務上更強

研究團隊從兩個層面驗證了AnisoAlign的效果：幾何診斷層面和多模態大語言模型訓練層面。

在幾何診斷上，他們比較了四種方法：直接使用原始文字表示（Text）、C3對齊（只做整體平移加高斯噪聲）、ReAlign（全局統計矯正）和AnisoAlign。衡量維度包括：轉換后表示與圖片中心的距離、轉換后表示與真實圖片在局部鄰域的混合程度、殘余差距的各向異性程度，以及對源模態語義的保留質量。

結果顯示，AnisoAlign在"進入圖片分布支撐區域"這個方面達到了最好的平衡——它的局部滲透分數和局部覆蓋分數都是四種方法中最均衡的，而Text和C3在這兩個方向上存在明顯的不對稱（要么滲透了但沒有覆蓋，要么相反）。在語義保留方面，AnisoAlign在實例一致性、相對幾何一致性和鄰域一致性三個指標上都取得了最高分，分別達到0.941、0.983和0.945，明顯優于ReAlign的0.923、0.836和0.945，更大幅領先C3的0.899、0.925和0.840。換句話說，AnisoAlign轉換后的表示既更像圖片，又更大程度地保留了原始文字的語義結構。

在多模態大語言模型訓練上，研究團隊做了三個遞進式的實驗。第一個實驗是"全程不用真實圖片"，完全依靠轉換后的文字表示來訓練模型，在11個涵蓋通用感知、復雜推理和幻覺檢測的基準上進行評測。AnisoAlign取得了47.49的平均分，優于ReAlign的45.00、C3對齊的42.44、Unicorn框架的42.57和不做任何對齊的40.08。這說明文字表示的質量直接影響了模型的視覺能力，而更好的幾何對齊帶來了更好的下游表現。

第二個實驗是"先用文字預訓練，再用真實圖文微調"，檢驗AnisoAlign是否能作為更好的預訓練接口。結果AnisoAlign在同樣設定下達到了51.59的平均分，比ReAlign高1.43分，比C3對齊高3.53分，比不做對齊高4.09分。這說明即使后續有真實圖片數據補充，預訓練階段的表示質量也有顯著影響，而AnisoAlign在這個階段提供了更好的視覺替代界面。

第三個實驗檢驗了一個更有野心的問題：如果一直擴大文字數據的規模，AnisoAlign能不能讓純文字預訓練接近甚至超越真實圖片預訓練？實驗對比了三種方案：用真實圖片做預訓練（平均52.72分）、用100萬文字樣本做AnisoAlign預訓練（51.60分）和用200萬文字樣本做AnisoAlign預訓練（52.75分）。結果顯示，AnisoAlign-2M以微弱優勢超越了真實圖片預訓練。這意味著，當文字數據規模足夠大、表示對齊質量足夠高時，大規模文字數據有潛力成為真實圖片數據的經濟替代品。

消融實驗進一步拆解了AnisoAlign各個組件的貢獻。僅使用全局初始化時平均分為43.59，加入實例條件精細修正后提升到44.93，進一步加入目標模態相位先驗約束提升到46.56，加入相對角度變形約束達到46.45，完整的AnisoAlign最終達到47.49。每個組件都有獨立貢獻，且四個部分相互補充，缺一不可。

七、這項研究背后的數學邏輯

為了讓方法有堅實的理論基礎，研究團隊在論文附錄中系統地推導了上述所有直覺判斷背后的數學支撐。

關于"為什么整體平移不夠用"，他們通過分解公式嚴格證明了：配對差距的期望值可以被正交分解為"均值偏移項"加上"中心化殘余項"，兩者互相獨立，僅消除均值偏移無法減少殘余項的能量。

關于"為什么殘余方向的修正最高效"，他們引用了矩陣論中的Ky Fan最大值原理，證明了在所有秩為K的正交投影矩陣中，投影到殘余協方差最大K個特征方向上的修正方案，是減少殘余能量最有效的選擇。當殘余各向異性比率Ar越大，這種定向修正相對于隨機修正的優勢就越明顯。

關于"為什么只匹配目標分布是不夠的"，他們給出了一個簡潔的不可識別性命題：如果一個變換T0滿足把源模態推入目標模態分布，那么任何保持目標模態分布不變的混淆變換S與T0的復合也滿足同樣的分布條件——這意味著僅憑分布匹配無法區分語義保留和語義破壞的變換，必須引入額外的語義結構約束。

關于"為什么有界修正能保護語義"，他們通過Lemma A.4嚴格推導了：對于歸一化表示，當修正量的歐氏范數不超過ε時，任意兩個樣本之間的余弦相似度變化上界為4ε/(1-ε)。Stage II中tanh約束直接限制了修正量的范數上界，從而提供了語義相似度保護的理論保證。

此外，他們還解釋了為什么在實際的無配對對齊中，無法直接用殘余協方差的特征方向來定義修正空間——因為殘余協方差的計算需要配對數據，而配對數據在無監督設定下不可得。因此，研究團隊轉而使用圖片和文字協方差之和的特征方向作為代理，并從理論上論證了這個代理的合理性：兩個模態共享的主導幾何方向正好也是殘余結構集中的地方，因此聯合協方差的主子空間是一個可計算的合理替代。

Q&A

Q1：模態差距（Modality Gap）是什么？為什么AI處理圖文時會出現這個問題？

A：模態差距指的是，即使在同一個共享語義空間里，圖片的表示向量和文字的表示向量仍然存在系統性的幾何分離。打個比方，同一個概念"貓"，用圖片編碼出來的坐標和用文字編碼出來的坐標，并不在同一個位置，而是存在方向性的偏差。這種偏差在大規模對比預訓練之后依然存在。AnisoAlign的研究揭示了這個偏差不只是整體位移，還有集中在少數特定方向上的各向異性殘余結構，這正是簡單的平移方法無法解決問題的根本原因。

Q2：AnisoAlign方法需要配對的圖文數據嗎？普通用戶怎么理解它的工作方式？

A：AnisoAlign在實際對齊階段不需要任何圖文配對數據，只需要分別收集圖片表示和文字表示的無配對樣本。直觀地說，它先從圖片數據中學習"圖片喜歡住在空間的哪些方向"，形成一份"圖片居住習慣地圖"，然后把文字表示按照這份地圖做有限度的調整，讓文字表示在保留自身語義邏輯的前提下，逐漸"搬進"圖片喜歡的區域。整個過程無需告訴系統哪張圖片對應哪段文字。

Q3：AnisoAlign用2M文字樣本的效果能超過真實圖片預訓練，這是否意味著以后訓練視覺AI不需要圖片了？

A：目前這個結論需要謹慎理解。實驗結果顯示，在特定的預訓練加微調流程中，用2M經過AnisoAlign處理的文字樣本確實略微超越了真實圖片預訓練的效果。但這建立在兩個前提上：一是后續仍然有真實圖文數據用于指令微調；二是使用的是LLM2CLIP這類已經建立了高質量共享語義空間的編碼器。當預訓練編碼器的共享空間質量較差時，AnisoAlign的優勢會下降。因此，更準確的解讀是：文字數據在條件合適時可以作為視覺預訓練數據的經濟替代或補充，而非完全消除對圖片數據的依賴。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.