无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

將多教師沖突轉化為動態約束,破解多模態大模型推理對齊難題

0
分享至



在多模態大模型(MLLM)快速發展的浪潮中,融合多模型 “集體智慧” 已成為提升模型性能的關鍵路徑,并催生了多教師知識蒸餾這一主流范式。然而,不同來源的教師模型在架構與優化上的差異,其在相似推理過程中呈現出不穩定甚至偏移的認知軌跡,即 “概念漂移”(Concept Drift)。這種多源推理分布的動態演變會將偏差與錯誤認知隱性傳遞給目標模型,進而引發邏輯沖突與生成幻覺等潛在風險。

悉尼科技大學(UTS)研究團隊提出了一種全新的自主偏好優化框架 —— APO (Autonomous Preference Optimization)。該框架突破了傳統蒸餾對單一強教師模型的依賴,通過多流教師模型的協同機制,巧妙地將模型間的 “漂移” 轉化為動態負約束,并將 “共識” 視為正向偏好引導,系統性地解決了多模態大模型在多師蒸餾中的概念對齊難題。該工作已被 ICML 2026 正式接收。



  • 論文標題: Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments
  • 作者信息:Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
  • 作者單位:悉尼科技大學(UTS)澳大利亞人工智能研究院(AAII)
  • 論文鏈接:https://arxiv.org/abs/2510.04142
  • 項目主頁:https://xiaoyuyoung.github.io/APO/
  • 倉庫鏈接:https://github.com/XiaoyuYoung/APO
  • 數據集鏈接:https://huggingface.co/datasets/MiaoMiaoYang/CXR-MAX

01 引言

目前的蒸餾策略大多假設教師模型提供的是單一穩定、一致的監督信號。然而,研究團隊通過對 7 個主流 MLLM 在醫療診斷任務中的表現分析發現,這些模型在推理過程中展現出顯著的非平穩性,其推理分布會隨步驟深入而產生劇烈波動。具體而言,雖然 Qwen-VL-Max 等模型傾向于高精度且簡潔的推理,而 GPT-5 則偏好高召回率的詳盡闡述,這種互補性的發散意味著真實的推理流形潛藏在多流共識之中,而非單一強教師監督;然而,若學生模型只是簡單地模仿這些漂移的教師流,并不能自動綜合其優點,反而會因內化了各個模型的偏見而導致幻覺與語義不一致,這證明了在非平穩環境下,單純的模仿已無法實現穩健的概念對齊。

為此,作者正式定義了非平穩多流概念對齊問題,并提出APO框架。這是一種將多流教師偏見內化為動態負約束、并將共識視為正向偏好引導,共同驅動學生模型收緊特征空間,實現穩健推理。



圖 1:APO 整體框架。該框架通過兩階段協議將教師模型間的漂移沖突轉化為動態負約束,并結合共識合成與偏好優化,在分布演變中精煉出穩健的推理共識流形。

02 方法

研究團隊面向多教師蒸餾問題,首先將概念漂移理論擴展到多源 MLLM 非平穩多流概念對齊上,將多源 MLLM 蒸餾定義為非平穩條件下的約束滿足問題;其次,作者設計了兩階段協議,自主提取多源 MLLM 的共識作為正向引導,并將教師模型間相互沖突的漂移軌跡重構為動態負約束,通過多負樣本偏好優化驅動,實現穩健的概念對齊。

多流推理漂移







則認為發生了多流推理漂移。







監督引導的共識合成

在多流推理漂移框架下,研究團隊首先讓 MLLM 進行監督引導的共識合成。在這個階段,學生模型廣泛吸收所有教師模型的異構知識。通過將自身投射到多源模型能力的并集空間中,學生模型建立起了一個包容集體智慧的基礎能力基座。

在此基礎上,研究團隊進一步利用大模型的推理能力,設計了上下文共識提取機制,將各個教師模型生成的、混合著有效信號與漂移錯誤的原始推理軌跡進行匯總,作為目標模型的參考上下文。此時,學生模型作為判別器,自主過濾掉那些缺乏跨模型支持的矛盾信息,并放大模型間的邏輯交集,最終提煉出一條高度邏輯自洽的共識軌跡。

約束感知的偏好優化

在提煉出邏輯自洽的共識軌跡后,APO 設計了約束感知優化進行概念對齊。這一階段的核心邏輯在于,目標模型不僅需要學習 “生成什么”(即共識軌跡),更需要明確 “避開什么”(即教師模型中固有的推理漂移)。通過最大化共識與漂移之間的邊際,模型得以針對幻覺和偏差進一步壓縮其決策邊界。





這種優化目標強制模型滿足兩個動態條件:一方面,相對于參考模型提升共識軌跡的生成概率;另一方面,顯式壓制推理空間中的漂移模式。這一過程有效地將教師模型間的沖突從干擾噪聲轉化為強力的監督信號,在無需外部推理軌跡標注的情況下,自主勾勒出大模型魯棒的推理流形。

03 數據集構建

為了評估真實環境中非平穩環境的推理對齊效果,研究團隊選擇了高風險、高動態的醫療領域,胸片診斷任務。研究團隊推出了 CXR-MAX (Multi-source Alignment for X-rays) ,這是一個專為促進高風險領域多教師蒸餾研究而設計的大規模基準。CXR-MAX 擴展了著名的 MIMIC-CXR 數據集,匯集了來自 7 個不同主流 MLLM 的推理軌跡,其中包括:GPT-5, Gemini-2.5, Sonnet-4, Grok-4, Qwen-VL-MAX, GLM-4.5V 以及 Moonshot。該數據集提供了 170,982 個推理實例,涵蓋了 14 種胸部疾病,為臨床胸片任務的多教師蒸餾研究建立了大規模的實驗基座。

04 實驗驗證



表 1: 各個教師模型和學生模型在胸片疾病診斷任務上的的分類準確率(%)。紅色代表最優,藍色代表次優。

為了驗證 APO 的有效性,研究團隊構建了胸部疾病分類、診斷報告生成、思維鏈一致性以及泛化性實驗。表 1 的結果表明,APO 訓練出的 7B 模型在所有疾病診斷任務中實現了 0.78 的最高平均準確率,一舉超越了包括 GPT-5 在內的所有教師模型。這一結果有力證明了,APO 賦予了緊湊型模型合成共識流形的能力,使其能夠有效整合多位教師的差異化優勢,真正實現站在巨人的肩膀上。

特別是在實變(Con.)和水腫(Ede.)疾病預測中,教師模型間有極大的分歧,各模型間準確率落差甚至超過 70%,教師模型表現波動巨大。而在實變(Con.)、肺炎(Pna.)和水腫(Ede.)疾病預測上,7 個教師模型中達到 60% 以上準確率的教師模型僅有 5 個。相比之下,APO 訓練的學生模型在幾乎所有類別中都穩居前二,展現出極強的穩定性。APO 通過將這些劇烈發散的推理軌跡轉化為負約束,成功阻止了偏見和錯誤知識的滲透,確保了推理過程的嚴謹與可靠。

05 結語

APO 的提出標志著多教師蒸餾學習從 “靜態學習” 向 “動態約束” 邁出了關鍵一步。 該框架將教師模型間漂移形式化為動態負約束,將概念對齊內化為約束滿足問題,促進多模態大模型推理對齊的進一步發展,為高風險、高動態的復雜領域的模型自主演化提供了一種全新的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
武田制藥將裁員約4500人

武田制藥將裁員約4500人

財聯社
2026-05-14 12:24:06
人民大會堂中式美學圈粉,美國國務卿魯比奧頻贊

人民大會堂中式美學圈粉,美國國務卿魯比奧頻贊

澎湃新聞
2026-05-14 14:11:15
公務員隊伍迎來大轉向:從精簡到嚴控,2026年官方鐵律全面落地

公務員隊伍迎來大轉向:從精簡到嚴控,2026年官方鐵律全面落地

細說職場
2026-05-13 13:38:47
中美會談現場,一位美方代表出現引起關注,打破中美28年的慣例

中美會談現場,一位美方代表出現引起關注,打破中美28年的慣例

面包夾知識
2026-05-14 16:09:24
人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

三農老歷
2026-05-08 19:20:12
中美元首會晤,世界吃下一顆“定心丸”

中美元首會晤,世界吃下一顆“定心丸”

環球時報國際
2026-05-14 13:37:25
史無前例!大陸官宣統一后安排,島內學者直呼:臺軍應滅“臺獨”

史無前例!大陸官宣統一后安排,島內學者直呼:臺軍應滅“臺獨”

小莜讀史
2026-05-14 13:54:16
14號收評:滬指失守4200點,所有人都注意了,大盤后市開始這樣看

14號收評:滬指失守4200點,所有人都注意了,大盤后市開始這樣看

春江財富
2026-05-14 15:27:52
中美兩個大國說好了,霍爾木茲海峽不準收費,革命衛隊能聽懂嗎?

中美兩個大國說好了,霍爾木茲海峽不準收費,革命衛隊能聽懂嗎?

臨云史策
2026-05-14 11:24:13
30℃北京再穿皮衣!黃仁勛不熱嗎?偏執穿搭背后藏著大故事

30℃北京再穿皮衣!黃仁勛不熱嗎?偏執穿搭背后藏著大故事

西樓知趣雜談
2026-05-14 12:24:20
賣不動了,日系車集體退守中國

賣不動了,日系車集體退守中國

21世紀經濟報道
2026-05-13 23:28:25
開盤半小時 兩市放量超2200億

開盤半小時 兩市放量超2200億

財聯社
2026-05-14 10:02:14
“降噪耳機受害者出現”,沖上熱搜

“降噪耳機受害者出現”,沖上熱搜

觀察者網
2026-05-13 09:31:15
國乒迎來大洗牌!2人基本確定退役,比賽機會越來越少

國乒迎來大洗牌!2人基本確定退役,比賽機會越來越少

酷侃體壇
2026-05-14 13:14:10
“性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

“性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

新西蘭天維網
2026-05-13 13:05:51
以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

懂球帝
2026-05-13 20:10:42
王勵勤下狠手!國乒選拔大洗牌,樊振東出局、蒯曼慘遭規則背刺

王勵勤下狠手!國乒選拔大洗牌,樊振東出局、蒯曼慘遭規則背刺

野渡舟山人
2026-05-14 11:50:58
太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

譚顳愛搞笑
2026-05-14 10:47:08
基本盤不是貶義詞

基本盤不是貶義詞

關爾東
2026-05-13 23:41:38
為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

老特有話說
2026-05-12 15:41:08
2026-05-14 16:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12995文章數 142648關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

男子稱火車站走錯口遭安檢員追打 被認定互毆各拘5天

頭條要聞

男子稱火車站走錯口遭安檢員追打 被認定互毆各拘5天

體育要聞

登海報!哈登30+8+6創多項紀錄 第8次贏天王山

娛樂要聞

肖戰提名金海燕獎,這一步走得太穩

財經要聞

習近平同美國總統特朗普會談

汽車要聞

云輦-P Ultra降維打擊!三輪也能越野?方程豹豹8/豹5閃充版30.58萬起

態度原創

本地
數碼
教育
藝術
房產

本地新聞

用蘇繡的方式,打開江西婺源

數碼要聞

Keychron J5 Ultra 8K三模機械鍵盤預售,390元

教育要聞

6月一早,準備高考~7月一到,志愿填報~

藝術要聞

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

無障礙瀏覽 進入關懷版