網易首頁 > 網易號 > 正文 申請入駐

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

0
分享至



文本提示圖像分割(Text-prompted image segmentation)是實現精細化視覺理解的關鍵技術,在人機交互、具身智能及機器人等前沿領域具有重大的戰略意義。這項技術使機器能夠根據自然語言指令,在復雜的視覺場景中定位并分割出任意目標。

然而,當前主流的技術路徑,如基于監督式微調(Supervised Fine-Tuning, SFT)的方法,正面臨著根本性的瓶頸。這些方法本質上是靜態的模式匹配,雖然在特定數據集上表現優異,但其泛化能力往往受限,形成了一個難以逾越的 “能力天花板”。尤其是在處理需要多步、復雜推理的未知指令時,性能會顯著下降,其根源在于 SFT 方法在訓練中忽略了動態的、顯式的推理過程。

為了 shatter 這一能力天花板,我們引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS 摒棄了靜態的 SFT,轉而采用端到端的強化學習(Reinforcement Learning, RL)機制,將高層次的 “思考” 過程(即思維鏈推理)與像素級的 “執行” 過程(即圖像分割)進行動態的聯合優化。通過這種設計,LENS 旨在賦予分割模型真正的、上下文感知的推理能力,從而在根本上提升其在復雜任務中的魯棒性和泛化性。

本文將深入介紹一下我們 AAAI 榮獲 Oral 的工作,“會思考的分割大模型 LENS”。有幸在這次 AAAI 2026 得到了審稿人們一致正面的評價,并被 AC 和 PC 一致同意推薦為 Oral 論文。



  • 論文標題:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.14153
  • 代碼鏈接:https://github.com/hustvl/LENS

LENS 框架概覽:推理與分割的協同進化

在這個工作中,我們研究了分割大模型領域的一大一小兩個關鍵問題,大問題就是老生常談的 “泛化能力”,傳統分割大模型對未見過的提示和領域的泛化能力往往有限;小問題則是隱藏的 “信息瓶頸”,此前的分割大模型從 “大腦思考”(MLLM)到 “分割解碼”(SAM)之間往往只通過單一的分割 Token 傳遞信息,存在隱形的 “信息輸送瓶頸”。



LENS 框架的核心設計在于通過端到端的聯合優化,徹底打破傳統模型中 “思考”(推理)與 “執行”(分割)之間的信息壁壘。

以往的方法,例如同期的優秀工作 Seg-Zero,采用的是非端到端的設計,即先由推理模型生成邊界框和點提示,再交由現成的(off-the-shelf)SAM 進行分割。這種分離式流程的主要缺陷在于誤差的單向傳播。這意味著像 Seg-Zero 這樣的非端到端模型是根本上脆弱的;它們的性能上限被其初始猜測的準確性所鎖定。一旦推理階段的定位出現偏差,下游的分割模型將無法糾正,最終必然導致分割失敗。相比之下,LENS 通過其端到端的反饋閉環,具備了即便從不完美的初步定位中也能自我糾正的能力。



LENS 的整體架構由三大核心組件構成,它們協同工作,實現了從高級語義理解到精確像素輸出的無縫銜接:

  • 多模態大語言模型 (MLLM) - 推理核心:作為系統的 “大腦”,LENS 采用先進的 MLLM(如 Qwen2.5-VL-3B-Instruct)來處理輸入的圖像和文本指令。它負責生成詳盡的思維鏈(Chain-of-Thought, CoT)推理過程,并給出一個初步的目標邊界框。這一過程不僅是定位,更是對指令的深度理解。





  • 上下文模塊 (Context Module) - 信息橋梁:這是 LENS 的關鍵創新,它充當了 MLLM 和分割模型之間的信息高速公路。該模塊由一組可學習的上下文查詢(Context Queries)和一個連接器(Connector)組成,其任務是將 MLLM 生成的豐富推理軌跡和定位信息,轉化為分割模型能夠高效利用的、信息密集的分割提示





  • 分割模型 (SAM-2) - 像素解碼器:作為系統的 “雙手”,LENS 采用高性能的分割模型(SAM2-Large)。它接收來自上下文模塊的復雜指令,并結合原始圖像信息,執行精準的像素級掩碼生成任務,將推理結果精確地體現在圖像上。

通過這種 “推理 - 橋接 - 分割” 三位一體的緊密耦合架構,LENS 實現了推理質量和分割精度的同步提升。這種設計使得最終的分割性能可以直接反作用于推理過程的優化,形成一個完整的閉環,為實現更高水平的通用分割能力奠定了基礎。

LENS 框架同時在 “思考推理” 端也做出了改進,我們基于 Group Relative Policy Optimization(GRPO)方法構建了統一強化學習獎勵機制(Unified Rewards Scheme)。該獎勵機制是多維度的,同時監督以下三個層級的線索:

  1. 格式獎勵(Format Reward):確保 MLLM 的輸出(包括推理過程和定位結果)遵循預期的結構和格式一致性。
  2. 邊界框 IoU 獎勵(Box IoU Reward):衡量預測邊界框與真實邊界框之間的定位準確性。
  3. 分割掩碼 IoU 獎勵(Segment IoU Reward):評估像素級分割掩碼的質量。



通過我們提出的聯合優化(將統一的 GRPO 目標與監督分割損失相結合),LENS 能夠從獎勵驅動的推理改進和直接的分割監督中同時受益。值得一提的是,LENS 的端到端特性解決了定位錯誤(Grounding Error)向下游傳播的問題,如上圖右一右二所示,哪怕有些情況定位框是錯的,強大的上下文查詢(Context Query)也能帶領分割模型走向正確。

性能評估與分析



核心結果方面,LENS 取得了文本提示分割任務的最先進性能(SoTA):LENS 在 RefCOCO 系列的基準測試中取得了 81.2% 的平均 cIoU,達到了世界最高水平。在 GroundingSuite-Eval 這類更具挑戰性的零樣本基準測試中,LENS 展現出卓越的域外泛化能力,cIoU 達到 78.3%,超越第二優方法接近 10%。



這些成果表明,LENS 這一類基于統一強化學習獎勵驅動的 CoT 推理方法,能夠顯著提升文本提示下的分割能力。我們相信,LENS 為強化學習與視覺分割的無縫集成提供了新的思路,并有望推動更通用、更穩健的視覺 - 語言系統的研究。代碼和預訓練權重已開源(https://github.com/hustvl/LENS),感興趣的朋友們歡迎研究和使用。我們也期待在 AAAI 2026 與學術界同行進行深入交流。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛宣布:加息25個基點

剛剛宣布:加息25個基點

中國基金報
2026-04-23 18:34:59
3-10慘敗!斯佳輝1戰刷新2紀錄,中國首輪4勝6負,龐俊旭生死戰!

3-10慘敗!斯佳輝1戰刷新2紀錄,中國首輪4勝6負,龐俊旭生死戰!

劉姚堯的文字城堡
2026-04-23 22:01:19
女子買12萬黃金首飾,金店為何報警?起底退費騙局

女子買12萬黃金首飾,金店為何報警?起底退費騙局

環球網資訊
2026-04-23 16:39:17
決戰時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

決戰時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
中國開始殺雞儆猴!對2大公司下達逐客令,巴拿馬反應出乎意料

中國開始殺雞儆猴!對2大公司下達逐客令,巴拿馬反應出乎意料

琨玉秋霜
2026-04-24 03:04:07
加拉塔薩雷官方:即刻起終止與土耳其足協管理層的一切關系

加拉塔薩雷官方:即刻起終止與土耳其足協管理層的一切關系

懂球帝
2026-04-23 18:35:02
被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

被轟9連鞭 23歲斯佳輝面如死灰:3-10不敵伊朗選手 3年前遭11連鞭

風過鄉
2026-04-23 21:54:22
已確認系淫穢物品!家長趕緊自查

已確認系淫穢物品!家長趕緊自查

深圳晚報
2026-04-22 22:45:45
湖人更新G3傷情:里夫斯有望復出 東契奇恢復投籃訓練繼續缺陣

湖人更新G3傷情:里夫斯有望復出 東契奇恢復投籃訓練繼續缺陣

羅說NBA
2026-04-24 05:48:32
知名歌手因搶不到五一高鐵票取消演唱會!

知名歌手因搶不到五一高鐵票取消演唱會!

深圳晚報
2026-04-23 19:29:44
傅聰正告以色列:違反國際法的行為,立即停止!

傅聰正告以色列:違反國際法的行為,立即停止!

看看新聞Knews
2026-04-23 10:32:04
繼人民日報發聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

繼人民日報發聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

離離言幾許
2026-04-23 20:04:00
扇人耳光的保安社會性死亡!“底褲”被扒,正臉流出,還有黑歷史

扇人耳光的保安社會性死亡!“底褲”被扒,正臉流出,還有黑歷史

八斗小先生
2026-04-23 20:18:26
特斯拉將迎來重磅更新,太猛了!

特斯拉將迎來重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
已確定!廣東臺將停播一個電視頻道!

已確定!廣東臺將停播一個電視頻道!

知肇分子
2026-04-24 03:54:09
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財聯社
2026-04-23 11:20:05
“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

三湘都市報
2026-04-23 17:18:29
1933年,希特勒接待了騎自行車的中國青年潘德明,看完他的冊子后說了句話,讓德國軍官們面面相覷

1933年,希特勒接待了騎自行車的中國青年潘德明,看完他的冊子后說了句話,讓德國軍官們面面相覷

起飛做故事
2026-04-22 19:20:14
廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

閱微札記
2026-04-23 11:35:46
全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

小談食刻美食
2026-04-23 07:54:50
2026-04-24 06:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12839文章數 142635關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普:不急于結束與伊朗戰爭 可伊朗沒時間了

頭條要聞

特朗普:不急于結束與伊朗戰爭 可伊朗沒時間了

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

數碼
房產
本地
健康
手機

數碼要聞

電腦徹底裝不起了!CPU漲價20%起步:9700X漲幅逼近60%

房產要聞

三亞安居房,突然官宣!

本地新聞

SAGA GIRLS 2026女團選秀

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

無障礙瀏覽 進入關懷版