无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力?

0
分享至



在邁向通用人工智能的道路上,我們一直在思考一個問題:現有的 Image Editing Agent,真的「懂」修圖嗎?

大多數基于 LLM/VLM 的智能體,本質上更像是一個「盲目的指揮官」。它們能流利地寫出修圖代碼或調用 API,但在按下回車鍵之前,它們看不見畫布上的變化,也無法像人類設計師那樣,盯著屏幕皺眉說:「這張對比度拉太高了,得往回收到一點。」這種感知與決策的割裂,直接導致了「指令幻覺」,或者說模型在進行盲目的「腦補」。由于缺乏視覺反饋,模型往往憑空想象下一步操作,導致結果與用戶的初衷南轅北轍。

此外,在傳統強化學習中經常依賴于靜態的獎勵模型。隨著模型的不斷訓練,它很容易學會如何「討好」這個固定的打分器,導致Reward Hacking——即分數很高,但審美并沒有真正提升。

為了打破這一僵局,JarvisEvo應運而生。它不僅僅是一個連接 Adobe Lightroom 的自動化工具使用者,更是一次大膽的探索:探索 Agent 如何通過「內省」,真正實現自我進化。



  • 論文標題:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 論文地址:https://www.arxiv.org/pdf/2511.23002
  • 項目主頁:https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者團隊來自騰訊混元和廈門大學:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding?, Chunyu Wang?, Qinglin Lu?

核心范式轉移:

從「執行者」到「思考者」



JarvisEvo 的核心哲學在于模仿人類專家的慢思考模式。一個資深修圖師的工作流永遠是閉環的:觀察原圖 -> 構思 -> 嘗試調整 -> 觀察結果 -> 評估/反思 -> 再調整。我們將這一直覺轉化為三大技術支柱:

iMCoT:讓思維鏈「長出眼睛」

傳統的思維鏈 (CoT) 是純文本的獨角戲。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought),將視覺反饋強行插入推理循環。

  • 打破黑盒:每執行一步工具(例如調整色溫),系統立刻生成中間渲染圖。
  • 動態規劃:模型不再是一次性生成所有步驟,而是基于當前的視覺狀態來決定下一步。它能「看到」上一具體操作帶來的過曝或偏色,并即時修正。



SEPO:左手畫圖,右手打分

這是 JarvisEvo 最「性感」的設計。既然外部獎勵模型容易被 Hack,那為什么不讓 Agent 自己訓練自己的審美?我們提出了SEPO (Synergistic Editor-Evaluator Policy Optimization),讓模型在訓練中分飾兩角:

  • 編輯者 (Editor):負責干活,目標是修出好圖。
  • 評估者 (Evaluator):負責挑刺,目標是精準打分。

這就形成了一種類似 GAN 但更復雜的協同進化:編輯者為了拿高分,必須提升修圖質量;評估者為了不被人類專家「打臉」,必須提升鑒賞能力。為了防止模型「作弊」(即模型發現只要生成「100 分」的文本就能降低 Loss),我們設計了SLM (Selective Loss Masking)機制。這相當于老師在改卷時,遮住了學生自己寫的「我給自己打滿分」那一行,迫使學生只能靠前面的解題過程(推理和工具使用)來真正贏得高分。

On-Policy Reflection:從錯誤中提煉智慧

JarvisEvo 的第三個殺手锏是它的反思機制。

在 Stage 2 的訓練中,我們構建了一個自動化流水線:當模型偶然修出了一張好圖(高分軌跡),而之前某次嘗試失敗了(低分軌跡),系統會立刻捕捉這組對比。

通過引入「導師模型」(如 Gemini/GPT-4),我們讓系統分析:「剛才那次為什么失敗?是因為白平衡參數太激進了嗎?」

這種生成的反思數據 (Reflection Data)被用于第三階段的微調。最終,JarvisEvo 習得的不僅是「如何修圖」,更是「當修壞了時如何自救」。



硬核工程:ArtEdit 數據集與訓練流水線

為了支撐這套邏輯,我們沒有使用通用的微調數據,而是從零構建了 ArtEdit:

  • 170K 專業樣本:覆蓋從風光到人像的 10 大類攝影場景。
  • 全工具鏈覆蓋:完美映射 Adobe Lightroom 的 200+ 個參數。
  • 雙視角數據:既有修圖軌跡 (ArtEdit-Lr),也有人類專家的審美評分 (ArtEdit-Eval)。

我們的訓練并非一蹴而就,而是采用了類似人類學習的三階段課程 (Curriculum Learning):

  • 冷啟動 (SFT):先學會工具怎么用,語法怎么寫。
  • 協同進化 (RL/SEPO):扔掉標準答案,在自我探索中通過「左右互搏」提升上限。
  • 反思微調 (Reflection):針對易錯點進行特訓,學會自我糾錯。



實驗結果


ArtEdit-Bench 評測結果







在嚴苛的ArtEdit-Bench評測中,JarvisEvo 展現了統治力:

  • 內容保真度:相比商業模型 Nano-Banana,L1/L2 誤差降低了44.96%。這意味著它在修圖時不會破壞原圖的畫質細節。
  • 人類偏好:在盲測中,JarvisEvo 取得了49%的勝率,遠超 Nano-Banana 的28%。
  • 審美對齊:更有趣的是,作為「裁判」,JarvisEvo 對圖片質量的打分與人類專家的相關性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash。

視覺效果



在視覺效果上,JarvisEvo 專為細粒度專業調色而生。得益于其深度的意圖理解、多模態推理以及獨特的自我反思閉環,JarvisEvo 在處理復雜修圖需求時,展現出了超越當前所有商業及開源 AIGC 模型的顯著優勢。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能,雖然能調 PS,但感覺更像是 Workflow 的搭建,缺乏垂直數據的 Training。在我們的 Benchmark 上,論指令遵循和修圖審美,目前的 JarvisEvo 表現明顯還是要更好很多。

結語:

不僅是修圖

JarvisEvo 的意義遠超圖像編輯本身。 它驗證了一種「Actor-Critic 協同進化」的通用范式。這種讓模型在內部建立「自我批評家」,并通過多模態反饋不斷修正行動路徑的方法,完全可以復用到復雜代碼生成、數學推理、機器人控制等需要長程規劃的領域。

我們正在見證 Agent 從「聽話的執行者」向「會反思的創作者」的驚險一躍。而 JarvisEvo,剛剛邁出了這一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“我爸十幾年沒換過微信頭像,這是我小學二年級畫完送他的”

“我爸十幾年沒換過微信頭像,這是我小學二年級畫完送他的”

環球網資訊
2026-05-27 17:51:27
爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
洗浴中心怎么沒人了?2個原因讓顧客不再敢去,你還會去嗎

洗浴中心怎么沒人了?2個原因讓顧客不再敢去,你還會去嗎

巢客HOME
2026-05-13 05:35:03
MiniMax啟動A股IPO,37歲創始人現身國新辦發布會

MiniMax啟動A股IPO,37歲創始人現身國新辦發布會

21世紀經濟報道
2026-05-30 09:13:34
Anthropic七子一夜殺進全球富豪榜!每人身家80億,承諾捐出80%財富

Anthropic七子一夜殺進全球富豪榜!每人身家80億,承諾捐出80%財富

新智元
2026-05-30 11:45:54
48歲小唐納德·特朗普二婚秘娶39歲名媛,婚禮視頻曝光,缺了總統老爸卻甜到骨子里

48歲小唐納德·特朗普二婚秘娶39歲名媛,婚禮視頻曝光,缺了總統老爸卻甜到骨子里

生活觀察員啊
2026-05-31 00:03:05
53.8萬人!香港這個群體正在消失,港府卻因此得獎了…

53.8萬人!香港這個群體正在消失,港府卻因此得獎了…

瓜哥的動物日記
2026-05-31 00:42:35
討論對華新限制措施,內部多國持謹慎態度,歐盟這次會議暴露深層次焦慮

討論對華新限制措施,內部多國持謹慎態度,歐盟這次會議暴露深層次焦慮

環球網資訊
2026-05-30 06:40:11
法媒:印度的軟肋,暴露了

法媒:印度的軟肋,暴露了

參考消息
2026-05-30 10:00:19
哪個瞬間讓你覺得沒文化真耽誤事兒?網友:浸淫,好幾個出來質疑

哪個瞬間讓你覺得沒文化真耽誤事兒?網友:浸淫,好幾個出來質疑

夜深愛雜談
2026-05-30 08:27:28
隨著茹薩一劍封喉+1-0擊敗老牌勁旅,成都蓉城終結2連敗+繼續領跑

隨著茹薩一劍封喉+1-0擊敗老牌勁旅,成都蓉城終結2連敗+繼續領跑

側身凌空斬
2026-05-30 21:32:16
騎士總裁:哈登的加盟提振了球隊士氣 沒有他我們打不到分區決賽

騎士總裁:哈登的加盟提振了球隊士氣 沒有他我們打不到分區決賽

北青網-北京青年報
2026-05-30 13:30:09
中國貿促會:堅決反對歐盟推進《網絡安全法》

中國貿促會:堅決反對歐盟推進《網絡安全法》

新京報
2026-05-29 23:41:40
太快了 曝43歲少帥將接替斯洛特:拒絕AC米蘭 一直在等利物浦電話

太快了 曝43歲少帥將接替斯洛特:拒絕AC米蘭 一直在等利物浦電話

風過鄉
2026-05-30 20:18:55
北宋的包拯包青天,他的官職到底有多大?相當于今天的什么級別?

北宋的包拯包青天,他的官職到底有多大?相當于今天的什么級別?

芳芳歷史燴
2026-05-30 20:54:20
如何看待說露營是偽精致?評論區一針見血,網友:成人版的過家家

如何看待說露營是偽精致?評論區一針見血,網友:成人版的過家家

夜深愛雜談
2026-05-27 07:53:11
袁立不再隱忍,公開與陳建斌的真實關系,原來我們都被騙了?

袁立不再隱忍,公開與陳建斌的真實關系,原來我們都被騙了?

八斗小先生
2026-05-28 18:57:10
退休最好方式不是閑逛、打牌,而是在60~65歲這五年,規劃好這4點

退休最好方式不是閑逛、打牌,而是在60~65歲這五年,規劃好這4點

小鹿姐姐情感說
2026-05-26 12:01:26
臺灣一食品廠包裝用簡體字被出征,議員:搞大罷免的那些人又回來了?

臺灣一食品廠包裝用簡體字被出征,議員:搞大罷免的那些人又回來了?

海峽導報社
2026-05-29 21:34:03
歐冠決戰獎金驚人:冠軍獨攬2500萬,巴黎眾將有望獲百萬重獎

歐冠決戰獎金驚人:冠軍獨攬2500萬,巴黎眾將有望獲百萬重獎

星耀國際足壇
2026-05-30 21:42:12
2026-05-31 02:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

教育
手機
健康
數碼
藝術

教育要聞

只有自己成為一個更好的人才有能力服務于別人

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

嘗試干細胞療法如何避免踩坑?

數碼要聞

華擎RX 9070 XT太極十周年版曝光:黑白金配色首次亮相

藝術要聞

非洲超級地標!全球最大足球場,持續推進!

無障礙瀏覽 進入關懷版