網易首頁 > 網易號 > 正文申請入駐

華為技術（加拿大）團隊用結構化圖譜徹底改變AI看圖方式

2026-04-22 22:50:25　來源: 科技行者

北京舉報

分享至

這項由華為技術（加拿大）研究團隊完成的研究，以論文編號 arXiv:2604.11004v1 發表于2026年的頂級機器學習會議 ICLR 2026（國際學習表征會議）。對計算機視覺或圖像質量評估感興趣的讀者，可以通過上述編號在 arXiv 平臺查閱完整論文。

**當AI"看圖"時，它真的看懂了嗎？**

設想你是一名挑剔的攝影師，同時收到了同一場景的兩張照片。你掃一眼就能發現：左邊那張整體有點暗，但右邊那張的天空部分出現了顆粒感，而兩張照片的草地區域都還不錯。你做出這個判斷的過程，不是對整張照片籠統打個分，而是把照片拆分成一個個區域，分別去感知每塊區域的質量差異，然后匯總成一個整體印象。

然而當前的AI系統在面對同樣任務時，卻往往只能"看個大概"。它們習慣于把整張圖像當成一個不可分割的整體來評判，就像一個評委在不看菜單、不嘗每道菜的情況下，只憑飯店門口的氣氛給出一個總評分。這種"從上往下看全局"的方式，在處理復雜的圖像質量問題時，會遺漏大量細節，產生錯誤判斷。

正是為了解決這個問題，華為技術（加拿大）的研究團隊提出了一個全新的思路：與其讓AI籠統評價整張圖，不如教它像真正的專家一樣，先把圖像拆解成一個個有意義的區域，再針對每個區域進行細致的質量分析，最后通過一張結構化的"關系圖譜"把所有信息整合起來。這張圖譜，被研究團隊命名為**失真圖（Distortion Graph，簡稱 DG）**。

**一、問題的根源：AI評圖為何總是"差那么一口氣"**

在深入了解這項研究的解決方案之前，有必要先弄清楚問題究竟出在哪里。

當我們談論"圖像質量"時，實際上在談論一件相當復雜的事情。一張圖片可能在整體上看起來不錯，但放大某個角落卻發現人臉模糊；另一張圖片天空部分清晰銳利，但前景中的人物卻被過度銳化，顯得不自然。真正的質量評估，必須細化到圖像中的每一個區域，而不是用一個數字去概括整張圖的好壞。

目前市場上已經存在一些專門處理圖像質量問題的大型多模態語言模型（可以把這類模型理解為"能看圖說話的AI"）。比如 Co-Instruct、Q-Instruct、DepictQA 等，它們能夠告訴你"這張圖片整體有點模糊"或者"這張比那張清晰"。但研究團隊發現，當你給這些模型提出更具體的要求——比如"請告訴我這張圖片里每個區域的質量如何，哪個區域出了什么問題，嚴重程度如何"——它們的表現就會令人失望。

研究團隊做了一個生動的實驗，把同樣兩張圖片同時喂給當時最先進的多模態語言模型 Co-Instruct，并提供了每個區域的名稱、描述和邊界框坐標，請它回答每個區域的質量情況。結果呢？模型給出的回答根本沒有涉及區域對比，也沒有質量評分，甚至漏掉了某些區域，給出的是一段對整張圖片的籠統描述。換句話說，即使你把答題范圍畫得很清楚，這些模型依然習慣性地"看整體"，沒有能力做到"看局部"。

這背后的原因有兩個。其一，這些模型在訓練時接觸的數據基本上都是以整張圖片為單位的質量評估，從沒有被專門訓練過"逐區域分析"這件事。其二，語言模型有輸出長度的限制，當圖片包含十幾個甚至幾十個區域時，要求它逐一分析每個區域，往往會超出模型的處理能力，導致遺漏或重復。

更關鍵的問題在于，這些模型通過"監督微調"（可以理解為"刷題訓練"）的方式習得了固定的回答模板，就像一個學生死記硬背了幾套答題公式，一旦遇到沒見過的題型就不知所措。區域級別的質量分析，正是這些模型沒見過、也沒準備好的題型。

**二、新思路登場：把圖像對比變成一張"關系圖譜"**

針對上述問題，研究團隊提出的核心解決方案，是把兩張圖片之間的質量對比關系，用一種結構化的圖譜來表示——這就是失真圖（DG）的本質。

可以把失真圖理解成一份詳細的"體檢報告"。普通的圖像質量評估，就像醫院給你做了個全身掃描后只告訴你"整體健康狀況良好，有些小問題"；而失真圖，則是把身體拆成心臟、肺、肝臟等各個器官，分別告訴你每個器官的狀態如何、出了什么問題、嚴重程度是幾級，同時還對比了你去年和今年的體檢結果，明確指出哪些器官今年變好了、哪些變差了、哪些沒有變化。

具體來說，失真圖處理的是一對圖像——一張叫做"錨圖"（anchor，可以理解為參照圖），另一張叫做"目標圖"（target，即被比較的圖）。系統首先將兩張圖片各自分解成若干個區域（比如人物、天空、背景、物體等），然后對每個區域建立一個"節點"。每個節點記錄了該區域的失真類型（比如是模糊、噪點、過度壓縮還是過度銳化），失真嚴重程度（輕微、中等、嚴重或無失真），以及一個0到1之間的質量評分。

在節點之間，失真圖還建立了"邊"——也就是連線，用來表示錨圖和目標圖中對應區域的比較關系。這條連線會標注"錨圖中的這個區域比目標圖中的對應區域好"、"兩者差不多"還是"目標圖更好"，而且還會區分"稍好"和"明顯更好"這兩種程度。

研究團隊特別為失真圖設計了三條數學性質，以確保這種圖譜能夠準確、一致地描述圖像對比關系。首先是"有效性"：圖譜中的每條比較關系，必須連接來自兩張不同圖片的對應區域，不能拿同一張圖片的不同區域相互比較。其次是"有序性"：比較關系永遠是從錨圖指向目標圖，不存在反向比較，保證了方向的一致性。第三是"功能性比較"：對于每一對對應區域，有且僅有一條比較關系，不允許出現一個區域對應多個比較結論的情況。

這三條性質，就像是給這份"體檢報告"制定了嚴格的填寫規范，確保報告不會出現自相矛盾或邏輯混亂的情況。

**三、PANDA架構：讓機器學會填寫這份"體檢報告"**

有了失真圖的概念，接下來的問題是：如何讓計算機自動生成這份圖譜？為此，研究團隊設計了一個專門的神經網絡模型，取名為 PANDA（全稱 Panoptic Pairwise Distortion Graph，意為"全景配對失真圖"）。

PANDA 的工作流程，可以用一個"精密流水線"來理解。

整個流程從圖像的特征提取開始。研究團隊使用了一個名為 DINOv2 的預訓練視覺模型（可以把它理解為一個經過大量圖片訓練的"看圖專家"），將輸入的兩張圖片分別轉換為包含豐富視覺信息的特征矩陣。與此同時，一個叫做 SAM（Segment Anything Model，即"萬能分割模型"）的工具負責把圖片中的每個區域自動分割出來，生成對應的二值掩碼（也就是標記出每個區域的精確邊界）。

接下來是一個獨特的"令牌池"機制。研究團隊為每張圖片維護了一個可學習的向量集合，稱為令牌池。可以把每個令牌理解為一個"標簽貼紙"，系統會為圖片中的每個區域隨機分配一個這樣的貼紙，然后把貼紙和區域的形狀信息相結合，再與圖像的深層特征融合，從而為每個區域生成一個"個性化"的特征表示。這種設計的好處是，系統可以靈活處理不同數量的區域，不受區域數量變化的限制。

隨后，這些區域特征被送入一個"退化解碼器"。這個解碼器由多層 Transformer（一種強大的注意力機制網絡）組成，讓每個區域的特征同時"看"到對方圖片的全局特征，從而學會"我在另一張圖片中對應的區域是什么樣子的"。通過自注意力機制，解碼器先讓圖片內部的特征相互交流；通過交叉注意力機制，再讓區域特征與對方圖片的特征進行對話。這種雙向信息交換，使每個區域都能在"看過"對應區域的基礎上，做出更準確的判斷。

最后，解碼器的輸出經過全局平均池化壓縮后，被分別送入四個獨立的預測頭。第一個預測頭判斷區域比較關系（是錨圖更好、目標圖更好還是差不多），第二個預測頭識別失真類型，第三個預測頭判斷嚴重程度，第四個預測頭給出0到1之間的質量評分。前三個頭使用交叉熵損失函數（適合分類任務），第四個頭使用L1損失函數（適合數值回歸任務）。

PANDA 模型的參數量僅為0.028億，處理一對包含14個區域的圖片對只需要3.53秒，而相比之下，同類開源多模態模型（如 Q-Insight）處理同樣的任務需要274秒，參數量更是高達70億。這種"輕量級但高效"的特性，使 PANDA 在實際應用中極具吸引力。

**四、PANDASET：為這張"體檢報告"準備訓練數據**

一個好的AI系統需要大量高質量的訓練數據。為了訓練 PANDA，研究團隊構建了一個專門的數據集，命名為 PANDASET。

PANDASET 的構建過程，就像是一個大規模的"人工制造缺陷"實驗。研究團隊首先從兩個現有的公開數據集中篩選出2200張高質量圖片：其中1592張來自 PSG 數據集（一個包含場景信息和區域級全景分割的數據集），另外608張來自 Seagull-100w（一個包含真實ISP圖像退化效果的數據集）。這些圖片涵蓋了室內外各種場景，拍攝角度和光線條件各異。

接下來，研究團隊為這些圖片設計了一套完整的失真體系。他們將失真類型分為14大類，分別是：模糊、亮度增強、壓縮失真、對比度增強、對比度減弱、變暗、霧霾、噪點、過度銳化、像素化、雨滴、飽和度增強、飽和度減弱和雪花。每種失真還進一步細分為不同的子類型（比如不同類型的噪點、不同的模糊方式、不同的壓縮算法），總共形成32種子類型。加上"無失真（干凈）"這一類別，每個區域面臨的選擇共有15種。

對于每個區域，系統會以80%的概率隨機選擇一種失真來施加，以20%的概率保持該區域干凈。每種失真還有三個嚴重程度級別：輕微、中等和嚴重。對于人工合成的非天氣類失真，研究團隊參考了此前學術界的經驗；對于雨雪這類天氣失真，他們使用了真實的雨雪疊加素材；對于霧霾，他們通過調整大氣散射模型的參數來模擬不同濃度的霾。值得一提的是，對于來自 Seagull-100w 的圖片，當合成失真類別與圖片本身已有的ISP真實失真（如真實噪點或模糊）重疊時，系統會優先保留真實的ISP失真效果，確保數據的真實性。

每個區域的質量評分，通過計算失真后的區域與原始干凈區域之間的 TOPIQ（一種基于語義的全參考圖像質量評估指標）得分來確定，分值范圍在0到1之間，1代表與原圖完全一致，0代表嚴重退化。

區域之間的比較關系，通過對比兩個區域的 TOPIQ 分數差值來確定：差值小于0.1的標記為"相同"；差值在0.1到0.3之間的標記為"稍好"或"稍差"；差值大于0.3的則標記為"明顯更好"或"明顯更差"。

最終，PANDASET 包含了超過52.8萬對圖像，覆蓋訓練集（約48萬對）、驗證集（約1.2萬對）和測試集（約3.6萬對）。每張圖片平均包含18個區域，最多可達112個區域。如此規模的區域級配對失真數據集，在學術界尚屬首次。

**五、PANDABENCH：一個讓AI"現原形"的考場**

有了 PANDASET，研究團隊還從其測試集中精心設計了一個專門的評測基準，稱為 PANDABENCH。這個基準共分三個難度級別，每級隨機抽取300對圖像。

最簡單的"Easy"級別，要求兩張圖片中所有區域都被同一種失真類型影響，只是嚴重程度可能不同。就像一張照片整體偏暗（所有區域都受到"變暗"效果的影響），另一張整體有噪點（所有區域都有噪點），系統需要分析各個區域的情況并進行比較。

中等難度的"Medium"級別，其中一張圖片被同一種失真統一處理，而另一張圖片則是"混合失真"——每個區域都可能受到不同類型的失真影響。比如一張圖里，天空有霧霾，人物有噪點，背景有壓縮失真，系統需要逐區域識別不同的失真類型。

最難的"Hard"級別，兩張圖片都是混合失真模式，每個區域的失真類型和嚴重程度都可能各不相同。在這種情況下，系統不僅需要識別每個區域各自的失真，還要在兩張圖片的對應區域之間進行精準比較，難度大幅提升。

研究團隊在這個基準上對當前最先進的多模態大語言模型進行了全面測試，結果相當"觸目驚心"。

以最簡單的 Easy 級別為例，PANDA 在區域比較任務上的準確率達到了58%，而開源的蒸餾專項模型 DepictQA 只能在用 PANDASET 額外訓練后才達到49%，如果不額外訓練則根本無法完成這項任務。參數量高達270億的 Gemini 2.5 Pro（谷歌旗下最先進的商業大模型之一）只有22%的準確率，而隨機猜測的準確率是20%——也就是說，Gemini 2.5 Pro 在這項任務上的表現幾乎與瞎猜無異。

在失真類型識別上，Easy 級別中 PANDA 達到了78%的準確率，而排名第二的微調版 DepictQA+ 達到75%，商業模型 GPT-5 Mini 只有49%，GPT-4o 是46%，Gemini 2.5 Pro 是39%，而隨機猜測只有7%。可見商業大模型在這項任務上確實比隨機猜測強得多，但與專為此設計的 PANDA 相比仍有相當差距。

從 Easy 到 Hard，所有方法的性能都出現了不同程度的下滑。PANDA 展現出了最小的性能下降幅度，而部分商業大模型在 Hard 級別的嚴重程度分類任務上甚至下滑到了低于隨機猜測水平的表現——這說明在面對復雜混合失真場景時，這些模型完全"迷失方向"，只能靠"慣性"輸出一些聽起來像樣但實際上隨機的答案。

研究團隊還測試了兩個基線方法作為參照：線性探針（在 DINOv2 特征上直接套一層線性分類器）和注意力探針（在 DINOv2 特征上套一個帶交叉注意力的 Transformer 模塊）。這兩個基線的結果表明，單靠 DINOv2 的預訓練特征是遠遠不夠的，PANDA 中專門設計的退化解碼器對最終性能的提升至關重要。

**六、讓失真圖成為AI的"參謀"：鏈式思考實驗**

研究團隊還探索了一個有趣的應用方向：把 PANDA 生成的失真圖，作為"提示信息"喂給商業大語言模型 GPT-5 Mini，看看它能否借助這份結構化的"參謀意見"做出更好的判斷。

實驗方案參考了"組合鏈式思考提示"的做法——先用 PANDA 生成一份失真圖，再明確告訴 GPT-5 Mini："這是一份關于這兩張圖片各區域質量對比的參考信息，請把它當作輔助線索，如果你從圖像本身看到了與這份信息矛盾的地方，請以圖像本身為準。"

結果顯示，加入失真圖作為背景信息后，GPT-5 Mini 在 Easy 級別的區域比較準確率從31%提升到了52%，失真類型識別準確率從49%提升到了67%，嚴重程度判斷準確率從36%提升到了51%，質量評分相關性也從0.09提升到了0.52。綜合來看，引入失真圖帶來了約15%的整體性能提升。

更有說服力的是，研究團隊發現 GPT-5 Mini 并不是機械地復制失真圖的預測結果。在某些案例中，當失真圖的預測結果與圖像的真實視覺信息存在矛盾時，GPT-5 Mini 會主動糾正失真圖的錯誤判斷——比如失真圖錯誤地把錨圖某個區域標記為"干凈"，而 GPT-5 Mini 通過觀察圖像本身正確識別出了"變暗"效果。同樣，當失真圖把某個區域標記為"干凈"，但實際上該區域存在過度銳化時，GPT-5 Mini 也能通過視覺分析得出正確結論。這說明失真圖與大模型之間形成了一種真正有意義的協作關系，而非簡單的復制粘貼。

當然，當圖像中的視覺證據本身不夠明顯時，GPT-5 Mini 也會傾向于信任失真圖。比如當失真圖預測某個目標區域存在亮度增強失真，而實際上該區域是干凈的，GPT-5 Mini 有時會跟隨失真圖的錯誤判斷。這屬于預期中的行為模式，反映出失真圖作為結構化先驗信息的合理作用方式。

**七、從區域到整張圖：失真圖的泛化能力驗證**

研究團隊還專門驗證了一個重要問題：PANDA 生成的失真圖，能否自然地從區域級別的判斷聚合為整張圖片的質量排名？畢竟，區域級分析如果不能服務于整體判斷，其實際價值就會大打折扣。

為此，研究團隊在兩個公認的圖像質量評估基準數據集上進行了零樣本測試（即不對模型做任何額外訓練，直接用在 PANDASET 上訓練好的 PANDA 來評估新數據集）。第一個是 KADID-10k，包含81張參考圖像和各類失真版本；第二個是 TID2013，是另一個廣泛使用的圖像質量評估數據集，包含人工標注的平均意見分（MOS）。

實驗邏輯很簡單：對于一對圖片，PANDA 生成兩張圖的失真圖，然后用一個樸素規則來做整圖排名——如果某張圖中更多區域的質量評分更高（或者比較關系顯示更多區域更好），則認為該圖整體質量更好。

結果表明，在 KADID-10k 上，基于 PANDA 分數的排名準確率達到78.83%，基于比較關系的排名準確率達到76.90%，超過了同類開源多模態模型（如 mPLUG-Owl2 的48.5%、LLaVA-1.6 的57%、Q-Instruct 的55%）。在 TID2013 上，PANDA 同樣以78.4%（基于比較關系）和77.8%（基于分數）的準確率大幅領先其他方法。這有力地證明了，區域級的失真圖確實可以自然地"聚合"成可靠的整圖質量排名，與人類的主觀感知具有高度一致性。

**八、設計細節與超參數敏感性分析**

在模型設計層面，研究團隊進行了一系列消融實驗，驗證各個設計選擇的必要性與合理性。

首先是特征提取器的選擇。默認配置使用 DINOv2（小型版本，ViT-s，384維特征），研究團隊還測試了 DINOv2（基礎版本，ViT-b，768維特征）和 SigLIP（768維）的效果。實驗結果顯示，三種配置的性能差異不大，但 DINOv2（ViT-s）在性能與計算效率之間取得了最佳平衡。

其次是 Transformer 解碼器層數。默認采用4層，研究團隊還測試了2層和6層的版本。結果顯示，4層是一個甜蜜點——既足夠深以捕捉復雜的跨圖像區域對應關系，又不會因層數過多而導致過擬合或訓練困難。

在訓練超參數方面，研究團隊對損失函數中四項任務的權重系數進行了網格搜索，最終確定的配置為：區域比較關系損失權重0.1、失真類型識別損失權重1.0、嚴重程度分類損失權重0.1、質量評分回歸損失權重1.0。研究結果表明，模型對超參數選擇并不特別敏感——在大多數合理的參數組合下，模型表現保持相對穩定，只有極端配置才會導致明顯性能下降。

PANDA 使用8塊 NVIDIA V100 32GB 顯卡訓練，批次大小為6，總訓練時間約1.5天，使用 AdamW 優化器，學習率1e-4，權重衰減0.01，共訓練30輪。

**九、這項研究的位置與貢獻**

在此前的相關研究中，確實存在不少圖像質量評估或區域級理解的工作，但它們各有局限。Q-Bench 等工作側重于單張圖像的整體質量分析；DQ495K、MICBench 等工作雖然涉及圖像對比，但不是以區域為核心出發點；Seagull、QGround、Grounding-IQA 等工作雖然涉及區域級分析，但只針對單張圖像，不支持兩張圖片之間的區域級比較。

研究團隊在論文中匯總了一張比較表，清楚地展示了 PANDABENCH 是目前唯一一個同時滿足以下全部條件的基準：以區域為核心出發點、具有比較性質（兩張圖片之間）、支持多樣化失真類型、包含嚴重程度級別、提供質量評分。任何現有的基準都無法同時滿足這五個條件。

這一定位意味著，這項研究填補了一個明顯的學術空白，并為后續研究提供了一個清晰的評估框架。

**十、失真圖的更廣泛應用前景**

研究團隊在論文的附錄部分，還專門討論了失真圖作為通用比較形式化框架的潛力。失真圖的核心思想——把兩個比較對象分解成對應的部分，為每個部分建立節點、描述屬性、標注比較關系——并不局限于圖像質量評估這一個場景。

在視頻分析領域，可以用類似的框架來描述兩段視頻中人物動作的區域級差異，用于視頻動作對比任務。在醫學圖像領域，可以把兩次CT掃描的不同區域（肺、心臟、肝臟等）進行結構化對比，輔助醫生發現細微變化。在圖像信號處理器（ISP）基準測試領域，可以系統性地比較不同ISP算法在各個圖像區域的處理質量。在視頻壓縮和流媒體傳輸領域，可以根據區域重要性和質量評分，智能地篩選冗余幀，提高存儲和傳輸效率。在假圖檢測領域，區域級的比較關系可以幫助定位圖像篡改的具體位置。

這種跨場景的通用性，說明失真圖不僅僅是一個解決特定問題的技術工具，更是一種可以推廣到多個比較性評估任務的結構化思維框架。

**十一、研究的局限與未來方向**

研究團隊對這項工作的局限性保持了坦誠的態度。

第一個局限是 PANDA 作為基線模型的簡潔性。它有意保持了架構的簡單，留有很大的改進空間，特別是在處理視覺細節復雜的區域時。更強大的視覺特征提取器、更復雜的跨圖像對應機制，都可能進一步提升性能。

第二個局限來自數據集的構建方式。PANDASET 中的場景是真實的，但大多數失真是人工合成的（除了來自 Seagull-100w 的真實ISP失真部分）。人工合成失真的優勢是可控性強，能夠精確地為每個區域分配質量評分和比較標簽，也能系統地覆蓋不同難度級別；但其代價是可能與真實世界中自然產生的失真存在一定的感知差距。研究團隊通過在 KADID-10k 和 TID2013 上的驗證，證明了合成失真與人類主觀感知具有合理的一致性，但更大規模的真實世界失真數據集仍是未來的重要方向。

第三個局限是比較關系標簽依賴于 TOPIQ 這一特定的圖像質量評估模型，可能會繼承該模型的感知偏好。構建由人工標注的區域級比較標簽數據集，將是一項巨大但有價值的工程。

研究團隊還提出了一個有趣的未來方向：把失真圖作為推理鏈的中間步驟，讓模型先生成失真圖，再基于失真圖給出最終的自然語言描述。這種"先結構化、再語言化"的路徑，可能比直接讓語言模型輸出區域級分析更加可靠和可控。

**歸根結底，這項研究說明了什么？**

這項由華為技術（加拿大）團隊完成、發表于 ICLR 2026 的研究，用一種非常樸素的邏輯回應了一個長期被忽視的問題：AI評價圖片質量時，不應該只看整體，因為整體感知是由局部細節決定的，而不是反過來。

通過引入失真圖這一結構化表示方式，研究團隊不僅為區域級圖像質量評估提供了一套完整的形式化框架，還構建了迄今為止最大規模的區域級配對失真數據集，并設計了一個輕量高效的模型來學習這種圖譜結構。更重要的是，他們通過大規模實驗揭示了當前最先進的多模態大語言模型在區域級質量理解上的系統性短板——即使是 Gemini 2.5 Pro 這樣的頂尖商業模型，在這類任務上的表現也接近隨機猜測的水平。

這對普通用戶意味著什么？下次你的照片編輯軟件告訴你"這張照片質量比另一張好"時，你可以期待的是：未來版本的軟件不會只給你一個籠統的打分，而是會告訴你"你照片里的人臉區域有些過度銳化，但背景的清晰度比對比照片好很多，天空部分兩者差不多"——這才是真正有用的質量反饋。

有興趣深入了解技術細節的讀者，可以通過 arXiv 編號 **2604.11004** 查閱完整論文，或訪問項目主頁 aismartperception.github.io/distortion-graph/ 獲取更多信息。

Q&A

Q1：失真圖（Distortion Graph）和普通的圖像質量評分有什么區別？

A：普通圖像質量評分只給整張圖打一個數字，比如"7分"，無法告訴你具體哪里有問題。失真圖把圖片拆成多個區域（如人物、天空、背景），為每個區域分別記錄失真類型、嚴重程度和質量評分，還能對比兩張圖片中每個對應區域的優劣。這就像從"這道菜整體還行"變成了"這道菜的湯底很好，但肉有點老，配菜火候不夠"的專業點評。

Q2：PANDA模型和GPT-4o這類大模型相比有什么優勢？

A：PANDA的參數量只有0.028億，處理一對圖片僅需3.53秒；而GPT-4o等大模型參數量達數百億甚至更多，且在區域級質量比較任務上準確率僅26%，接近隨機猜測的20%。PANDA在同類任務上準確率達58%，同時計算成本極低。當然，PANDA只專注于生成結構化的失真圖，不具備大模型的通用對話能力。

Q3：PANDABENCH的Easy、Medium、Hard三個難度級別有什么具體區別？

A：Easy級別中，每對圖片的所有區域都受同一種失真類型影響，只是嚴重程度不同，相對容易識別。Medium級別中，一張圖是單一失真，另一張每個區域的失真類型各不相同，識別難度增加。Hard級別中，兩張圖的每個區域都可能有不同的失真類型和嚴重程度，需要逐區域精細分析，是最具挑戰性的場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.