南京大學(xué)與阿里聯(lián)手破解"配圖難題"：當(dāng)AI研究報(bào)告學(xué)會看懂圖片

2026-06-08 16:48:52　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由南京大學(xué)與阿里巴巴集團(tuán)聯(lián)合開展的研究，于2026年6月1日以預(yù)印本形式發(fā)布，論文編號為arXiv:2606.02320v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

一份好的研究報(bào)告，光有文字還遠(yuǎn)遠(yuǎn)不夠

考慮這樣一個(gè)場景：你是一家公司的決策者，需要了解某個(gè)新興市場的發(fā)展趨勢。助理給你遞來一份厚厚的報(bào)告——文字寫得頭頭是道，引經(jīng)據(jù)典，每一個(gè)數(shù)據(jù)點(diǎn)都有來源。但整份報(bào)告里，要么沒有圖表，要么有幾張圖卻和正文內(nèi)容風(fēng)馬牛不相及，甚至有些數(shù)字對不上。你會信任這份報(bào)告嗎？

這正是當(dāng)前人工智能"深度研究"系統(tǒng)所面臨的核心困境。所謂深度研究系統(tǒng)，就是那些能夠自動(dòng)瀏覽網(wǎng)絡(luò)、收集信息、并最終寫出一份完整研究報(bào)告的AI助手——比如各大科技公司推出的"Deep Research"功能。這類系統(tǒng)近年來發(fā)展迅猛，在撰寫長篇文字報(bào)告方面已經(jīng)頗有建樹，但它們有一個(gè)共同的軟肋：對于視覺內(nèi)容的處理，往往流于表面甚至完全缺失。

研究團(tuán)隊(duì)將這一現(xiàn)象描述為"裝飾性視覺"與"證據(jù)性視覺"之間的根本差異。前者是把圖片當(dāng)作報(bào)告的美化點(diǎn)綴，插進(jìn)去好看；后者才是真正意義上把圖表作為論據(jù)，讓每一張圖都在支撐某個(gè)具體的分析結(jié)論。目前大多數(shù)AI系統(tǒng)做的是前者，而真實(shí)的專業(yè)報(bào)告需要的是后者。

這項(xiàng)研究的意義在于，它不僅指出了這個(gè)問題，還從頭到尾構(gòu)建了一套解決方案——包括一個(gè)專門用來測試"圖文混排報(bào)告生成能力"的評測基準(zhǔn)，一個(gè)專門設(shè)計(jì)來處理這類任務(wù)的多智能體框架，以及一套評分體系。整個(gè)體系被命名為TVIR，取自"Text-Visual Interleaved Report Generation"（文本與視覺交織的報(bào)告生成）的首字母。

二、先立規(guī)矩：TVIR-BENCH是如何"出題"的

要評測AI系統(tǒng)的能力，首先得有一套公平、合理的考題。TVIR-BENCH就是這套考題，它包含100道精心設(shè)計(jì)的多模態(tài)深度研究任務(wù)，覆蓋十個(gè)不同領(lǐng)域——從科技與智能、金融與商業(yè)、健康與醫(yī)學(xué)，到歷史與社會、文學(xué)與藝術(shù)、旅游與娛樂，可謂包羅萬象。

這100道題的設(shè)計(jì)遵循了五條核心原則，理解這些原則，才能明白為什么這套基準(zhǔn)比以前的同類測試更"接地氣"。

第一條原則叫做"角色驅(qū)動(dòng)"。每道題都有一個(gè)具體的身份設(shè)定：不是泛泛的"某人想了解某話題"，而是"某家生物制藥公司的研發(fā)主管需要評估一個(gè)新療法的臨床和商業(yè)前景"。這樣的設(shè)定確保任務(wù)有真實(shí)的使用場景，而不是空洞的學(xué)術(shù)問答。

第二條原則叫做"需求導(dǎo)向"。題目里會明確列出需要回答哪些具體問題，避免那種"請談?wù)勀銓I的看法"式的開放題。每個(gè)子問題都要有明確的信息目標(biāo)。

第三條原則叫做"深度研究"。題目不能用簡單的信息檢索來搞定，必須要求模型從多個(gè)來源綜合證據(jù)、進(jìn)行因果推理、比較不同觀點(diǎn)，最后給出結(jié)論或建議。

第四條原則叫做"前沿聚焦"。題目要關(guān)注近兩三年內(nèi)出現(xiàn)的新發(fā)展、新挑戰(zhàn)，鼓勵(lì)模型去使用最新的數(shù)據(jù)和資料，而不是依賴陳舊的背景知識。

第五條原則，也是最關(guān)鍵的一條，叫做"多模態(tài)整合"。每道題都明確要求生成視覺內(nèi)容，而且這些內(nèi)容必須真正服務(wù)于分析目標(biāo)。有趣的是，題目通常不會直接說"請檢索一張圖片"或"請生成一個(gè)圖表"，而是用更自然的方式嵌入這些需求，比如"請繪制一個(gè)雷達(dá)圖來比較這幾個(gè)方案"或"請附上這個(gè)系統(tǒng)的架構(gòu)圖"——前者暗示需要生成圖表，后者暗示需要檢索圖片。

100道題按難度分為三檔：低難度（約130個(gè)英文單詞，1至3個(gè)多模態(tài)需求）、中難度（約260個(gè)英文單詞，2至4個(gè)多模態(tài)需求）、高難度（約390個(gè)英文單詞，3至5個(gè)多模態(tài)需求）。其中50道用中文出題，50道用英文出題，語言分布均衡。

這些題目的誕生過程也頗為嚴(yán)謹(jǐn)。首先由領(lǐng)域?qū)＜姨岢龊诵脑掝}，保證話題的真實(shí)性和前沿性；接著用Grok-4.1-Thinking模型草擬題目；然后由三位領(lǐng)域?qū)＜覍Σ莞暹M(jìn)行審核，從設(shè)計(jì)合規(guī)性、事實(shí)準(zhǔn)確性、邏輯連貫性和多模態(tài)可行性四個(gè)維度逐一把關(guān)；最后，每道題還會配套一份"評估清單"——把題目拆解成一系列可以逐條核查的具體要求，方便后續(xù)評分使用。

三、怎么打分：一套同時(shí)審查文字和圖片的雙軌評估體系

有了題目，還需要一把公平的評分尺。TVIR的評估體系分為兩條軌道并行運(yùn)作：文本評估（Textual Assessment，簡稱TA）和視覺評估（Visual Assessment，簡稱VA）。這兩條軌道各包含若干細(xì)分指標(biāo)，最終匯總成一個(gè)綜合得分。

文本評估軌道包含五項(xiàng)指標(biāo)。第一項(xiàng)是"引用支撐度"，具體檢查報(bào)告里每一個(gè)事實(shí)陳述是否有對應(yīng)的參考來源支持——評分系統(tǒng)會把報(bào)告里引用的每條文獻(xiàn)實(shí)際抓取下來，逐一核查，給出"完全支撐"、"部分支撐"或"不支撐"三檔評分。第二項(xiàng)是"指令對齊度"，對照每道題配套的評估清單，檢查報(bào)告是否完整、具體地回答了所有要求。第三項(xiàng)是"寫作質(zhì)量"，從連貫性與組織結(jié)構(gòu)、清晰度與可讀性、簡潔度、以及風(fēng)格與引用格式一致性四個(gè)維度打分。第四項(xiàng)是"分析深度與廣度"，評估報(bào)告是否做到了因果推理、持續(xù)分析、批判性評估、前瞻性洞察和主題覆蓋的廣度。第五項(xiàng)是"事實(shí)與邏輯一致性"，專門檢測報(bào)告內(nèi)部是否存在自相矛盾的陳述。

視覺評估軌道同樣包含五項(xiàng)指標(biāo)。第一項(xiàng)是"多模態(tài)構(gòu)圖"，從報(bào)告整體層面評估圖表元素的布局、數(shù)量、多樣性和豐富度是否合理。第二項(xiàng)是"圖片質(zhì)量"，通過計(jì)算機(jī)視覺技術(shù)測量分辨率、長寬比、清晰度、對比度，并對重復(fù)圖片施加扣分；對于代碼生成的圖表，則用AI逐一檢查布局完整性、可讀性和簡潔性。第三項(xiàng)是"圖注質(zhì)量"，評估每張圖的說明文字是否準(zhǔn)確描述了圖的內(nèi)容、提供了足夠的解讀信息、措辭是否清晰易讀。第四項(xiàng)是"圖文整合度"，評估每張圖與其周圍文字的關(guān)聯(lián)程度，是否被有效融入敘述流程，是否提供了純文字無法有效傳達(dá)的信息。第五項(xiàng)是"圖表與來源一致性"，專門核查代碼生成的圖表中的數(shù)據(jù)是否與其引用的原始來源一致，有無矛盾之處。

在技術(shù)實(shí)現(xiàn)層面，評估流程有一個(gè)精妙的預(yù)處理步驟：在評分之前，系統(tǒng)會先用大語言模型把報(bào)告里的參考文獻(xiàn)條目、事實(shí)-引用配對關(guān)系、以及所有圖表元素（連同圖注、圖片內(nèi)容和周圍上下文）都提取出來，結(jié)構(gòu)化存儲，再分別送入對應(yīng)的評分模塊。之所以要做這個(gè)預(yù)處理，是因?yàn)楫?dāng)前的大語言模型在處理特別長的圖文混排內(nèi)容時(shí)容易產(chǎn)生幻覺，拆分處理更為可靠。

四、解題工具：TVIR-AGENT是如何工作的

評測基準(zhǔn)有了，接下來研究團(tuán)隊(duì)還構(gòu)建了一個(gè)參考答案——一套叫做TVIR-AGENT的多智能體框架，用來實(shí)際生成這些文圖并茂的研究報(bào)告。這個(gè)框架分四個(gè)階段串聯(lián)工作，可以用一個(gè)建筑項(xiàng)目來理解整個(gè)流程。

第一階段叫做"研究驅(qū)動(dòng)的規(guī)劃"（Research-Grounded Planning），負(fù)責(zé)的是"Planner"（規(guī)劃者）這個(gè)模塊。拿到用戶的研究任務(wù)之后，規(guī)劃者不會立刻動(dòng)筆，而是先去網(wǎng)絡(luò)上搜索和瀏覽相關(guān)資料，然后把收集到的信息整理成一份結(jié)構(gòu)化的提綱。這份提綱里，每一個(gè)章節(jié)單元都不只有標(biāo)題和摘要，還明確列出了"視覺需求"——這一節(jié)需要什么樣的圖，大概是什么內(nèi)容；以及"研究筆記"——從哪個(gè)來源獲取了什么關(guān)鍵發(fā)現(xiàn)，來源網(wǎng)址是什么。這些研究筆記就像建筑項(xiàng)目里的材料清單，為后續(xù)所有模塊提供了可追溯的事實(shí)基礎(chǔ)。

第二階段叫做"視覺資產(chǎn)實(shí)例化"（Visual Asset Instantiation），由兩個(gè)專門的子模塊分工合作。"圖片搜索者"（Image Searcher）負(fù)責(zé)處理那些需要從網(wǎng)絡(luò)檢索的圖片——比如模型架構(gòu)圖、歷史人物照片、地標(biāo)建筑圖片等。它會通過谷歌圖片搜索獲取候選圖片，用規(guī)則過濾掉低質(zhì)量結(jié)果，然后借助視覺問答工具核實(shí)候選圖片是否真的符合需求，最后選出最合適的一張，同時(shí)保留來源網(wǎng)址。"圖表生成器"（Chart Generator）則負(fù)責(zé)那些需要根據(jù)數(shù)據(jù)自行繪制的圖表——比如某個(gè)指標(biāo)的歷年趨勢折線圖、多個(gè)方案的雷達(dá)對比圖等。它會先搜索相關(guān)數(shù)據(jù)，核驗(yàn)數(shù)據(jù)來源的真實(shí)性和不同來源之間的一致性，然后生成Python繪圖代碼，在沙箱環(huán)境里執(zhí)行，最終輸出圖表文件，同時(shí)保留數(shù)據(jù)來源網(wǎng)址。經(jīng)過這一階段，原先只是計(jì)劃中的"視覺需求"，都變成了有實(shí)物、有來源的"視覺資產(chǎn)"。

第三階段叫做"上下文感知的順序?qū)懽?（Context-Aware Sequential Writing），由"Writer"（寫作者）模塊負(fù)責(zé)。它按照章節(jié)順序逐一生成報(bào)告內(nèi)容，但有一個(gè)關(guān)鍵設(shè)計(jì)：每寫完一節(jié)，就把該節(jié)的標(biāo)題、摘要和小節(jié)結(jié)構(gòu)更新到一個(gè)"全局上下文"里；寫下一節(jié)時(shí)，寫作者會參考這個(gè)全局上下文，確保前后內(nèi)容不重復(fù)、邏輯連貫。寫作過程中，寫作者會根據(jù)圖表的描述信息決定在哪個(gè)位置插入對應(yīng)的視覺資產(chǎn)，用Markdown格式將文字和圖片自然交織在一起。如果發(fā)現(xiàn)規(guī)劃者留下的研究筆記信息不夠充分，寫作者還會主動(dòng)調(diào)用搜索工具補(bǔ)充。

第四階段叫做"全局索引潤色"（Global Index Polishing），由"Polisher"（潤色者）模塊負(fù)責(zé)。在整篇報(bào)告生成完畢后，潤色者會做一次全面的"收尾整理"：刪除被引用了但實(shí)際在正文中沒有出現(xiàn)引用標(biāo)記的參考文獻(xiàn)；對全文的參考文獻(xiàn)按網(wǎng)址和內(nèi)容去重合并，重新統(tǒng)一編號；同樣地，對所有圖片進(jìn)行全局重新編號，并更新正文中相應(yīng)的圖片引用標(biāo)記。這一步確保了報(bào)告在引用和圖片標(biāo)注上的整潔一致，避免了編號混亂或引用懸空的問題。

五、九強(qiáng)同臺：實(shí)驗(yàn)結(jié)果說明了什么

研究團(tuán)隊(duì)用TVIR-BENCH對九個(gè)系統(tǒng)進(jìn)行了橫向比較，其中六個(gè)是商業(yè)閉源系統(tǒng)，三個(gè)是用不同大語言模型驅(qū)動(dòng)的TVIR-AGENT變體。

六個(gè)商業(yè)系統(tǒng)分別是：谷歌的Gemini-3-Pro Deep Research（純文字報(bào)告系統(tǒng)）、xAI的Grok-4.1-Thinking DeepSearch、Anthropic的Claude-4.5-Sonnet w/Search、Perplexity Deep Research、Genspark Deep Research，以及Manus-1.6。三個(gè)TVIR-AGENT變體分別以Qwen3-Max、GLM-4.7和Claude-4.5-Sonnet作為底層大語言模型。

總體成績上，三個(gè)TVIR-AGENT變體包攬了前三名。其中以Claude-4.5-Sonnet為底層的TVIR-AGENT綜合得分最高（74.44），其次是Qwen3-Max版（73.53）和GLM-4.7版（72.62）。在商業(yè)系統(tǒng)中，Manus-1.6表現(xiàn)最強(qiáng)，綜合得分達(dá)到69.73。

細(xì)看各個(gè)維度，不同系統(tǒng)各有側(cè)重。GLM-4.7版的TVIR-AGENT在文本評估方面得分最高（71.64），顯示出較強(qiáng)的文字綜合能力；Claude-4.5-Sonnet版則在視覺評估方面以78.76的得分遙遙領(lǐng)先，在圖文對齊和跨模態(tài)一致性上優(yōu)勢明顯。值得特別說明的是，Gemini-3-Pro Deep Research因?yàn)橹簧杉兾淖謭?bào)告，視覺評估和綜合得分無從計(jì)算，這一結(jié)果本身就印證了多模態(tài)原生支持的重要性。

引用支撐度這一項(xiàng)最能體現(xiàn)各系統(tǒng)的差異。GLM-4.7版的TVIR-AGENT在這一項(xiàng)得到了68.64分，比表現(xiàn)最好的商業(yè)系統(tǒng)Claude-4.5-Sonnet w/Search高出整整21分——后者只有47.53分。這意味著TVIR-AGENT在事實(shí)陳述的來源可追溯性上，比商業(yè)對手強(qiáng)了將近一半。在圖注質(zhì)量方面，Claude-4.5-Sonnet版的TVIR-AGENT得到74.49分，比Manus-1.6高出8.35分。

研究團(tuán)隊(duì)還分析了不同任務(wù)難度對系統(tǒng)表現(xiàn)的影響，發(fā)現(xiàn)了一個(gè)有規(guī)律的現(xiàn)象：隨著任務(wù)難度增加，指令對齊度得分普遍下滑，而分析深度與廣度得分反而有所提升。這說明更復(fù)雜的任務(wù)對多模態(tài)協(xié)調(diào)和指令跟蹤提出了更高要求，系統(tǒng)難以面面俱到地滿足所有細(xì)節(jié)要求；但正是這種復(fù)雜性，似乎也激發(fā)了系統(tǒng)進(jìn)行更全面、更深入探索的傾向。

跨語言表現(xiàn)方面，所有系統(tǒng)在中文任務(wù)上的文本評估得分普遍略高于英文任務(wù)，不過差距不大，系統(tǒng)排名也基本穩(wěn)定，說明TVIR-AGENT具備較強(qiáng)的跨語言泛化能力。研究團(tuán)隊(duì)特別提醒，中英文兩組題目并不是互相翻譯的版本，而是各自根據(jù)語言文化背景獨(dú)立設(shè)計(jì)的，因此應(yīng)該把它們理解為平行的基準(zhǔn)切片，而不是嚴(yán)格對等的測試對。

六、拆件測試：每個(gè)模塊的貢獻(xiàn)有多大

為了弄清楚TVIR-AGENT的哪些部分最關(guān)鍵，研究團(tuán)隊(duì)做了一組消融實(shí)驗(yàn)——就像逐一拆掉一臺機(jī)器的零件，看少了哪個(gè)零件影響最大。

實(shí)驗(yàn)以Claude-4.5-Sonnet版的TVIR-AGENT為基準(zhǔn)，分別去掉三個(gè)組件：研究筆記、圖片搜索模塊和圖表生成模塊，看每次去掉一個(gè)之后整體表現(xiàn)的變化。

結(jié)論是清晰的：去掉任何一個(gè)組件都會導(dǎo)致性能下降，但影響程度差異顯著。去掉圖表生成模塊的代價(jià)最為慘重，視覺評估得分從78.62驟降至60.91，綜合得分從73.92跌至63.84——這足以說明，自主生成有數(shù)據(jù)支撐、來源可查的圖表，是整個(gè)視覺合成能力的核心。去掉圖片搜索模塊的影響也相當(dāng)明顯，各項(xiàng)指標(biāo)都有清晰的下滑。相比之下，去掉研究筆記的影響最小，但依然存在可觀測的負(fù)向效果。

七、工具使用分析：檢索和畫圖，哪個(gè)更劃算

研究團(tuán)隊(duì)還仔細(xì)分析了三個(gè)TVIR-AGENT變體在運(yùn)行過程中的工具調(diào)用模式，發(fā)現(xiàn)了一個(gè)頗有啟發(fā)性的權(quán)衡關(guān)系。

GLM-4.7版在規(guī)劃階段和圖表生成階段調(diào)用搜索和網(wǎng)頁抓取工具的次數(shù)最多，檢索信息最為充分，其"平均有效引用數(shù)"（衡量每道題中有來源支撐的陳述數(shù)量的指標(biāo)）達(dá)到了最高的102.41條。然而，在有限的智能體操作預(yù)算下，過度的檢索活動(dòng)占用了大量資源，導(dǎo)致圖表實(shí)際生成率只有38.45%——雖然平均每道題計(jì)劃生成8.66張圖表，但實(shí)際只產(chǎn)出了3.33張。

Claude-4.5-Sonnet版采取了更均衡的策略，有效引用數(shù)保持在86.14的較高水平，同時(shí)圖表完成率高達(dá)94.61%，是三個(gè)變體中最高的。這個(gè)對比說明，系統(tǒng)表現(xiàn)不僅取決于底層模型的能力，還深刻受到工具調(diào)用策略的影響——如何在信息檢索和內(nèi)容生成之間分配有限的操作次數(shù)，是一個(gè)需要認(rèn)真權(quán)衡的問題。

八、評估體系本身可靠嗎

一套評估體系的價(jià)值，取決于它自身的可靠性。研究團(tuán)隊(duì)為此做了多項(xiàng)驗(yàn)證。

首先是信息提取的準(zhǔn)確性驗(yàn)證。研究團(tuán)隊(duì)人工標(biāo)注了90份報(bào)告（每個(gè)系統(tǒng)10份），為參考文獻(xiàn)提取、事實(shí)-引用配對提取和圖表元素提取建立了人工標(biāo)注基準(zhǔn)。對比結(jié)果顯示，AI提取系統(tǒng)在三項(xiàng)任務(wù)上的精確率、召回率和F1分?jǐn)?shù)均接近完美，參考文獻(xiàn)提取三項(xiàng)均達(dá)100%，事實(shí)-引用配對精確率99.55%、召回率99.20%，圖表元素提取同樣達(dá)到100%。此外，在整個(gè)評測集的900份報(bào)告中，通過Serper API實(shí)際成功抓取參考來源網(wǎng)頁的成功率高達(dá)96.53%。

然后是與人類判斷的一致性驗(yàn)證。研究團(tuán)隊(duì)招募了20名具有碩士學(xué)位和相關(guān)領(lǐng)域?qū)I(yè)知識的標(biāo)注員，對8個(gè)系統(tǒng)在100道題上的報(bào)告進(jìn)行獨(dú)立評分（每份報(bào)告由3名標(biāo)注員評分），計(jì)算了自動(dòng)評分與人工評分之間的一致性。結(jié)果顯示，在系統(tǒng)排名的皮爾遜相關(guān)系數(shù)方面，文本評估維度達(dá)到99.12，視覺評估達(dá)到99.42，綜合得分達(dá)到99.73——這幾乎是完美的線性相關(guān)，說明自動(dòng)評分系統(tǒng)對系統(tǒng)排名的判斷與人類專家高度一致。

最后是跨大語言模型評分者的魯棒性驗(yàn)證。研究團(tuán)隊(duì)用另一個(gè)模型Gemini-2.5-Pro作為評分者，與主體評分模型GPT-5.2的結(jié)果進(jìn)行對比，發(fā)現(xiàn)兩者在文本、視覺和綜合三個(gè)維度上的皮爾遜相關(guān)系數(shù)均超過99，排名相關(guān)性和成對比較一致性也都很高。這說明評估結(jié)論對于評分所用的具體模型不敏感，具有良好的穩(wěn)健性。

歸根結(jié)底，這項(xiàng)研究揭示了一個(gè)被長期忽視的核心矛盾：我們對AI研究助手的評價(jià)體系，長期只盯著文字，卻對圖表的質(zhì)量和可信度睜一只眼閉一只眼。TVIR的工作價(jià)值在于，它從問題定義、解決方案、到評估體系，提供了一個(gè)完整的閉環(huán)回應(yīng)。

對于普通用戶來說，這項(xiàng)研究意味著未來的AI研究工具在生成包含圖表和圖片的報(bào)告時(shí)，將會有更嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)——不只是"有沒有圖"，而是"圖對不對"、"圖和文章說的是不是一回事"、"數(shù)據(jù)來源追不追得上"。這些改變雖然發(fā)生在技術(shù)層面，但最終會直接影響到每一個(gè)依賴這類工具做決策的人所能獲得的信息質(zhì)量。

當(dāng)然，研究團(tuán)隊(duì)也坦承，目前所有系統(tǒng)（包括TVIR-AGENT自身）在來源可追溯性方面仍存在不小的挑戰(zhàn)，這是整個(gè)領(lǐng)域共同面對的未解難題。另一個(gè)值得關(guān)注的有趣發(fā)現(xiàn)是，任務(wù)越復(fù)雜，系統(tǒng)在細(xì)節(jié)指令執(zhí)行上越容易顧此失彼，但分析視野反而會變得更開闊——這種微妙的權(quán)衡關(guān)系，或許正是未來優(yōu)化方向上最值得深挖的課題。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv論文編號2606.02320查詢完整論文，該論文的項(xiàng)目主頁地址為nju-link.github.io/TVIR。

**Q&A**

Q1：TVIR-BENCH和現(xiàn)有的深度研究基準(zhǔn)有什么區(qū)別？

A：現(xiàn)有的深度研究基準(zhǔn)大多只評估文字報(bào)告的質(zhì)量，對圖表和圖片要么完全不考察，要么只做粗粒度的評估。TVIR-BENCH的區(qū)別在于，它要求報(bào)告中的視覺內(nèi)容必須真正服務(wù)于具體的分析目標(biāo)，并配套了細(xì)粒度的視覺評估指標(biāo)，包括圖注質(zhì)量、圖文整合度和圖表與來源一致性，這些在其他基準(zhǔn)中基本缺失。

Q2：TVIR-AGENT生成的圖表數(shù)據(jù)是從哪里來的，會不會有錯(cuò)？

A：圖表數(shù)據(jù)由圖表生成器通過搜索和網(wǎng)頁抓取工具從公開來源檢索獲取，系統(tǒng)會對數(shù)據(jù)來源的真實(shí)性和不同來源之間的一致性進(jìn)行核驗(yàn)，同時(shí)保留原始數(shù)據(jù)來源網(wǎng)址供追溯。專門設(shè)計(jì)的"圖表與來源一致性"指標(biāo)也會事后核查圖表內(nèi)容和來源之間是否存在矛盾。不過研究團(tuán)隊(duì)也承認(rèn)，來源可追溯性仍是當(dāng)前所有系統(tǒng)（包括TVIR-AGENT）的共同弱點(diǎn)。

Q3：為什么GLM-4.7版TVIR-AGENT的圖表完成率只有38%，而文字質(zhì)量卻是最好的？

A：這是檢索和生成之間的資源權(quán)衡問題。GLM-4.7版在規(guī)劃和圖表生成階段調(diào)用搜索工具的次數(shù)最多，檢索到的信息非常充分，但在有限的操作預(yù)算下，過多的檢索活動(dòng)消耗了本來可以用于實(shí)際畫圖的資源，導(dǎo)致很多計(jì)劃中的圖表沒能最終生成。這說明系統(tǒng)表現(xiàn)不只取決于底層模型能力，工具調(diào)用策略的合理分配同樣至關(guān)重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.