![]()
這項(xiàng)由南京大學(xué)與阿里巴巴集團(tuán)聯(lián)合開展的研究,于2026年6月1日以預(yù)印本形式發(fā)布,論文編號為arXiv:2606.02320v1,有興趣深入了解的讀者可通過該編號查詢完整論文。
一份好的研究報(bào)告,光有文字還遠(yuǎn)遠(yuǎn)不夠
考慮這樣一個(gè)場景:你是一家公司的決策者,需要了解某個(gè)新興市場的發(fā)展趨勢。助理給你遞來一份厚厚的報(bào)告——文字寫得頭頭是道,引經(jīng)據(jù)典,每一個(gè)數(shù)據(jù)點(diǎn)都有來源。但整份報(bào)告里,要么沒有圖表,要么有幾張圖卻和正文內(nèi)容風(fēng)馬牛不相及,甚至有些數(shù)字對不上。你會信任這份報(bào)告嗎?
這正是當(dāng)前人工智能"深度研究"系統(tǒng)所面臨的核心困境。所謂深度研究系統(tǒng),就是那些能夠自動(dòng)瀏覽網(wǎng)絡(luò)、收集信息、并最終寫出一份完整研究報(bào)告的AI助手——比如各大科技公司推出的"Deep Research"功能。這類系統(tǒng)近年來發(fā)展迅猛,在撰寫長篇文字報(bào)告方面已經(jīng)頗有建樹,但它們有一個(gè)共同的軟肋:對于視覺內(nèi)容的處理,往往流于表面甚至完全缺失。
研究團(tuán)隊(duì)將這一現(xiàn)象描述為"裝飾性視覺"與"證據(jù)性視覺"之間的根本差異。前者是把圖片當(dāng)作報(bào)告的美化點(diǎn)綴,插進(jìn)去好看;后者才是真正意義上把圖表作為論據(jù),讓每一張圖都在支撐某個(gè)具體的分析結(jié)論。目前大多數(shù)AI系統(tǒng)做的是前者,而真實(shí)的專業(yè)報(bào)告需要的是后者。
這項(xiàng)研究的意義在于,它不僅指出了這個(gè)問題,還從頭到尾構(gòu)建了一套解決方案——包括一個(gè)專門用來測試"圖文混排報(bào)告生成能力"的評測基準(zhǔn),一個(gè)專門設(shè)計(jì)來處理這類任務(wù)的多智能體框架,以及一套評分體系。整個(gè)體系被命名為TVIR,取自"Text-Visual Interleaved Report Generation"(文本與視覺交織的報(bào)告生成)的首字母。
二、先立規(guī)矩:TVIR-BENCH是如何"出題"的
要評測AI系統(tǒng)的能力,首先得有一套公平、合理的考題。TVIR-BENCH就是這套考題,它包含100道精心設(shè)計(jì)的多模態(tài)深度研究任務(wù),覆蓋十個(gè)不同領(lǐng)域——從科技與智能、金融與商業(yè)、健康與醫(yī)學(xué),到歷史與社會、文學(xué)與藝術(shù)、旅游與娛樂,可謂包羅萬象。
這100道題的設(shè)計(jì)遵循了五條核心原則,理解這些原則,才能明白為什么這套基準(zhǔn)比以前的同類測試更"接地氣"。
第一條原則叫做"角色驅(qū)動(dòng)"。每道題都有一個(gè)具體的身份設(shè)定:不是泛泛的"某人想了解某話題",而是"某家生物制藥公司的研發(fā)主管需要評估一個(gè)新療法的臨床和商業(yè)前景"。這樣的設(shè)定確保任務(wù)有真實(shí)的使用場景,而不是空洞的學(xué)術(shù)問答。
第二條原則叫做"需求導(dǎo)向"。題目里會明確列出需要回答哪些具體問題,避免那種"請談?wù)勀銓I的看法"式的開放題。每個(gè)子問題都要有明確的信息目標(biāo)。
第三條原則叫做"深度研究"。題目不能用簡單的信息檢索來搞定,必須要求模型從多個(gè)來源綜合證據(jù)、進(jìn)行因果推理、比較不同觀點(diǎn),最后給出結(jié)論或建議。
第四條原則叫做"前沿聚焦"。題目要關(guān)注近兩三年內(nèi)出現(xiàn)的新發(fā)展、新挑戰(zhàn),鼓勵(lì)模型去使用最新的數(shù)據(jù)和資料,而不是依賴陳舊的背景知識。
第五條原則,也是最關(guān)鍵的一條,叫做"多模態(tài)整合"。每道題都明確要求生成視覺內(nèi)容,而且這些內(nèi)容必須真正服務(wù)于分析目標(biāo)。有趣的是,題目通常不會直接說"請檢索一張圖片"或"請生成一個(gè)圖表",而是用更自然的方式嵌入這些需求,比如"請繪制一個(gè)雷達(dá)圖來比較這幾個(gè)方案"或"請附上這個(gè)系統(tǒng)的架構(gòu)圖"——前者暗示需要生成圖表,后者暗示需要檢索圖片。
100道題按難度分為三檔:低難度(約130個(gè)英文單詞,1至3個(gè)多模態(tài)需求)、中難度(約260個(gè)英文單詞,2至4個(gè)多模態(tài)需求)、高難度(約390個(gè)英文單詞,3至5個(gè)多模態(tài)需求)。其中50道用中文出題,50道用英文出題,語言分布均衡。
這些題目的誕生過程也頗為嚴(yán)謹(jǐn)。首先由領(lǐng)域?qū)<姨岢龊诵脑掝},保證話題的真實(shí)性和前沿性;接著用Grok-4.1-Thinking模型草擬題目;然后由三位領(lǐng)域?qū)<覍Σ莞暹M(jìn)行審核,從設(shè)計(jì)合規(guī)性、事實(shí)準(zhǔn)確性、邏輯連貫性和多模態(tài)可行性四個(gè)維度逐一把關(guān);最后,每道題還會配套一份"評估清單"——把題目拆解成一系列可以逐條核查的具體要求,方便后續(xù)評分使用。
三、怎么打分:一套同時(shí)審查文字和圖片的雙軌評估體系
有了題目,還需要一把公平的評分尺。TVIR的評估體系分為兩條軌道并行運(yùn)作:文本評估(Textual Assessment,簡稱TA)和視覺評估(Visual Assessment,簡稱VA)。這兩條軌道各包含若干細(xì)分指標(biāo),最終匯總成一個(gè)綜合得分。
文本評估軌道包含五項(xiàng)指標(biāo)。第一項(xiàng)是"引用支撐度",具體檢查報(bào)告里每一個(gè)事實(shí)陳述是否有對應(yīng)的參考來源支持——評分系統(tǒng)會把報(bào)告里引用的每條文獻(xiàn)實(shí)際抓取下來,逐一核查,給出"完全支撐"、"部分支撐"或"不支撐"三檔評分。第二項(xiàng)是"指令對齊度",對照每道題配套的評估清單,檢查報(bào)告是否完整、具體地回答了所有要求。第三項(xiàng)是"寫作質(zhì)量",從連貫性與組織結(jié)構(gòu)、清晰度與可讀性、簡潔度、以及風(fēng)格與引用格式一致性四個(gè)維度打分。第四項(xiàng)是"分析深度與廣度",評估報(bào)告是否做到了因果推理、持續(xù)分析、批判性評估、前瞻性洞察和主題覆蓋的廣度。第五項(xiàng)是"事實(shí)與邏輯一致性",專門檢測報(bào)告內(nèi)部是否存在自相矛盾的陳述。
視覺評估軌道同樣包含五項(xiàng)指標(biāo)。第一項(xiàng)是"多模態(tài)構(gòu)圖",從報(bào)告整體層面評估圖表元素的布局、數(shù)量、多樣性和豐富度是否合理。第二項(xiàng)是"圖片質(zhì)量",通過計(jì)算機(jī)視覺技術(shù)測量分辨率、長寬比、清晰度、對比度,并對重復(fù)圖片施加扣分;對于代碼生成的圖表,則用AI逐一檢查布局完整性、可讀性和簡潔性。第三項(xiàng)是"圖注質(zhì)量",評估每張圖的說明文字是否準(zhǔn)確描述了圖的內(nèi)容、提供了足夠的解讀信息、措辭是否清晰易讀。第四項(xiàng)是"圖文整合度",評估每張圖與其周圍文字的關(guān)聯(lián)程度,是否被有效融入敘述流程,是否提供了純文字無法有效傳達(dá)的信息。第五項(xiàng)是"圖表與來源一致性",專門核查代碼生成的圖表中的數(shù)據(jù)是否與其引用的原始來源一致,有無矛盾之處。
在技術(shù)實(shí)現(xiàn)層面,評估流程有一個(gè)精妙的預(yù)處理步驟:在評分之前,系統(tǒng)會先用大語言模型把報(bào)告里的參考文獻(xiàn)條目、事實(shí)-引用配對關(guān)系、以及所有圖表元素(連同圖注、圖片內(nèi)容和周圍上下文)都提取出來,結(jié)構(gòu)化存儲,再分別送入對應(yīng)的評分模塊。之所以要做這個(gè)預(yù)處理,是因?yàn)楫?dāng)前的大語言模型在處理特別長的圖文混排內(nèi)容時(shí)容易產(chǎn)生幻覺,拆分處理更為可靠。
四、解題工具:TVIR-AGENT是如何工作的
評測基準(zhǔn)有了,接下來研究團(tuán)隊(duì)還構(gòu)建了一個(gè)參考答案——一套叫做TVIR-AGENT的多智能體框架,用來實(shí)際生成這些文圖并茂的研究報(bào)告。這個(gè)框架分四個(gè)階段串聯(lián)工作,可以用一個(gè)建筑項(xiàng)目來理解整個(gè)流程。
第一階段叫做"研究驅(qū)動(dòng)的規(guī)劃"(Research-Grounded Planning),負(fù)責(zé)的是"Planner"(規(guī)劃者)這個(gè)模塊。拿到用戶的研究任務(wù)之后,規(guī)劃者不會立刻動(dòng)筆,而是先去網(wǎng)絡(luò)上搜索和瀏覽相關(guān)資料,然后把收集到的信息整理成一份結(jié)構(gòu)化的提綱。這份提綱里,每一個(gè)章節(jié)單元都不只有標(biāo)題和摘要,還明確列出了"視覺需求"——這一節(jié)需要什么樣的圖,大概是什么內(nèi)容;以及"研究筆記"——從哪個(gè)來源獲取了什么關(guān)鍵發(fā)現(xiàn),來源網(wǎng)址是什么。這些研究筆記就像建筑項(xiàng)目里的材料清單,為后續(xù)所有模塊提供了可追溯的事實(shí)基礎(chǔ)。
第二階段叫做"視覺資產(chǎn)實(shí)例化"(Visual Asset Instantiation),由兩個(gè)專門的子模塊分工合作。"圖片搜索者"(Image Searcher)負(fù)責(zé)處理那些需要從網(wǎng)絡(luò)檢索的圖片——比如模型架構(gòu)圖、歷史人物照片、地標(biāo)建筑圖片等。它會通過谷歌圖片搜索獲取候選圖片,用規(guī)則過濾掉低質(zhì)量結(jié)果,然后借助視覺問答工具核實(shí)候選圖片是否真的符合需求,最后選出最合適的一張,同時(shí)保留來源網(wǎng)址。"圖表生成器"(Chart Generator)則負(fù)責(zé)那些需要根據(jù)數(shù)據(jù)自行繪制的圖表——比如某個(gè)指標(biāo)的歷年趨勢折線圖、多個(gè)方案的雷達(dá)對比圖等。它會先搜索相關(guān)數(shù)據(jù),核驗(yàn)數(shù)據(jù)來源的真實(shí)性和不同來源之間的一致性,然后生成Python繪圖代碼,在沙箱環(huán)境里執(zhí)行,最終輸出圖表文件,同時(shí)保留數(shù)據(jù)來源網(wǎng)址。經(jīng)過這一階段,原先只是計(jì)劃中的"視覺需求",都變成了有實(shí)物、有來源的"視覺資產(chǎn)"。
第三階段叫做"上下文感知的順序?qū)懽?(Context-Aware Sequential Writing),由"Writer"(寫作者)模塊負(fù)責(zé)。它按照章節(jié)順序逐一生成報(bào)告內(nèi)容,但有一個(gè)關(guān)鍵設(shè)計(jì):每寫完一節(jié),就把該節(jié)的標(biāo)題、摘要和小節(jié)結(jié)構(gòu)更新到一個(gè)"全局上下文"里;寫下一節(jié)時(shí),寫作者會參考這個(gè)全局上下文,確保前后內(nèi)容不重復(fù)、邏輯連貫。寫作過程中,寫作者會根據(jù)圖表的描述信息決定在哪個(gè)位置插入對應(yīng)的視覺資產(chǎn),用Markdown格式將文字和圖片自然交織在一起。如果發(fā)現(xiàn)規(guī)劃者留下的研究筆記信息不夠充分,寫作者還會主動(dòng)調(diào)用搜索工具補(bǔ)充。
第四階段叫做"全局索引潤色"(Global Index Polishing),由"Polisher"(潤色者)模塊負(fù)責(zé)。在整篇報(bào)告生成完畢后,潤色者會做一次全面的"收尾整理":刪除被引用了但實(shí)際在正文中沒有出現(xiàn)引用標(biāo)記的參考文獻(xiàn);對全文的參考文獻(xiàn)按網(wǎng)址和內(nèi)容去重合并,重新統(tǒng)一編號;同樣地,對所有圖片進(jìn)行全局重新編號,并更新正文中相應(yīng)的圖片引用標(biāo)記。這一步確保了報(bào)告在引用和圖片標(biāo)注上的整潔一致,避免了編號混亂或引用懸空的問題。
五、九強(qiáng)同臺:實(shí)驗(yàn)結(jié)果說明了什么
研究團(tuán)隊(duì)用TVIR-BENCH對九個(gè)系統(tǒng)進(jìn)行了橫向比較,其中六個(gè)是商業(yè)閉源系統(tǒng),三個(gè)是用不同大語言模型驅(qū)動(dòng)的TVIR-AGENT變體。
六個(gè)商業(yè)系統(tǒng)分別是:谷歌的Gemini-3-Pro Deep Research(純文字報(bào)告系統(tǒng))、xAI的Grok-4.1-Thinking DeepSearch、Anthropic的Claude-4.5-Sonnet w/Search、Perplexity Deep Research、Genspark Deep Research,以及Manus-1.6。三個(gè)TVIR-AGENT變體分別以Qwen3-Max、GLM-4.7和Claude-4.5-Sonnet作為底層大語言模型。
總體成績上,三個(gè)TVIR-AGENT變體包攬了前三名。其中以Claude-4.5-Sonnet為底層的TVIR-AGENT綜合得分最高(74.44),其次是Qwen3-Max版(73.53)和GLM-4.7版(72.62)。在商業(yè)系統(tǒng)中,Manus-1.6表現(xiàn)最強(qiáng),綜合得分達(dá)到69.73。
細(xì)看各個(gè)維度,不同系統(tǒng)各有側(cè)重。GLM-4.7版的TVIR-AGENT在文本評估方面得分最高(71.64),顯示出較強(qiáng)的文字綜合能力;Claude-4.5-Sonnet版則在視覺評估方面以78.76的得分遙遙領(lǐng)先,在圖文對齊和跨模態(tài)一致性上優(yōu)勢明顯。值得特別說明的是,Gemini-3-Pro Deep Research因?yàn)橹簧杉兾淖謭?bào)告,視覺評估和綜合得分無從計(jì)算,這一結(jié)果本身就印證了多模態(tài)原生支持的重要性。
引用支撐度這一項(xiàng)最能體現(xiàn)各系統(tǒng)的差異。GLM-4.7版的TVIR-AGENT在這一項(xiàng)得到了68.64分,比表現(xiàn)最好的商業(yè)系統(tǒng)Claude-4.5-Sonnet w/Search高出整整21分——后者只有47.53分。這意味著TVIR-AGENT在事實(shí)陳述的來源可追溯性上,比商業(yè)對手強(qiáng)了將近一半。在圖注質(zhì)量方面,Claude-4.5-Sonnet版的TVIR-AGENT得到74.49分,比Manus-1.6高出8.35分。
研究團(tuán)隊(duì)還分析了不同任務(wù)難度對系統(tǒng)表現(xiàn)的影響,發(fā)現(xiàn)了一個(gè)有規(guī)律的現(xiàn)象:隨著任務(wù)難度增加,指令對齊度得分普遍下滑,而分析深度與廣度得分反而有所提升。這說明更復(fù)雜的任務(wù)對多模態(tài)協(xié)調(diào)和指令跟蹤提出了更高要求,系統(tǒng)難以面面俱到地滿足所有細(xì)節(jié)要求;但正是這種復(fù)雜性,似乎也激發(fā)了系統(tǒng)進(jìn)行更全面、更深入探索的傾向。
跨語言表現(xiàn)方面,所有系統(tǒng)在中文任務(wù)上的文本評估得分普遍略高于英文任務(wù),不過差距不大,系統(tǒng)排名也基本穩(wěn)定,說明TVIR-AGENT具備較強(qiáng)的跨語言泛化能力。研究團(tuán)隊(duì)特別提醒,中英文兩組題目并不是互相翻譯的版本,而是各自根據(jù)語言文化背景獨(dú)立設(shè)計(jì)的,因此應(yīng)該把它們理解為平行的基準(zhǔn)切片,而不是嚴(yán)格對等的測試對。
六、拆件測試:每個(gè)模塊的貢獻(xiàn)有多大
為了弄清楚TVIR-AGENT的哪些部分最關(guān)鍵,研究團(tuán)隊(duì)做了一組消融實(shí)驗(yàn)——就像逐一拆掉一臺機(jī)器的零件,看少了哪個(gè)零件影響最大。
實(shí)驗(yàn)以Claude-4.5-Sonnet版的TVIR-AGENT為基準(zhǔn),分別去掉三個(gè)組件:研究筆記、圖片搜索模塊和圖表生成模塊,看每次去掉一個(gè)之后整體表現(xiàn)的變化。
結(jié)論是清晰的:去掉任何一個(gè)組件都會導(dǎo)致性能下降,但影響程度差異顯著。去掉圖表生成模塊的代價(jià)最為慘重,視覺評估得分從78.62驟降至60.91,綜合得分從73.92跌至63.84——這足以說明,自主生成有數(shù)據(jù)支撐、來源可查的圖表,是整個(gè)視覺合成能力的核心。去掉圖片搜索模塊的影響也相當(dāng)明顯,各項(xiàng)指標(biāo)都有清晰的下滑。相比之下,去掉研究筆記的影響最小,但依然存在可觀測的負(fù)向效果。
七、工具使用分析:檢索和畫圖,哪個(gè)更劃算
研究團(tuán)隊(duì)還仔細(xì)分析了三個(gè)TVIR-AGENT變體在運(yùn)行過程中的工具調(diào)用模式,發(fā)現(xiàn)了一個(gè)頗有啟發(fā)性的權(quán)衡關(guān)系。
GLM-4.7版在規(guī)劃階段和圖表生成階段調(diào)用搜索和網(wǎng)頁抓取工具的次數(shù)最多,檢索信息最為充分,其"平均有效引用數(shù)"(衡量每道題中有來源支撐的陳述數(shù)量的指標(biāo))達(dá)到了最高的102.41條。然而,在有限的智能體操作預(yù)算下,過度的檢索活動(dòng)占用了大量資源,導(dǎo)致圖表實(shí)際生成率只有38.45%——雖然平均每道題計(jì)劃生成8.66張圖表,但實(shí)際只產(chǎn)出了3.33張。
Claude-4.5-Sonnet版采取了更均衡的策略,有效引用數(shù)保持在86.14的較高水平,同時(shí)圖表完成率高達(dá)94.61%,是三個(gè)變體中最高的。這個(gè)對比說明,系統(tǒng)表現(xiàn)不僅取決于底層模型的能力,還深刻受到工具調(diào)用策略的影響——如何在信息檢索和內(nèi)容生成之間分配有限的操作次數(shù),是一個(gè)需要認(rèn)真權(quán)衡的問題。
八、評估體系本身可靠嗎
一套評估體系的價(jià)值,取決于它自身的可靠性。研究團(tuán)隊(duì)為此做了多項(xiàng)驗(yàn)證。
首先是信息提取的準(zhǔn)確性驗(yàn)證。研究團(tuán)隊(duì)人工標(biāo)注了90份報(bào)告(每個(gè)系統(tǒng)10份),為參考文獻(xiàn)提取、事實(shí)-引用配對提取和圖表元素提取建立了人工標(biāo)注基準(zhǔn)。對比結(jié)果顯示,AI提取系統(tǒng)在三項(xiàng)任務(wù)上的精確率、召回率和F1分?jǐn)?shù)均接近完美,參考文獻(xiàn)提取三項(xiàng)均達(dá)100%,事實(shí)-引用配對精確率99.55%、召回率99.20%,圖表元素提取同樣達(dá)到100%。此外,在整個(gè)評測集的900份報(bào)告中,通過Serper API實(shí)際成功抓取參考來源網(wǎng)頁的成功率高達(dá)96.53%。
然后是與人類判斷的一致性驗(yàn)證。研究團(tuán)隊(duì)招募了20名具有碩士學(xué)位和相關(guān)領(lǐng)域?qū)I(yè)知識的標(biāo)注員,對8個(gè)系統(tǒng)在100道題上的報(bào)告進(jìn)行獨(dú)立評分(每份報(bào)告由3名標(biāo)注員評分),計(jì)算了自動(dòng)評分與人工評分之間的一致性。結(jié)果顯示,在系統(tǒng)排名的皮爾遜相關(guān)系數(shù)方面,文本評估維度達(dá)到99.12,視覺評估達(dá)到99.42,綜合得分達(dá)到99.73——這幾乎是完美的線性相關(guān),說明自動(dòng)評分系統(tǒng)對系統(tǒng)排名的判斷與人類專家高度一致。
最后是跨大語言模型評分者的魯棒性驗(yàn)證。研究團(tuán)隊(duì)用另一個(gè)模型Gemini-2.5-Pro作為評分者,與主體評分模型GPT-5.2的結(jié)果進(jìn)行對比,發(fā)現(xiàn)兩者在文本、視覺和綜合三個(gè)維度上的皮爾遜相關(guān)系數(shù)均超過99,排名相關(guān)性和成對比較一致性也都很高。這說明評估結(jié)論對于評分所用的具體模型不敏感,具有良好的穩(wěn)健性。
歸根結(jié)底,這項(xiàng)研究揭示了一個(gè)被長期忽視的核心矛盾:我們對AI研究助手的評價(jià)體系,長期只盯著文字,卻對圖表的質(zhì)量和可信度睜一只眼閉一只眼。TVIR的工作價(jià)值在于,它從問題定義、解決方案、到評估體系,提供了一個(gè)完整的閉環(huán)回應(yīng)。
對于普通用戶來說,這項(xiàng)研究意味著未來的AI研究工具在生成包含圖表和圖片的報(bào)告時(shí),將會有更嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)——不只是"有沒有圖",而是"圖對不對"、"圖和文章說的是不是一回事"、"數(shù)據(jù)來源追不追得上"。這些改變雖然發(fā)生在技術(shù)層面,但最終會直接影響到每一個(gè)依賴這類工具做決策的人所能獲得的信息質(zhì)量。
當(dāng)然,研究團(tuán)隊(duì)也坦承,目前所有系統(tǒng)(包括TVIR-AGENT自身)在來源可追溯性方面仍存在不小的挑戰(zhàn),這是整個(gè)領(lǐng)域共同面對的未解難題。另一個(gè)值得關(guān)注的有趣發(fā)現(xiàn)是,任務(wù)越復(fù)雜,系統(tǒng)在細(xì)節(jié)指令執(zhí)行上越容易顧此失彼,但分析視野反而會變得更開闊——這種微妙的權(quán)衡關(guān)系,或許正是未來優(yōu)化方向上最值得深挖的課題。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv論文編號2606.02320查詢完整論文,該論文的項(xiàng)目主頁地址為nju-link.github.io/TVIR。
**Q&A**
Q1:TVIR-BENCH和現(xiàn)有的深度研究基準(zhǔn)有什么區(qū)別?
A:現(xiàn)有的深度研究基準(zhǔn)大多只評估文字報(bào)告的質(zhì)量,對圖表和圖片要么完全不考察,要么只做粗粒度的評估。TVIR-BENCH的區(qū)別在于,它要求報(bào)告中的視覺內(nèi)容必須真正服務(wù)于具體的分析目標(biāo),并配套了細(xì)粒度的視覺評估指標(biāo),包括圖注質(zhì)量、圖文整合度和圖表與來源一致性,這些在其他基準(zhǔn)中基本缺失。
Q2:TVIR-AGENT生成的圖表數(shù)據(jù)是從哪里來的,會不會有錯(cuò)?
A:圖表數(shù)據(jù)由圖表生成器通過搜索和網(wǎng)頁抓取工具從公開來源檢索獲取,系統(tǒng)會對數(shù)據(jù)來源的真實(shí)性和不同來源之間的一致性進(jìn)行核驗(yàn),同時(shí)保留原始數(shù)據(jù)來源網(wǎng)址供追溯。專門設(shè)計(jì)的"圖表與來源一致性"指標(biāo)也會事后核查圖表內(nèi)容和來源之間是否存在矛盾。不過研究團(tuán)隊(duì)也承認(rèn),來源可追溯性仍是當(dāng)前所有系統(tǒng)(包括TVIR-AGENT)的共同弱點(diǎn)。
Q3:為什么GLM-4.7版TVIR-AGENT的圖表完成率只有38%,而文字質(zhì)量卻是最好的?
A:這是檢索和生成之間的資源權(quán)衡問題。GLM-4.7版在規(guī)劃和圖表生成階段調(diào)用搜索工具的次數(shù)最多,檢索到的信息非常充分,但在有限的操作預(yù)算下,過多的檢索活動(dòng)消耗了本來可以用于實(shí)際畫圖的資源,導(dǎo)致很多計(jì)劃中的圖表沒能最終生成。這說明系統(tǒng)表現(xiàn)不只取決于底層模型能力,工具調(diào)用策略的合理分配同樣至關(guān)重要。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.