亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI的看圖能力,可能是編出來(lái)的

0
分享至


本文來(lái)自微信公眾號(hào):字母AI,作者:袁心玥,題圖來(lái)自:視覺中國(guó)

一個(gè)學(xué)生忽視了一行代碼,結(jié)果發(fā)現(xiàn)了一件很不對(duì)勁的事:

在一個(gè)多模態(tài)醫(yī)學(xué)AI項(xiàng)目中,這行代碼原本負(fù)責(zé)讓模型讀取圖像數(shù)據(jù)。但因?yàn)檫@次疏忽,模型實(shí)際上完全沒有看到任何圖片。

按理說(shuō)系統(tǒng)應(yīng)該報(bào)錯(cuò),或者至少拒絕回答,可它沒有。它依然正常作答,給出了完整的分析過(guò)程,甚至在圖像理解的基準(zhǔn)測(cè)試中拿到了很高的分?jǐn)?shù)。

斯坦福大學(xué)上周發(fā)布的一篇論文就這件事進(jìn)行了嚴(yán)肅驗(yàn)證,指出了這樣的一個(gè)問(wèn)題:當(dāng)前許多多模態(tài)AI,在沒有成功讀取圖像信息的情況下,并不會(huì)提示錯(cuò)誤,而是煞有其事地編造出從看見到理解、再到推理的全過(guò)程,給出一個(gè)看似合理的結(jié)果。

更離譜的是,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)僅3B參數(shù)、完全沒有圖像理解能力的純文本模型,結(jié)果卻顯示,這個(gè)模型在胸部影像問(wèn)答基準(zhǔn)(ReXVQA)中超過(guò)了所有前沿的多模態(tài)模型,甚至超過(guò)了人類放射科醫(yī)生。

這意味著,我們一直用來(lái)測(cè)試“視覺理解”的基準(zhǔn),可能并不在測(cè)試視覺能力。


論文原文:https://arxiv.org/abs/2603.21687

沒有圖片,AI還在做“視覺理解”

事情是這樣開始的:

一群研究者在做一個(gè)心血管疾病方向的多模態(tài)醫(yī)療AI,名字叫MARCUS。

他們的目標(biāo)很明確,就是讓AI能夠讀取心電圖(ECG)、超聲心動(dòng)圖和心臟磁共振成像(CMR),結(jié)合問(wèn)題描述,給出推理過(guò)程和診斷。

但在研究的過(guò)程中,發(fā)生了一個(gè)小事故:研究者在調(diào)試代碼的時(shí)候不小心忘記對(duì)一行關(guān)鍵代碼去注釋,導(dǎo)致模型根本沒辦法讀取圖片。盡管如此,該模型依然回答了所有問(wèn)題,給出了復(fù)雜的推理過(guò)程,并在基準(zhǔn)測(cè)試中取得了高分。

這種“模型在沒有圖像的情況下,假裝自己看到了圖,并據(jù)此推理”的現(xiàn)象,在論文中被稱之為“海市蜃樓”(原文為mirage)。


乍一看這個(gè)概念或許會(huì)和模型幻覺(hallucination)混淆,但幻覺被定義為是在已有信息上胡編細(xì)節(jié),例如為寫論文而編造引用;而“海市蜃樓”直接虛構(gòu)了一個(gè)不存在的輸入,并以此為基礎(chǔ)進(jìn)行對(duì)話,從而改變當(dāng)前任務(wù)的上下文。

這就暴露出一個(gè)很大的漏洞:如果模型在看不見圖像的情況下,僅靠“腦補(bǔ)”圖像并推理就能高分通過(guò)測(cè)試,那我們一直測(cè)試的“多模態(tài)理解”能力,真的涉及到多模態(tài)嗎?

為了回答這個(gè)問(wèn)題,論文做了這樣的一件事情:它把現(xiàn)有的各種視覺理解題目配套的圖片全部刪掉,只給AI看文字題目。

結(jié)果卻發(fā)現(xiàn),在完全沒有圖片的情況下,GPT-5、Gemini-3-Pro和Claude Opus 4.5等頂尖模型,在超過(guò)60%的題目中都能給出極其詳細(xì)的視覺描述,在加入一些提示詞后,“海市蜃樓”的概率甚至達(dá)到了驚人的90%以上。

并且AI在回答這些無(wú)圖題目時(shí),語(yǔ)氣堅(jiān)定,完全沒有表現(xiàn)出“沒看到圖”的猶豫。它的推理邏輯看起來(lái)和有圖時(shí)一模一樣,用戶根本無(wú)法通過(guò)回答內(nèi)容判斷AI是否真的看到了圖。


AI編造出的“圖像描述”細(xì)節(jié)豐富,涉及到具體的車牌、有效期、位置、腦結(jié)節(jié)描述以及醫(yī)學(xué)診斷。

研究人員對(duì)Gemini-3-Pro在胸部X光、腦部MRI、病理切片、心電圖(ECG)和皮膚病這5個(gè)醫(yī)學(xué)領(lǐng)域進(jìn)行了深度測(cè)試。結(jié)果顯示,在沒圖的情況下,AI傾向于診斷出那些極其嚴(yán)重、緊迫且耗費(fèi)醫(yī)療資源的疾病,比如心肌梗死(STEMI)、黑色素瘤(Melanoma)和癌變(Carcinoma)。

這種傾向會(huì)直接誤導(dǎo)醫(yī)療決策和不必要的恐慌,例如本來(lái)圖像上傳失敗,結(jié)果AI光憑文字描述給出了一個(gè)癌癥的診斷——簡(jiǎn)直駭人!

最危險(xiǎn)的是,AI既不提示圖像缺失,也不表達(dá)不確定,只是沉默地用腦補(bǔ)的“海市蜃樓”替換真實(shí)信息。從自信地報(bào)出車牌號(hào)到誤診癌癥,AI的這種“自信”在現(xiàn)實(shí)應(yīng)用(如自動(dòng)駕駛、遠(yuǎn)程醫(yī)療)中可能造成不可估量的后果。


純文本模型戰(zhàn)勝多模態(tài)模型

OpenAI、Google、Anthropic 三大陣營(yíng)的主流多模態(tài)模型都出現(xiàn)了“海市蜃樓”,意味著這個(gè)問(wèn)題并非個(gè)別缺陷,而是一整個(gè)跨模型、跨架構(gòu)、跨廠商的系統(tǒng)性問(wèn)題。

簡(jiǎn)單來(lái)講,這些模型的核心都是自回歸語(yǔ)言模型,訓(xùn)練目標(biāo)只有一個(gè),那就是預(yù)測(cè)下一個(gè)最可能的token。當(dāng)使用者提出一個(gè)問(wèn)題(哪怕是視覺問(wèn)題)時(shí),模型真正做的是尋找最可能的答案分布,而不是“先看圖再推理”。

因此,使用圖像只是其中一種路徑,而不是必須路徑。

在實(shí)際訓(xùn)練中,存在很多利用文本就能答對(duì)的情況,并且由于訓(xùn)練時(shí)從未強(qiáng)制模型“必須使用圖像”,于是模型就會(huì)走“語(yǔ)言捷徑”——這些模型是基于海量的互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來(lái)的,它們極其擅長(zhǎng)捕捉統(tǒng)計(jì)學(xué)規(guī)律,會(huì)利用問(wèn)題中隱藏的文字線索、常識(shí)以及對(duì)測(cè)試題套路的理解,而不是去處理復(fù)雜的視覺信息。

而“海市蜃樓”的本質(zhì),其實(shí)是生成式補(bǔ)全的副產(chǎn)物。就像是填空題目一樣:當(dāng)用戶在輸入的文本中不小心漏打了幾個(gè)字,AI并不會(huì)停下來(lái),而是根據(jù)經(jīng)驗(yàn)推導(dǎo)出空缺處應(yīng)該包含什么樣的信息。

當(dāng)模型看到一個(gè)視覺問(wèn)題,但題目中并未給出應(yīng)有的圖像時(shí),模型同樣也基于以往的訓(xùn)練數(shù)據(jù),自動(dòng)補(bǔ)全輸入,假設(shè)出這里本來(lái)應(yīng)該存在的圖像信息。

生成式模型的目標(biāo)并非判斷輸入是否完整,而是生成最合理、最連貫的輸出。

在這些模型的訓(xùn)練中,它們重復(fù)過(guò)無(wú)數(shù)次類似的模式:輸入圖像+問(wèn)題,生成描述+推理+答案。模型在這個(gè)過(guò)程中學(xué)到的并非“一定要用圖像”,而是“遇到這種問(wèn)題,就輸出這種結(jié)構(gòu)”。因此,當(dāng)圖像缺失時(shí),模型依然會(huì)執(zhí)行同樣的輸出模板,它的本質(zhì)并不是在處理輸入,而是復(fù)現(xiàn)訓(xùn)練時(shí)的任務(wù)模式。

這并不意味著模型完全不會(huì)利用圖像,而是當(dāng)前的訓(xùn)練與評(píng)測(cè)體系無(wú)法保證模型在回答時(shí)真正依賴了圖像信息。


為了驗(yàn)證以上觀點(diǎn),研究團(tuán)隊(duì)還做了一件特別狠的事情:他們?cè)赗eXVQA數(shù)據(jù)集的公開數(shù)據(jù)集上,訓(xùn)練了一個(gè)只有3B參數(shù)的純文本模型(Qwen-2.5)。

ReXVQA數(shù)據(jù)集是胸部放射學(xué)中最大且最全面的視覺問(wèn)答基準(zhǔn),選擇Qwen-2.5則是因?yàn)樗l(fā)布于基準(zhǔn)測(cè)試發(fā)布前一年,能夠最大限度地減少預(yù)訓(xùn)練時(shí)基準(zhǔn)泄露的可能性。

結(jié)果顯示,訓(xùn)練后的模型在ReXVQA測(cè)試中,表現(xiàn)優(yōu)于那些千億參數(shù)的頂尖多模態(tài)大模型,并且得分平均比人類放射科醫(yī)生高出10%以上。


最諷刺的地方在于,這個(gè)純文本模型不僅能選對(duì)答案,還能寫出漂亮的思維鏈:它生成的視覺分析和解釋,在專業(yè)性上與真實(shí)答案幾乎沒有區(qū)別;它的解釋和那些千億參數(shù)的多模態(tài)AI生成的解釋,兩者完全無(wú)法區(qū)分。

整個(gè)推理建立在虛構(gòu)的前提上,模型先假設(shè)了一張圖的存在,對(duì)其進(jìn)行描述,然后基于這個(gè)描述進(jìn)行推理。

這就揭露了當(dāng)前視覺理解評(píng)測(cè)基準(zhǔn)的巨大漏洞:它們測(cè)試的可能并不是AI的圖像理解能力,而僅僅是AI對(duì)題目套路的把控。

測(cè)試的題目設(shè)計(jì)可能存在文本強(qiáng)關(guān)聯(lián)性,題目描述或語(yǔ)境已經(jīng)強(qiáng)烈暗示了答案,以至于模型可以反向推導(dǎo)出“圖像里應(yīng)該包含什么信息”。

創(chuàng)建新的基準(zhǔn)并不能解決根本問(wèn)題

對(duì)于上述提到的漏洞,迄今為止,大多數(shù)建議的解決方案都集中在引入專門策劃的新基準(zhǔn),不斷編寫新的、更難的評(píng)測(cè)集來(lái)堵漏洞。

但論文認(rèn)為,這種方法只能說(shuō)是“治標(biāo)不治本”:AI模型是在全網(wǎng)抓取數(shù)據(jù)進(jìn)行訓(xùn)練的,剛出的新題,轉(zhuǎn)頭就會(huì)被爬蟲抓走,變成下一代模型的“課后答案”;即使題目沒泄露,每套題庫(kù)都有自己固有的結(jié)構(gòu)模式,而AI極其擅長(zhǎng)捕捉這些人類察覺不到的文字規(guī)律;此外,想要修復(fù)現(xiàn)有成千上萬(wàn)套舊題庫(kù)里的每一個(gè)漏洞,工作量巨大且不具備可擴(kuò)展性。

因此,論文提出了一個(gè)新的事后框架B-Clean

邏輯很簡(jiǎn)單:如果一個(gè)題目,AI在沒看圖的情況下也能答對(duì),那這道題就不能用來(lái)測(cè)試 AI的“視覺能力”。

B-Clean的完整流程就是這樣:把視覺基準(zhǔn)測(cè)試中的圖像全部去掉,讓各個(gè)模型進(jìn)行理解,如果模型在沒有圖的情況下還能答對(duì),就說(shuō)明這些題對(duì)模型的圖像理解能力無(wú)效。把那些無(wú)效題刪掉,最后剩下的,所有模型在沒圖的情況下都答不對(duì)的題目,才能真正考驗(yàn)?zāi)P偷摹耙曈X能力”。

研究人員用B-Clean對(duì)現(xiàn)有的主流視覺評(píng)測(cè)基準(zhǔn)進(jìn)行清洗后,得到了非常夸張的結(jié)果:

三個(gè)主流的視覺評(píng)測(cè)基準(zhǔn),有約74%~77%的題被清洗。

許多在原始測(cè)試中拿到80~90分的頂級(jí)模型,在經(jīng)過(guò)B-Clean清洗后的測(cè)試集中,得分直接跌到了20~30分,甚至更低。


這意味著,那些被稱為“視覺理解能力”的高得分,很大一部分從來(lái)就不屬于視覺。它們來(lái)自語(yǔ)言統(tǒng)計(jì)、數(shù)據(jù)分布、題目結(jié)構(gòu),來(lái)自模型對(duì)套路的熟練掌握。

至于圖像有沒有被使用?不重要,答案看起來(lái)對(duì)就夠了。

但這篇論文真正令人警示的地方,并不在于模型分?jǐn)?shù)在清洗過(guò)后掉了多少,而是AI可以在什么都沒看到的情況下,把“看見、理解、推理”這一整套過(guò)程演出來(lái)。

當(dāng)推理不再是證據(jù),解釋不再是保證,高分也不再說(shuō)明任何事情,這些曾經(jīng)用來(lái)判斷“AI是否可靠”的信號(hào),在這里全部失效。更糟的是,這種錯(cuò)誤不會(huì)發(fā)出任何警報(bào),只有一個(gè)看起來(lái)合理、完整、甚至專業(yè)的結(jié)果。

當(dāng)前的訓(xùn)練方式和評(píng)測(cè)體系,正在獎(jiǎng)勵(lì)“看起來(lái)像理解”的行為,而不是真正基于證據(jù)的推理,如果這個(gè)方向不被修正,未來(lái)的AI會(huì)越來(lái)越強(qiáng),但同時(shí)也會(huì)越來(lái)越難以驗(yàn)證、難以解釋,也越來(lái)越容易在關(guān)鍵場(chǎng)景中給出無(wú)法察覺的錯(cuò)誤結(jié)果。

AI是會(huì)出錯(cuò)的,它只是在不斷生成一個(gè)最像答案的答案。輸入是否真實(shí),信息是否缺失,對(duì)它來(lái)說(shuō)不是問(wèn)題。

真正的問(wèn)題是:當(dāng)它出錯(cuò)的時(shí)候,我們有沒有能力意識(shí)到它正在出錯(cuò)?

而這個(gè)問(wèn)題,AI到現(xiàn)在并沒有解決方案。

本文來(lái)自微信公眾號(hào):字母AI,作者:袁心玥

本內(nèi)容由作者授權(quán)發(fā)布,觀點(diǎn)僅代表作者本人,不代表虎嗅立場(chǎng)。如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系 tougao@huxiu.com。

本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4847123.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄧文迪在洛杉磯晚宴!和默多克繼女達(dá)莎同臺(tái),穿透視裙?fàn)顟B(tài)似少女

鄧文迪在洛杉磯晚宴!和默多克繼女達(dá)莎同臺(tái),穿透視裙?fàn)顟B(tài)似少女

落雪聽梅a
2026-04-18 15:54:57
“一個(gè)針頭給15人采血”浙江宣傳為何又默不作聲?

“一個(gè)針頭給15人采血”浙江宣傳為何又默不作聲?

清哲木觀察
2026-04-19 11:14:52
他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

削桐作琴
2026-03-21 15:03:45
馮提莫杭州古鎮(zhèn)現(xiàn)身被圍觀,網(wǎng)友目測(cè)身高1米65,否認(rèn)她矮

馮提莫杭州古鎮(zhèn)現(xiàn)身被圍觀,網(wǎng)友目測(cè)身高1米65,否認(rèn)她矮

絢麗的畫卷
2026-04-18 22:40:05
突發(fā):無(wú)線電沉默、作戰(zhàn)部隊(duì)部署表明美國(guó)將發(fā)動(dòng)軍事行動(dòng)

突發(fā):無(wú)線電沉默、作戰(zhàn)部隊(duì)部署表明美國(guó)將發(fā)動(dòng)軍事行動(dòng)

深度報(bào)
2026-04-19 21:50:51
603272,致歉!或被“*ST”!

603272,致歉!或被“*ST”!

證券時(shí)報(bào)e公司
2026-04-19 16:58:40
50歲曾黎生圖曝光,嘴歪臉僵腫醫(yī)美明顯,顏值暴跌一臉兇相太嚇人

50歲曾黎生圖曝光,嘴歪臉僵腫醫(yī)美明顯,顏值暴跌一臉兇相太嚇人

談史論天地
2026-04-19 06:18:25
母親給兒子存錢18年,被其上交給女友,女友私下改密碼,網(wǎng)友炸鍋

母親給兒子存錢18年,被其上交給女友,女友私下改密碼,網(wǎng)友炸鍋

鯨探所長(zhǎng)
2026-04-18 14:44:30
女孩邊玩手機(jī)邊下樓梯 不慎踩空摔倒或?qū)⒔K身癱瘓

女孩邊玩手機(jī)邊下樓梯 不慎踩空摔倒或?qū)⒔K身癱瘓

閃電新聞
2026-04-18 22:42:07
邵佳一昨晚最大發(fā)現(xiàn):毛偉杰1數(shù)據(jù)成中超前十唯一中國(guó)人!

邵佳一昨晚最大發(fā)現(xiàn):毛偉杰1數(shù)據(jù)成中超前十唯一中國(guó)人!

邱澤云
2026-04-19 16:07:40
爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩(shī)巖太尷尬

爆冷!終結(jié)15連勝,郭士強(qiáng)見證:山東男籃止5連敗,高詩(shī)巖太尷尬

話體壇
2026-04-19 22:20:17
四川飼料大王首富變“首負(fù)”:欠了近千億,一年光利息就要18億

四川飼料大王首富變“首負(fù)”:欠了近千億,一年光利息就要18億

夢(mèng)回千年aa
2026-04-12 05:53:20
灰色上衣搭配灰色休閑褲,貼身舒適,簡(jiǎn)約又時(shí)尚

灰色上衣搭配灰色休閑褲,貼身舒適,簡(jiǎn)約又時(shí)尚

只要高興就好
2026-04-07 14:11:06
等不到特朗普訪華了,美國(guó)提前對(duì)華攤牌:要求秘魯把中國(guó)趕出港口

等不到特朗普訪華了,美國(guó)提前對(duì)華攤牌:要求秘魯把中國(guó)趕出港口

安珈使者啊
2026-04-19 11:44:14
坐擁北京一條街,丈夫是京劇名家,如今身價(jià)過(guò)億32歲兒子卻成心病

坐擁北京一條街,丈夫是京劇名家,如今身價(jià)過(guò)億32歲兒子卻成心病

不似少年游
2026-04-07 22:24:49
被coco曝三胎生父后,張柏芝帶兒子露面,謝霆鋒坦白不娶王菲內(nèi)幕

被coco曝三胎生父后,張柏芝帶兒子露面,謝霆鋒坦白不娶王菲內(nèi)幕

一盅情懷
2026-04-19 18:20:07
6月1日起看病大變天,3類小病不再收,社區(qū)醫(yī)院成主力

6月1日起看病大變天,3類小病不再收,社區(qū)醫(yī)院成主力

老特有話說(shuō)
2026-04-19 15:10:09
金像獎(jiǎng)太拉胯!李心潔深V性感,馬麗遮不住肥肚,章子怡暴瘦好老

金像獎(jiǎng)太拉胯!李心潔深V性感,馬麗遮不住肥肚,章子怡暴瘦好老

楊仔述
2026-04-19 22:01:33
羅體:盧卡庫(kù)預(yù)計(jì)明日回那不勒斯,他已通過(guò)經(jīng)紀(jì)人告知俱樂部

羅體:盧卡庫(kù)預(yù)計(jì)明日回那不勒斯,他已通過(guò)經(jīng)紀(jì)人告知俱樂部

懂球帝
2026-04-19 22:16:17
無(wú)需磨合直接就打附加賽?廣東宏遠(yuǎn)已出發(fā)前往客場(chǎng),新外援還未飛往國(guó)內(nèi)!

無(wú)需磨合直接就打附加賽?廣東宏遠(yuǎn)已出發(fā)前往客場(chǎng),新外援還未飛往國(guó)內(nèi)!

廣東籃球掂
2026-04-19 12:56:13
2026-04-19 23:40:49
虎嗅APP incentive-icons
虎嗅APP
個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺(tái)
26133文章數(shù) 687679關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時(shí)尚
親子
數(shù)碼
房產(chǎn)
軍事航空

裝修“精神角落”,就是這么上癮

親子要聞

孩子總打噴嚏、起疹子,時(shí)過(guò)敏嗎?

數(shù)碼要聞

亞馬遜明確:未來(lái)Fire TV Stick全換Vega OS

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版