網易首頁 > 網易號 > 正文 申請入駐

DeepSeek終于「開眼」!首發深度實測:12張圖看清它的識圖極限

0
分享至

在DeepSeek一記V4重拳徹底引爆科技圈的五天后,DeepSeek內部負責多模態的研究員陳小康在X上發布了這么一條帖子,并且附上了文字:

Now, we see you.



(圖源:雷科技)

沒錯,就是字面意思。

當所有人還在為V4的價格和編碼能力而驚嘆時,DeepSeek突然開測識圖模式,全網熱議了一整年的多模態能力總算是落地了。

這更新速度,真心讓人覺得梁文鋒是不是為了不被網友做成不務正業的梗圖,連夜把開發團隊鎖在了機房里。

需要注意的是,這次測試并非全量測試,而是小范圍的灰度測試,只有部分用戶能在DeepSeek官方App或網頁版里看到,此時輸入欄上方除了原有的快速模式、專家模式外,還會新增識圖模式按鈕,并標注“圖片理解功能內測中”。



(圖源:雷科技)

不巧的是,筆者的同事們全部都沒能被灰度測試到,被DeepSeek官方抽到的人數居然高達0人!

幸運的是,筆者居然還真就成了那萬中無一的天選之人。

既然這么巧合,小雷不給大家測試一番,多少有點過意不去。這次我精心選擇了12張圖片,讓大家好好看看DeepSeek到底能看到什么?

理解能力強,知識庫待更新

話不多說,我們直接從畫面描述開始測試。

之所以將這個放在第一位,是因為這是視覺理解在實際場景中應用最多的一項功能。

以我們日常生活為例,在路邊看到一株叫不出名字的奇葩植物,或者想找找某款穿搭的同款鏈接,甚至是在異國他鄉對著滿屏外文菜單發愁時,大家現在的第一反應多半是拍張照丟給AI問一句:“這是啥?”

這種“所見即所問”的交互,本質上就是在考驗模型的視覺理解功底。

而這次我準備了三張圖用作測試,分別是一張Coser圖像、我在博物館里的見聞以及一張信息量繁雜的活動現場圖片。



(圖源:雷科技)

提示詞:請詳細描述一下這張圖,字數控制在250字以內。

對于第一張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

沒錯,DeepSeek不但完整描述了整個畫面細節,而且還認出了圖片里的角色,甚至還把拍攝這種圖片中的背景、打光等元素等如實還原出來,用這套文字去文生圖模型里直接就能還原一張高度類似的圖片。

要知道,這個效果可是沒開思考模式的。

對于第二張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

不打開思考模式的情況下,這次回答就是很單純的畫面描述,沒有對于物品的解析,但是描述本身還是挺到位的,而且最后還是能看出來這款物品富有濃郁的中東或中亞藝術風情,很可能是一件珍貴的宮廷或宗教禮儀用具。

那么,要是我打開思考模式呢?

這下開始解析了,首先是對物品進行拆解,定義它是什么、有什么特征、所處的環境怎么樣。



(圖源:雷科技)

然后就開始下定義了,它認為是清代痕都斯坦風格。



(圖源:雷科技)

那么清代痕都斯坦風格是啥呢?根據Wiki解釋,這是18世紀清朝乾隆時期引入的中亞伊斯蘭風格玉器,主要源自北印度莫臥兒王國。

剛好,我去看的就是莫臥兒王國展,還真給它找出來了。



(圖源:雷科技)

對于第三張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

除了畫面描述、文字信息讀取,這次它還果斷判斷這是屬于中國建博會·廣州的活動現場圖片,只能說圖片理解這塊確實沒毛病嗷。

當然了,上面這些內容都是看圖說話,那么更新一點的信息識別如何呢?

這次我準備了近些年的三張圖片,提示詞:圖片里的東西是什么?并說出你的依據,字數控制在200個字以內。



(圖源:雷科技)

對于第一張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

嗯...至少能從圖片里看出寶可夢的信息,但是《Pokopia》這款游戲還是太新了,明顯不在DeepSeek的知識庫里。

對于第二張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

這次倒是判斷得很準確,這確實是一張從3dm扒下來的FM24戰術圖。

對于第三張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

不難看出,它確實缺乏了最新的產品信息,但居然能通過副屏來判斷成小米11 Ultra,只能說DeepSeek識圖在邏輯這塊真的拿捏了。

邏輯問題,同樣搞不定

接下來,我們來試試元素識別。

這部分,說人話就是考驗AI的眼力見了,里面有些題目,哪怕是真人來了也不一定能做出來。

誒,順便看看DeepSeek會不會也是個色盲。

這類圖片在網上那叫一個多啊,我干脆直接上谷歌搜羅了這些圖來測試用,大家也別客氣。



(圖源:雷科技)

先測第一個,提示詞:請直接告訴我這張圖中有幾只老虎。

讓人想不到的是,這個問題居然能讓DeepSeek開始自我博弈起來,不斷地否認自己上一次數出來的結果,最后更是在兩次數出6只老虎的情況下,堅定地回答了7只出來。



(圖源:雷科技)

問題在于,這圖里有10只老虎,這就讓人很尷尬了。

再測第二個,提示詞:這張圖中隱藏著一組數字,請你直接告訴我其中有幾個數字,它們分別是什么。



(圖源:雷科技)

咋說呢,這個圖之前就難倒過所有AI, DeepSeek同樣沒有能識別出來。

第三張圖也是如此,可以說,這一類基于反色、碎塊化的圖片,依然是視覺理解的一生之敵。



(圖源:雷科技)

最后是三道圖形邏輯題,之前DeepSeek-V4在做邏輯題的時候表現就一般,不知道應對圖形邏輯題的效果如何。

據說這三道都是行測例題,我們讓DeepSeek來解答一下。



(圖源:雷科技)

第一道,思考了整整三分鐘。



(圖源:雷科技)

答案是錯的,正確答案是D。這圖的邏輯其實還挺好懂的,就是前面兩格單白/單黑的地方,第三格是白的,前面兩格雙白/雙黑的地方,第三格就是黑的。

第二道題自然也是不負眾望,錯!

沒想到,在我已經失去希望的情況下,經過六分鐘深度思考后,這第三道題,居然是讓DeepSeek給答對了!



(圖源:雷科技)

我反復試了兩遍,只能說這道題它確實能推理出來,雖說是采用算數的形式,但確實實現了零的突破。

只能說,行測備考你用這個,這輩子也是有了。

總結:識圖只是前菜,多模態大招還在路上

完整測試下來,小雷我對DeepSeek這次的識圖能力算摸透了。

只能說DeepSeek基礎識圖的準確率其實還是比較高的,然后它的推理思路本身也算有條不紊,但是目前知識庫里保存的信息還不夠多,而且面對難度較高的極限測試,基本上就沒有能做對的時候。

但是,這次起碼不會出現思考半天吧啦吧啦沒完沒了的情況。



(圖源:DeepSeek)

在我看來,這次識圖更像是過渡期的開胃菜,這個識圖模式,更接近一個掛載在DeepSeek-V4主干上的視覺理解模塊,而并非DeepSeek-V4本身的多模態能力。

但至少,它證明DeepSeek團隊在視覺理解上已經跑通了,這明顯是在為接下來的原生多模態大招鋪路?梢灶A見的是,補上這塊短板后,整個國產模型的格局必然會再次發生改變。

至于沒拿到資格的也別急,就DeepSeek目前這個效果,豆包和千問其實夠用了。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國4大佛像靈異事件,科學也無法解釋!

中國4大佛像靈異事件,科學也無法解釋!

時尚的弄潮
2026-04-29 00:40:57
10-13!趙心童遭墨菲3連鞭無緣4強 衛冕夢碎:難破世錦賽49年魔咒

10-13!趙心童遭墨菲3連鞭無緣4強 衛冕夢碎:難破世錦賽49年魔咒

我愛英超
2026-04-30 00:04:13
不到3天,俞敏洪又迎兩大噩耗,頭部主播集體辭職只是“開胃菜”

不到3天,俞敏洪又迎兩大噩耗,頭部主播集體辭職只是“開胃菜”

離離言幾許
2026-04-28 21:54:25
便攜式氣象站應用場景與綜合價值

便攜式氣象站應用場景與綜合價值

測控技術有限公司
2026-03-10 15:55:30
為啥西方水手經常死亡,中國水手卻能活?這一優勢西方至今比不了

為啥西方水手經常死亡,中國水手卻能活?這一優勢西方至今比不了

混沌錄
2026-04-17 22:55:05
誰能想到!五屆全明星,手握四枚冠軍戒指的他,36歲在魚腩打替補

誰能想到!五屆全明星,手握四枚冠軍戒指的他,36歲在魚腩打替補

球毛鬼胎
2026-04-29 12:14:36
就業形勢嚴峻!40歲后失業人都干嗎去了?答案很扎心,評論區炸了

就業形勢嚴峻!40歲后失業人都干嗎去了?答案很扎心,評論區炸了

慧翔百科
2026-04-29 11:52:21
摩爾線程上市后首份財報解讀:四年累虧近60億元,創始人張建中年薪720萬元

摩爾線程上市后首份財報解讀:四年累虧近60億元,創始人張建中年薪720萬元

搜狐科技
2026-04-29 19:51:40
泡泡瑪特漲超4% labubu冰箱未開售即被炒至9萬余元

泡泡瑪特漲超4% labubu冰箱未開售即被炒至9萬余元

財聯社
2026-04-29 09:53:06
東方甄選YOYO評論區淪陷,拒絕跟風石明裸辭,保住高薪工作才精明

東方甄選YOYO評論區淪陷,拒絕跟風石明裸辭,保住高薪工作才精明

小徐講八卦
2026-04-29 06:03:38
鳳凰男跪求妻子回家,妻子直接開價:給我50萬,不然休想讓我回去

鳳凰男跪求妻子回家,妻子直接開價:給我50萬,不然休想讓我回去

廣西秦胖胖
2026-04-28 15:06:46
內蒙古三名廳官同日被查

內蒙古三名廳官同日被查

上游新聞
2026-04-29 22:59:09
上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

上海一男子以“包養”之名與4名女子發生關系,反騙萬余元;法院判了

大風新聞
2026-04-29 16:35:02
四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

喜歡歷史的阿繁
2026-04-26 14:01:13
兩個朋友同時患癌,一個花50萬治療6個月去世,一個沒治療活了9年

兩個朋友同時患癌,一個花50萬治療6個月去世,一個沒治療活了9年

千秋文化
2026-04-29 19:11:26
中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
警惕!境外勢力花錢養"躺平網紅",給中國青年洗腦,全網炸了

警惕!境外勢力花錢養"躺平網紅",給中國青年洗腦,全網炸了

派大星紀錄片
2026-04-29 13:49:32
炸裂!北京車展惡性事件!尚界展車慘遭人為損毀,法務部硬核發聲

炸裂!北京車展惡性事件!尚界展車慘遭人為損毀,法務部硬核發聲

天天熱點見聞
2026-04-27 06:27:09
奧沙利文對沙特賽取消不以為意:無論英國還是中國 讓我參賽都得給出場費

奧沙利文對沙特賽取消不以為意:無論英國還是中國 讓我參賽都得給出場費

云隱南山
2026-04-29 20:20:58
2026-04-30 00:52:49
雷科技 incentive-icons
雷科技
專注AI硬科技
36986文章數 812052關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

補壹刀:解放軍兩支艦隊同時行動 信息量非常大

頭條要聞

補壹刀:解放軍兩支艦隊同時行動 信息量非常大

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態度原創

家居
藝術
房產
公開課
軍事航空

家居要聞

寂然無界 簡潔風格

藝術要聞

揭秘!夢露在鏡頭下的絕美瞬間,你絕對不想錯過!

房產要聞

80億投資!浙商總部基地+海口北站,金沙灣這是要起飛!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版