看谁齐像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车
发布日期:2026-06-23 16:10 点击次数:51

出品 | 网易智能
作家 | 小爪
剪辑 | 王凤枝
最近,DeepSeek上了识图时势。
网上最出圈的吐槽是:它看谁齐像梁文锋。

这个说法不是编造来的。不雅察者网胜仗用了《DeepSeek上线识图时势,看谁齐像梁文锋》这个标题;IT之家、倾盆新闻、红星成本局也齐作念过实测,中枢发现差未几:DeepSeek偶然认不出深度求索首创东谈主梁文锋,偶然又会把其他东谈主误认为梁文锋。
认错雇主诚然很有传播性。
但名东谈主识别和平时看图,是两种不同的才智。
我更良善的是后者:要是不拿名东谈主像片测,而是把世俗用户真实会发给AI的截图、账单、海报、日程、阶梯图发给它,DeepSeek识图时势成果若何?
于是我也作念了一个小测试。
测试很简短:8张土产货合成图,模拟世俗用户最常见的看图央求,包括数图形、核账单、看图表、判断按钮景况、读优惠小字、查日程突破、算阶梯、读中英文目的牌。
这些图是我我方作念的,不是真实用户截图。我方作图的克己是可控:每张只测一个小任务;代价是不成代表整个真实场景,也无法抹杀排版影响。比如数图形用的是常见神采和时事,收条是世俗三行账单,阶梯图是四个点和四条边,不是刻意作念成复杂视觉谜题。
这不是严肃评测,也不是模子名次。它只回复一个问题:当用户把这些图片丢给DeepSeek识图时势时,哪些场所最容易出错。
先说范围和状貌
此次测的是chat.deepseek.com的官网居品进口。测试技术是6月22日中午,页面娇傲Instant,DeepThink莫得开启。
素雅测试时,每张图单独开新对话,只跑一次,不连气儿追问。第一张数图形在素雅测试前也曾单独试过一次,是以文中会把两次铁心齐写出来,用来诠释吞并张简短图的回复不褂讪;其他7张以素雅测试铁心为准。
这也意味着,底下不是正确率统计。8张图太少,不及以推断合座水平,只可诠释:这些空虚不是用户思象出来的,而是在这个居品进口里真实出现过。
需要诠释的是,此次只测了DeepSeek官网一个居品进口,没拿GPT、Claude、Gemini作念同图对比。这些空虚不一定是DeepSeek专有的,可能是现时多模态模子齐会遭受的问题。 本文考虑的是用户在这个进口里的真实体验,不是给模子排座席。
第一类空虚:图就在目前,但数目和神采全错
数图形的那张最简短。
上头只好三类图形:红色圆形、蓝色方形、绿色三角形。正确谜底是红圆7个、蓝方5个、绿三角3个。

DeepSeek在一次单独测试里答成了红圆3个、蓝方3个、绿三角0个。

素雅测试时,我重新开新对话跑吞并张图,它答得更离谱:红色圆形0个、蓝色方形0个、绿色三角形0个,还说图中整个图形齐像玄色圆点。

这不是复杂推理,也不是小字OCR。它错在最基础的神采、时事和数目识别。
这个例子相宜请示用户:不要把\"AI能看图\"交融成\"AI一定能准确数清图里东西\"。 尤其是库存、单子、表格截图、标注图这种需要逐项计数的图片,最佳让AI先分组读,再东谈主工复核。
第二类空虚:论断像对,但数字还是错了
图表测试用的是一张截断坐标轴柱状图。

A是92,B是96,Y轴从90运行,不是从0运行。是以B看起来高许多,但本体只比A高4点。
DeepSeek的判断目的接近。它知谈\"不成只看视觉高度\",也判断B不算高许多。
但它把92和96读成了9290和9690,把差值算成400。


我的算计是,它可能把柱顶标注和坐标轴上的90拼到了沿路:92逼近从90运行的Y轴,视觉上被读成9290;96也被读成9690。这个算计不一定对,但这类\"把相邻数字拼接在沿路\"的空虚,在看图读数时很要命。
这在我的计数里算\"部分答对\":目的判断接近,但关键数字空虚。
这等于识图AI很容易让东谈主安定警惕的场所:它说出来的兴味是对的,但底层数字还是错了。
要是用户只看临了一句\"B不算高许多\",可能会合计它答得可以。但要是这是一张销售图、财报图、投放图、股价图,青青草视频在线观看数字被放大100倍就不是小问题。
图表类图片最需要防的不是\"透顶看不懂\",而是\"目的判断像对,关键数字错了\"。
第三类空虚:读到了局部,但漏掉关键边
阶梯图也很典型。

图里有两条从A到D的阶梯:
A-B-D:12 + 18 = 30分钟。
A-C-D:10 + 15 = 25分钟。
更快的是A-C-D。
DeepSeek读到了A-B是12分钟、B-D是18分钟,也看到了A-C这条边,但把A-C的10分钟错读成15分钟,同期漏掉了C-D这条边,于是说A-C-D无法缠绵。

它不是透顶看不懂图,而是只读到了部分结构。
这类空虚在真实使用里很危急。因为用户问阶梯、经由、组织图、架构图、审批链路时,AI只须漏掉一个节点或一条边,最终残酷就会变形。
看图不是OCR完笔墨就竣事。对阶梯图、经由图来说,委果关键的是把点、线、目的和权重连起来。
第四类空虚:读到笔墨,但没按箭头回复
临了一张是中英混排目的牌。

图上写着:
EXIT向左。
进口向右。
Meeting Room朝上。
DeepSeek读到了\"出口、进口、会议室\"这些笔墨,但莫得按箭头回复。 它把图片交融成空间布局,说进口鄙人方、出口在上方,会议室在中间或右侧。

搀杂言语不是惟一的难点。问题是,AI需要把笔墨和箭头绑在沿路。
用户问的是\"辞别往哪个目的\",不是\"这些词在画面上简略在何处\"。 要是AI把笔墨位置当成目的,谜底就会错。
但它不是每条齐错
此次8张图里,DeepSeek有4张基本答对,4张出了昭彰空虚。 其中,柱状图那张属于\"目的判断接近,但关键数字空虚\"。
样本太小,这个比例不成当成模子正确率。但它能请示咱们:空虚不是每次齐发生,也不是只在顶点场景发生。
那次答对的几条,也值得一块望望。
核账单:收条算计它算对了,38 + 24 + 56 = 118元,打印系数128元不正确。


读优惠小字:会员海报小字它捏到了,首月后每月29.9元,况兼会自动续费。


查日程突破:日程图它发现了14:00-15:00的技术突破。


判断按钮景况:UI截图它也判断出\"提交发布\"按钮是灰色未激活景况,现时不成胜仗发布。


这反而让论断更有居品敬爱。
问题不是DeepSeek官网识图\"透顶不成用\"。在账单加总、小字要求、日程突破、按钮景况这些场景里,它能帮用户先看一眼。
委果的问题是:它的可靠性不是均匀的。
有些场景看起来更复杂,它能答对;有些场景看起来很简短,它反而会错得很自信。
世俗用户委果该提神什么
这组小测试思说的,不是某个模子答错了一次。是识图AI出错的那几种固定姿势。
第一,它可能OCR对了,但缠绵错了。
第二,它可能论断目的对了,但数字读错了。
第三,它可能读到局部信息,但漏掉决定论断的关键边。
第四,它可能识别出笔墨,却莫得交融箭头、按钮景况、空间关联和用户委果问的问题。
要是再压缩一下,底层其实是两个问题:一是感知层面,看到的神采、数目、数字就不合;二是关联层面,看到了局部信息,却莫得交融它们之间的聚首。
是以,把截图交给AI时,最佳不要只问一句\"这张图说了什么\"。
更好的问法是:
请逐项读取图片内容;
请列出缠绵过程;
请指出你不笃定的场所;
请告诉我哪些信息需要东谈主工阐发。
这些是通用的AI看图使用残酷。我莫得逐条考证它们能否建造DeepSeek官网识图时势里的每一种空虚,但它们至少能逼AI露馅缠绵过程和不笃定处。
尤其是触及钱、技术、发布、付款、阐发按钮、自动续费、图表涨跌幅和阶梯罗致时,AI的回复只可当第一眼,不成当最终判断。
AI看图最危急的场所,不是它看不见。而是它看见了一部分,然后让你以为它全看懂了。


