D神又开播了?真的假的?
Deepseek憋了这么久大的,最近终于开始尽情释放了。上周他们刚悄咪咪把 V4 给端了上来,紧接着就是连着两波大降价。。梁神,你又来普度众生了?
结果今天,它又突然来了给我推送了一波灰测:DeepSeek,有多模态能力了,准确来说是识图。
验过了牌,是真的。
想尝鲜的差友现在就可以打开你的 DeepSeek 瞅一眼。
要是界面里多出了个“识图模式”,恭喜你,你就是被内测到的幸运儿,直接白嫖真正的多模态版 V4。
DeepSeek自家的研究员陈小康,也按耐不住发了个贴,我们鲸鱼终于长眼睛了,再也不是国服盲僧了!
为啥大伙儿反应这么激动?实在是DeepSeek因为没多模态,已经被诟病很久了,像国外三巨头ChatGPT、Gemini、Claude早就有多模态能力了,国内像豆包、千问等模型也做得非常好。
而你这个被寄予厚望的国产之光,这么多年了连个图都识别不了,只能靠 OCR,也就是识别图片里的文字,使用体验这块确实拉了一截。
而现在,这块短板终于被补齐了。
话不多说,我们直接上测试吧。
首先,它确实是摆脱了传统的OCR,真能看到图片全貌了,这点大伙可以放心。
比如我们给它了一张用蓝色写出来的“这是一行红字”,如果只用传统OCR,它只能识别出文字是“这是一行红字”,绝对识别不出是蓝色的。(甚至可能无法识别)
而开启视觉模式后,它可以精准识别出,这是一行蓝色的红字,甚至感觉到了我的幽默。
不光如此,它还有了视觉上的推理能力。
这张梗图大家都见过吧?相信以差友的智商,绝对看得懂图里在写啥。
于是我发给DeepSeek,让它帮我进行笑点解析。
它一番思考过后,不光看出来了,还顺便做了个本土化翻译“金大利亚”“银大利亚”“铜大利亚”,有点忍俊不禁了。
接着我又发它了一张同事开车时,随手拍的图片,其实挺糊的,只有些外观、光效上的信息可以分析。
结果它还是猜出来了,这辆车确实是斯巴鲁,而且思考13秒就给出了结论。
考虑到D老师是数学高手,我们又给它传了一张数学相关的梗图,说实话世超差点都没看懂,是哥们丈育了。
D老师的解释,依旧非常完美。
不光整明白了简单运算,它甚至看出了里面的几个谐音梗:取实部也就是去掉虚数“i”,也就是去掉“Eye”,也就是把眼睛去掉了。而倒三角是梯度也就是“Grad”,刚好和“Graduate”差不多,所以给小脸带上了学士帽。
已经忘记数学知识的差友们可以逐字复盘一下。
顺便呢,我也测了几个生活中的问题,比如这个3.5mm插头该插哪里。
这个方头USB口又该插哪里。
虽然很简单,但它能理解我没对上焦的随手拍,也算能胜任日常任务了。
但其实,根据世超的实测,D老师目前这个版本,也没有到天下无敌的地步。
比如咱给它丢了一张图,非常美丽的地球夜景。
DeepSeek也看得蛮清楚的,说这张照片来自国际空间站。
但其实,你们把照片翻过来看看,就会发现这张照片是一张晚霞下面的城市,这是倒悬过来的视角。。。
然后我丢给了公认的多模态高手Gemini。。。它还真看出来了。不是,降智了都这么强吗?
还是没能让多模态之王用尽全力吗,哈吉鲸。
包括对一些人脸的识别,也是偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是啥,嗯,B站UP主罗翔。
还有这个经典的视错觉问题,这俩球明显不一样大吧?结果D老师一番思考跟我说俩球一样大。
不过我也去扒了一下它的思考过程,其实它早就看出来右边的球大了,但因为仔细读题,觉得这是给它的错觉,所以选择欺骗自己,说它们一样大了。。可能是强化学习强化太猛了吧。
综合评价,可以给到一个神鬼二象性,夯的时候夯,拉的时候拉完了。。
但话又说回来了,DeepSeek刚长出眼睛,咱还是得给它一些适应这个世界的时间吧。
最后,现在的 AI 巨头大乱斗,早已经过了那个只看跑分、只看文本输出能力的新手村阶段了。
Coding 水平、多模态能力、调用工具的丝滑程度等等等等,基本上缺一不可。
但之前大 D 老师在多模态能力上的缺席,总让觉得可惜。有种大伙们都在哼哧哼哧做事干活了, DeepSeeK 却因为缺胳膊少眼,Agent 能力大打折扣。
毕竟,目前绝大部分的模型,API 都是带多模态,或者至少是带图片输入能力的。
也期待 DeepSeek 能把识图的多模态能力,尽快更新到 V4 新模型的 API 上面吧。
要知道,之前蒙着眼睛,已经和不少对手已经打得有来有回了。。 现在揭下眼罩,到时候用在 Claude Code、龙虾、Cowork 等等工具上的表现,估计还会有一大波的提升。
另外,按照 DeepSeek 这段时间吐泡泡刷存在感的频率,估计还有一堆连招等着出手呢。
不多说了,看 D 老师表演吧。
撰文:不咕&江江
编辑:江江&面线
美编:萱萱
图片、资料来源:
DeepSeek,微博,部分图源自互联网