
红星老本局6月19日音尘,6月18日,DeepSeek网页及APP端,均新增了“识图模式”,并暴露“图片贯通功能内测中”。吞并天,DeepSeek多模态团队负责东谈主陈小康在酬酢媒体上发文称,视觉模式已在网页和诈欺上解析上线,“试试这双新眼睛”。
6月19日,红星老本局实测发现,DeepSeek的识图功能并不太康健。
红星老本局实测时上传了一张DeepSeek创举东谈主梁文锋的像片,但DeepSeek将其识别为字节超越的张一鸣;紧接着再上传另外一张梁文锋的像片,DeepSeek仍然觉得是张一鸣;终末上传了张一鸣的像片,DeepSeek识别正确。
随后红星老本局开启新对话,再行上传张一鸣的像片,DeepSeek将其识别为寒武纪创举东谈主陈天石;紧接着上传梁文锋的像片,DeepSeek仍然觉得像片中的东谈主是陈天石。在屡次对话中,DeepSeek还曾暗示“无法回答问题”。

DeepSeek在回答中暗示,现在的“识图功能”其实是“读图”。
DeepSeek现在援救的图像文献上传和视觉识别为OCR模子,即读取图像中的文本,擅长从上传的图像(PDF、Word、Excel、PPT、JPG等)中读取文本,并处理该文本;而不是多模态视觉话语模子(VLM),无法以像素级别“看到”物体、东谈主脸或场景。
关于将梁文锋识别成其他东谈主,DeepSeek再次暗示我方莫得东谈主脸识别模块,不会“看脸”只会“看字”,若是像片中只好一张脸,“我只可复兴你图片中莫得翰墨现实”。
yabo888vip中国官方网站于是红星老本局又上传了其他带有翰墨的图片,关于“货拉拉被约谈”的新闻资讯的封面,DeepSeek基本不错识别出图中现实,但将图中的“货拉拉”识别为“货拉业”,并觉得是图片中的字打错了。关于“新东方集团回来大会”视频截图,DeepSeek可识别出图中的信息,开云体育官网何况精准捕捉到俞敏洪也在图片中。

关于纯文本类的图片,红星老本局招揽了怀素的草书作品,DeepSeek不错识别部分翰墨,但将图中的“玉露凋伤枫树林”,识别为“王右丞诗枫桥”。关于Yum! Brands文牍出售必胜客业务的英文公告截图,DeepSeek可正确识别并翻译。

红星老本局又以相易的图片向豆包、千问、文心一言发问,均能平日识别,并莫得出现DeepSeek的造作。文心一言致使指出“王右丞诗枫桥”可能存在羞辱。
5天前,陈小康曾将鹅腿大姨的“绿色鸭腿”发给DeepSeek识别,从复兴来看,DeepSeek能辨别出其不是鹅腿,同期暗示可能存在食物安全隐患;但DeepSeek也莫得识别出鸭腿,而是将其认作“烤鹌鹑”。

DeepSeek是由杭州深度求索东谈主工智能基础本领商议有限公司打造的大模子和AI助手,其主体运营公司建树于2023年,该居品于2025年年头火爆出圈,一度登顶诈欺商店名次榜榜首。
近日,DeepSeek首轮融资决议被曝光。其创举东谈主梁文锋个东谈主出资约200亿元;腾讯出资约100亿元;宁德时间体系出资约50亿元;网易、京东、Monolith砺想老本、IDG老分内别出资约30亿元;正心谷投资、拾象科技辩别出资约15亿元。
现在,多模态已成为大模子居品的标配,并在视频生成范畴不停扩张。
本年1月,中信建投曾发布研报称,AI多模态进一步激励创作变革。谷歌、快手等头部模子要点惩办了脚色一致性与物理逻辑穷困,快手可灵月活破千万并终了订阅收入增长,象征着多模态器用从文娱走向分娩力。诈欺侧,AI漫剧接棒短剧成为新增长极,字节超越等平台通过高额激励鼓励现实极品化,AI加快IP影视化程度,有望催生新的市集机遇,重塑告白与游戏金钱分娩逻辑。议论往日,原生多模态与宇宙模子本领共同演进,有望重塑营销、影视、游戏等下贱产业形式。
红星新闻记者 陶玥阳KaiYun Sports2026世界杯(中国)官方网站

备案号: