二维码
×
希鸥网logo

DeepSeek灰度测试“识图模式”:AI大模型“开眼”看世界

作者 / 网络 发布时间 / 2026年05月14日 来源 / 网络 分类 / 产业观察

近日,DeepSeek正式启动识图模式的灰度测试,并大范围开放给用户体验。这一更新标志着AI大模型正式“开眼”,具备了更强的视觉理解能力。

在实际测试中,开启该模式后,用户可直接上传图片,让DeepSeek“看见”并理解世界。其能力边界远超简单的文字提取(OCR)。例如,当网友上传一张在博物馆拍摄的不明文物照片并开启“深度思考”功能后,模型不仅能详细描述文物的纹理与材质,还能准确推断出其所属的年代与风格。面对网络上流行的表情包或梗图,它同样能精准理解其中的语义与笑点,展现出强大的多模态理解能力。

DeepSeek“开眼”后,与其他主流大模型相比有何差异?其背后的技术优势与现存不足是什么?科技日报记者就此采访了相关专家。

技术路径差异:主打“视觉原语思考”

赛迪顾问人工智能与大数据研究中心分析师白润轩指出,DeepSeek识图模式与其他大模型的核心区别,主要体现在技术路径、算力消耗和交互逻辑三个方面。

首先,DeepSeek以“视觉原语思考”为核心框架,强调精准的空间推理与复杂场景解析,而非简单的文字识别或基础图像分类。相比之下,豆包等其他模型更侧重于结合联网搜索来提升识别的时效性,多依赖传统图像编码后进行文本理解,因此在空间推理精度上稍显不足。

其次,在算力效率方面,DeepSeek表现出“算力友好”的特点。处理一张800×800分辨率的图片仅消耗约90个tokens(词元),远低于GPT等主流模型,从而实现更快的响应速度。

此外,DeepSeek的识图模式为独立入口,专注于纯视觉理解,不额外启用联网功能;而豆包等模型则会在识别过程中自动联动搜索,依赖外部信息补充。

核心创新:用“赛博手指”精准指物

伴随识图模式上线,DeepSeek也公开了其背后多模态模型的技术细节,“视觉原语思考”框架成为关注焦点。

白润轩解释,该框架的创新之处在于跳出主流模型“堆分辨率”的思路,转而解决传统多模态模型面临的“指代鸿沟”困境。传统模型在面对密集场景时,常因使用“左边那个大的”等模糊语言描述目标,导致注意力漂移、识别不准。

而“视觉原语思考”将点、边界框等空间视觉元素融入模型推理全过程,如同为AI装上一根“赛博手指”,让其在“思考”时能精确“指向”目标物,边想边指,显著提升在复杂布局、密集计数等任务中的推理精度。

现存不足与改进方向

尽管能力突出,但白润轩也指出,DeepSeek识图模式目前仍存在三方面不足:

一是知识库更新滞后。模型训练数据截至2025年,在识别2025年底之后发布的新产品时,可能出现型号误判。

二是高难度场景表现不稳定。面对视错觉图片、复杂物体计数等反直觉任务时,模型偶发逻辑崩溃,答案稳定性不足。

三是功能边界较窄。目前仅支持纯视觉理解,尚不具备图像生成、视频理解及跨模态创作能力。在高并发时段,也偶有解析失败、响应延迟的情况。

“建议后续加快知识库迭代,优化反直觉场景算法,同时拓展多模态功能,提升系统稳定性,以更好满足用户多样化需求。”白润轩说。

希鸥网观察认为,DeepSeek识图模式的推出,不仅是技术路径的一次创新,更标志着国产大模型在多模态能力上正从“能看”迈向“看懂”。其“视觉原语思考”框架为行业提供了新的技术范式,展现出高效、精准的视觉推理潜力。

随着多模态技术不断演进,AI将不再只是语言的处理器,更将成为真正意义上的“视觉思考者”。未来,能否在保持算力优势的同时,拓展功能边界、提升知识实时性,将是决定其竞争力的关键。

希鸥网观察指出,当前AI竞争已进入“拼细节、拼场景、拼效率”的深水区。DeepSeek此次聚焦视觉推理精度与算力效率的突破,展现了差异化竞争的清晰思路。下一步,如何构建更完整的多模态生态,将是其从技术领先走向市场领先的必由之路。

(本稿件整理自网络公开报道,将同步发布希鸥网、创新日报、锐CEO网、NasdaqLtd观察网、斯贝瑞品牌资讯、AI联播等网站,编辑:张多金,微信号:meisceo29,写稿、投稿咨询联系我。)

阅读量:1498
10秒生文 寻求报道 创业大集 报名活动 创业10年荣耀奖 城市合伙人 12000+媒体资源