DeepSeek灰度测试“识图模式”：AI大模型“开眼”看世界

近日，DeepSeek正式启动识图模式的灰度测试，并大范围开放给用户体验。这一更新标志着AI大模型正式“开眼”，具备了更强的视觉理解能力。

在实际测试中，开启该模式后，用户可直接上传图片，让DeepSeek“看见”并理解世界。其能力边界远超简单的文字提取（OCR）。例如，当网友上传一张在博物馆拍摄的不明文物照片并开启“深度思考”功能后，模型不仅能详细描述文物的纹理与材质，还能准确推断出其所属的年代与风格。面对网络上流行的表情包或梗图，它同样能精准理解其中的语义与笑点，展现出强大的多模态理解能力。

DeepSeek“开眼”后，与其他主流大模型相比有何差异？其背后的技术优势与现存不足是什么？科技日报记者就此采访了相关专家。

技术路径差异：主打“视觉原语思考”

赛迪顾问人工智能与大数据研究中心分析师白润轩指出，DeepSeek识图模式与其他大模型的核心区别，主要体现在技术路径、算力消耗和交互逻辑三个方面。

首先，DeepSeek以“视觉原语思考”为核心框架，强调精准的空间推理与复杂场景解析，而非简单的文字识别或基础图像分类。相比之下，豆包等其他模型更侧重于结合联网搜索来提升识别的时效性，多依赖传统图像编码后进行文本理解，因此在空间推理精度上稍显不足。

其次，在算力效率方面，DeepSeek表现出“算力友好”的特点。处理一张800×800分辨率的图片仅消耗约90个tokens（词元），远低于GPT等主流模型，从而实现更快的响应速度。

此外，DeepSeek的识图模式为独立入口，专注于纯视觉理解，不额外启用联网功能；而豆包等模型则会在识别过程中自动联动搜索，依赖外部信息补充。

核心创新：用“赛博手指”精准指物

伴随识图模式上线，DeepSeek也公开了其背后多模态模型的技术细节，“视觉原语思考”框架成为关注焦点。

白润轩解释，该框架的创新之处在于跳出主流模型“堆分辨率”的思路，转而解决传统多模态模型面临的“指代鸿沟”困境。传统模型在面对密集场景时，常因使用“左边那个大的”等模糊语言描述目标，导致注意力漂移、识别不准。

而“视觉原语思考”将点、边界框等空间视觉元素融入模型推理全过程，如同为AI装上一根“赛博手指”，让其在“思考”时能精确“指向”目标物，边想边指，显著提升在复杂布局、密集计数等任务中的推理精度。

现存不足与改进方向

尽管能力突出，但白润轩也指出，DeepSeek识图模式目前仍存在三方面不足：

一是知识库更新滞后。模型训练数据截至2025年，在识别2025年底之后发布的新产品时，可能出现型号误判。

二是高难度场景表现不稳定。面对视错觉图片、复杂物体计数等反直觉任务时，模型偶发逻辑崩溃，答案稳定性不足。

三是功能边界较窄。目前仅支持纯视觉理解，尚不具备图像生成、视频理解及跨模态创作能力。在高并发时段，也偶有解析失败、响应延迟的情况。

“建议后续加快知识库迭代，优化反直觉场景算法，同时拓展多模态功能，提升系统稳定性，以更好满足用户多样化需求。”白润轩说。

希鸥网观察认为，DeepSeek识图模式的推出，不仅是技术路径的一次创新，更标志着国产大模型在多模态能力上正从“能看”迈向“看懂”。其“视觉原语思考”框架为行业提供了新的技术范式，展现出高效、精准的视觉推理潜力。

随着多模态技术不断演进，AI将不再只是语言的处理器，更将成为真正意义上的“视觉思考者”。未来，能否在保持算力优势的同时，拓展功能边界、提升知识实时性，将是决定其竞争力的关键。

希鸥网观察指出，当前AI竞争已进入“拼细节、拼场景、拼效率”的深水区。DeepSeek此次聚焦视觉推理精度与算力效率的突破，展现了差异化竞争的清晰思路。下一步，如何构建更完整的多模态生态，将是其从技术领先走向市场领先的必由之路。

（本稿件整理自网络公开报道，将同步发布希鸥网、创新日报、锐CEO网、NasdaqLtd观察网、斯贝瑞品牌资讯、AI联播等网站，编辑：张多金，微信号：meisceo29，写稿、投稿咨询联系我。）