DeepSeek-AI 在文档 AI 和光学字符识别 (OCR) 领域取得了重大进展,宣布发布 DeepSeek-OCR,一个拥有 30 亿个参数的视觉语言模型 (VLM),专为大规模、高精度 OCR 和结构化文档转换而设计。此版本解决了当前 AI 工作流程中的一个关键瓶颈:如何高效且高保真地处理长篇、文本丰富的文档(例如报告、书籍或法律文件)。
什么是 DeepSeek-OCR?它为何重要?
DeepSeek-OCR 不仅仅是另一个 OCR 工具,它还是 视觉语言模型(VLM) 旨在解决传统文档处理的最大痛点:过度使用令牌、推理缓慢以及对布局或复杂内容(如表格、公式或化学结构)的处理不佳。
它的核心是“光学上下文压缩”:将文本密集的文档转换为紧凑的视觉标记。与文本标记(离散且占用大量内存)不同,视觉标记每个单元承载的信息量更大,这意味着您可以用更少的资源完成更多工作。
对于企业、研究人员或开发人员来说,这意味着:
更快地处理大量文档(例如学术论文、财务报告)。
降低云或 GPU 成本(更少的代币 = 更少的计算能力)。
准确识别破坏基本 OCR 工具的复杂布局(多列文本、混合文本图像)。

Deepseek-OCR 更新概述
DeepEncoder:一种高分辨率视觉编码器,结合使用窗口注意力机制(基于 SAM)进行局部感知,以及密集全局注意力机制(CLIP 风格)进行聚合视觉知识。它通过 2 层卷积压缩器(16 倍下采样)将图像压缩成少量视觉标记。
解码器(DeepSeek3B-MoE-A570M):一个拥有 30 亿个参数的混合专家 (MoE) 语言解码器,每个标记约有 5.7 亿个有效参数。这个高效的解码器能够提取视觉标记,并输出重建的文本和结构化数据。
动态模式:对于复杂文档(密集布局、图表、表格),“Gundam”和“Gundam-Master”模式结合了多个平铺的本地视图和一个全局视图,以根据文档复杂性最佳地分配令牌。
Deep seek-OCR 的更新会影响哪些领域?
该模型可在许多领域实现实际应用:
大型企业文档处理:报告、合同、技术手册、书籍、科学论文——高吞吐量和压缩使其具有成本效益。
结构化文档转换:除了纯文本 OCR 之外,该模型还可以解析图表、化学公式、几何图形、表格并将其转换为结构化格式(例如 HTML 表格、SMILES)以供下游使用。
LLM/VLM 的长上下文工作流:通过将数千个文本标记压缩为几百个视觉标记,该模型能够更经济地将长格式文档输入大型语言模型,从而减少标记预算和内存开销。
多语言和多样化格式支持:虽然确切的语言覆盖范围尚未完全公开,但底层架构支持丰富的文档格式,并针对多模式数据进行了训练。
DeepSeek-OCR 更新意味着什么?
在上一节中,我们概述了 DeepSeek-OCR 的最新更新。简单来说,此版本带来了三大改进:优化的 token 效率、增强的文档结构理解,以及为开发者和日常用户带来更轻量、更流畅的体验。
此次升级不仅使工程师受益,也使那些依赖 DeepSeek 作为日常生产力助手的用户受益——在多个维度上显著提高准确性和速度:
减少长文档识别中的错误
在处理长篇报告或研究论文时,传统的 OCR 或视觉语言模型往往会消耗大量的计算和标记,并且经常在处理过程中“忘记”早期的内容。
DeepSeek-OCR 引入了一种视觉压缩机制,将长文档压缩为更少的标记,然后再进行语义理解和数据提取。这种方法节省了计算资源,实现了更稳定的上下文管理,并显著减少了长文档的识别错误。
节省复杂文档组织的时间
在法律、金融、研究和营销等领域,文档通常包含复杂的布局——表格、图表、公式和多列结构。更新后的 DeepSeek-OCR 能够智能识别并重建这些混合元素(而不仅仅是纯文本),同时保留大部分原始格式。
这使得文档的数字化和结构重组更快、更准确——非常适合存档、报告编制或人工智能驱动的文档阅读。
打破跨语言和跨领域的障碍
该模型的新训练数据集涵盖100多种语言和超过3000万页文档,涵盖主流语言和低资源语言。该模型还经过训练,可以识别几何图形和化学式等专业内容。
因此,全球企业现在无需使用单独的工具即可从多语言合同或日语财务报表中提取文本,而教育工作者和研究人员可以将数学或科学材料数字化——准确识别视觉结构而无需手动重新绘制。
一个新的假设:利用分辨率来模拟“遗忘机制”
DeepSeek 团队最有趣的想法之一是使用分辨率来模拟选择性记忆。
简单来说,系统会以不同的清晰度“记住”文档:
- 高分辨率,可显示关键细节(如图表和公式)。
- 低分辨率适用于不太重要的信息或总体布局。
这种设计使系统能够更高效地存储大量文档历史记录,并在检索数据时智能地决定哪些部分需要完全重建,哪些部分可以进行汇总。本质上,它赋予了人工智能更像人类的选择性记忆能力,从而提高了长期知识管理和检索效率。
然而,这种方法也带来了挑战。降低分辨率不可避免地会牺牲一些信息。如果数据压缩过度,恢复精细细节就会变得困难。未来的版本需要在资源优化和精度保持之间取得平衡,才能充分发挥这一理念的潜力。
展望未来:Document AI 的转折点
DeepSeek-OCR 的发布标志着 Document AI 演进的一个重要里程碑,它将 OCR 从简单的文本提取推进到结构化理解和智能文档推理。
一旦 2025 年正式推出,日常用户和开发人员都可以期待更快的识别、更精确的结构化输出和更流畅的用户体验。
值得注意的是,OCR 并非图像到文本理解的唯一途径。大型语言模型 (LLM) 也可以通过多模态感知进行视觉文本提取。
在上一篇文章中,我们比较了各种图像到文本转换器(查看完整指南).
在 iWeaver.ai,我们使用基于 OCR 的结构化提取技术——提供高精度和特定领域的优化。
如果您想体验 iWeaver 的 OCR 功能,请尝试 AI图像摘要器.