{"id":23097,"date":"2026-01-29T19:43:28","date_gmt":"2026-01-29T11:43:28","guid":{"rendered":"https:\/\/www.iweaver.ai\/?p=23097"},"modified":"2026-01-29T19:47:16","modified_gmt":"2026-01-29T11:47:16","slug":"deepseek-ocr2-deep-dive-how-deploy","status":"publish","type":"post","link":"https:\/\/www.iweaver.ai\/pt\/blog\/deepseek-ocr2-deep-dive-how-deploy\/","title":{"rendered":"An\u00e1lise detalhada do DeepSeek OCR 2: Como extrair com precis\u00e3o tabelas complexas e documentos com v\u00e1rias colunas (Um guia pr\u00e1tico)"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"23097\" class=\"elementor elementor-23097\" data-elementor-post-type=\"post\">\n\t\t\t\t<div class=\"elementor-element elementor-element-511dc79e e-flex e-con-boxed e-con e-parent\" data-id=\"511dc79e\" data-element_type=\"container\">\n\t\t\t\t\t<div class=\"e-con-inner\">\n\t\t\t\t<div class=\"elementor-element elementor-element-1ed5e4a2 elementor-widget elementor-widget-text-editor\" data-id=\"1ed5e4a2\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t\n<p class=\"wp-block-paragraph\">Em 27 de janeiro, a DeepSeek lan\u00e7ou o OCR 2 como um modelo de c\u00f3digo aberto. Ap\u00f3s analisar seus <a href=\"https:\/\/huggingface.co\/deepseek-ai\/DeepSeek-OCR-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">relat\u00f3rio t\u00e9cnico<\/mark><\/a>Acredito que isso representa uma mudan\u00e7a sistem\u00e1tica na forma como a IA compreende dados visuais. Em vez de simplesmente aumentar o n\u00famero de par\u00e2metros, o DeepSeek focou em mudan\u00e7as arquitet\u00f4nicas fundamentais para melhorar o desempenho al\u00e9m dos limites dos modelos tradicionais de vis\u00e3o e linguagem (VLMs).<\/p>\n\n<h2 class=\"wp-block-heading\">DeepSeek OCR 2 \u00e9 mais do que apenas reconhecimento de texto.<\/h2>\n\n<p class=\"wp-block-paragraph\">O DeepSeek OCR 2 \u00e9 um modelo de vis\u00e3o e linguagem de \u00faltima gera\u00e7\u00e3o com 3 bilh\u00f5es de par\u00e2metros. Ele difere significativamente de ferramentas tradicionais como o Tesseract ou modelos visuais b\u00e1sicos. O OCR 2 prioriza dois objetivos espec\u00edficos:<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Ordem de leitura correta:<\/strong> Mant\u00e9m a sequ\u00eancia adequada para textos com v\u00e1rias colunas, notas de rodap\u00e9 e a rela\u00e7\u00e3o entre cabe\u00e7alhos e corpo do texto.<\/li>\n\n<li><strong>Estrutura de layout est\u00e1vel:<\/strong> Isso garante que tabelas, listas e conte\u00fado misto sejam formatados em estruturas utiliz\u00e1veis.<\/li>\n<\/ul>\n\n<p class=\"wp-block-paragraph\">Se voc\u00ea precisa processar digitaliza\u00e7\u00f5es de PDF para entrada em banco de dados, limpar dados para sistemas RAG ou analisar relat\u00f3rios financeiros complexos, o OCR 2 oferece um alto n\u00edvel de precis\u00e3o e reconstru\u00e7\u00e3o l\u00f3gica.<\/p>\n\n<h2 class=\"wp-block-heading\">Inova\u00e7\u00e3o arquitet\u00f4nica: por que o DeepSeek OCR 2 \u00e9 t\u00e3o eficiente?<\/h2>\n\n<h3 class=\"wp-block-heading\">Substituindo o CLIP por um modelo de linguagem<\/h3>\n\n<p class=\"wp-block-paragraph\">A maioria dos modelos visuais mais antigos usa o CLIP como componente de processamento de imagens. O CLIP foi projetado para associar imagens a r\u00f3tulos de texto. No entanto, ele n\u00e3o consegue compreender a rela\u00e7\u00e3o l\u00f3gica entre diferentes partes de um documento denso.<\/p>\n\n<p class=\"wp-block-paragraph\"><strong>O DeepSeek <\/strong><strong>Solu\u00e7\u00e3o<\/strong><strong>:<\/strong> Eles usaram <strong>Qwen2-0,5B<\/strong> (uma arquitetura baseada em LLM) como n\u00facleo do codificador de vis\u00e3o.<\/p>\n\n<p class=\"wp-block-paragraph\"><strong>O benef\u00edcio:<\/strong> Como o codificador \u00e9 baseado em um modelo de linguagem, os tokens visuais possuem uma capacidade b\u00e1sica de racioc\u00ednio durante o est\u00e1gio inicial. O modelo consegue identificar quais pixels pertencem a um cabe\u00e7alho e quais pertencem ao limite de uma tabela, o que leva a um processamento de dados mais preciso.<\/p>\n\n<figure class=\"wp-block-image size-large\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"564\" class=\"wp-image-23098\" src=\"https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp\" alt=\"\" srcset=\"https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1024x564.webp 1024w, https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-300x165.webp 300w, https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-768x423.webp 768w, https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-1536x846.webp 1536w, https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-2048x1129.webp 2048w, https:\/\/www.iweaver.ai\/wp-content\/uploads\/2026\/01\/deepseek-deepencoder-v2-architecture-comparison-diagram-showing-lm-as-vision-encoder-and-visual-causal-flow-18x10.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<h3 class=\"wp-block-heading\">DeepEncoder V2 e Fluxo Causal Visual<\/h3>\n\n<p class=\"wp-block-paragraph\">Esta \u00e9 a inova\u00e7\u00e3o t\u00e9cnica mais significativa do OCR 2. Muitos modelos processam imagens em uma grade fixa, do canto superior esquerdo para o canto inferior direito. Essa ordem fixa frequentemente causa erros quando o modelo encontra tabelas complexas ou p\u00e1ginas com v\u00e1rias colunas.<\/p>\n\n<p class=\"wp-block-paragraph\"><strong>O DeepSeek <\/strong><strong>Solu\u00e7\u00e3o<\/strong><strong>:<\/strong> Eles acrescentaram <strong>Fluxo Causal Visual<\/strong> para o componente DeepEncoder V2:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>O modelo primeiro coleta as informa\u00e7\u00f5es globais de toda a p\u00e1gina.<\/li>\n\n<li>Ele usa consultas aprend\u00edveis para reordenar os tokens visuais.<\/li>\n\n<li>Ele envia essa sequ\u00eancia logicamente organizada para o decodificador para gerar o texto.<\/li>\n<\/ol>\n\n<p class=\"wp-block-paragraph\">Isso permite que o modelo colete informa\u00e7\u00f5es com base no significado real dos dados. Como as informa\u00e7\u00f5es s\u00e3o organizadas por layout e sem\u00e2ntica durante a etapa de codifica\u00e7\u00e3o, a sa\u00edda final \u00e9 muito est\u00e1vel.<\/p>\n\n<figure class=\"wp-block-table\">\n<table class=\"has-fixed-layout\">\n<tbody>\n<tr>\n<td>M\u00e9trica<\/td>\n<td>Modelos tradicionais de OCR<\/td>\n<td>DeepSeek OCR 2<\/td>\n<\/tr>\n<tr>\n<td>Erro na ordem de leitura<\/td>\n<td>Alto (dificuldades com colunas)<\/td>\n<td>Significativamente menor (a dist\u00e2ncia de edi\u00e7\u00e3o caiu para 0,057)<\/td>\n<\/tr>\n<tr>\n<td>Compress\u00e3o de Tokens<\/td>\n<td>Baixo (milhares de tokens por p\u00e1gina)<\/td>\n<td>Muito alto (256 a 1120 tokens por p\u00e1gina)<\/td>\n<\/tr>\n<tr>\n<td>Estabilidade\/Precis\u00e3o<\/td>\n<td>Propenso \u00e0 repeti\u00e7\u00e3o ou a erros<\/td>\n<td>Precis\u00e3o do 97% (com compress\u00e3o de 10x)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/figure>\n\n<h3 class=\"wp-block-heading\">Aprimorando a codifica\u00e7\u00e3o visual em dire\u00e7\u00e3o ao racioc\u00ednio<\/h3>\n\n<p class=\"wp-block-paragraph\">Especialistas descrevem o OCR 2 como um &quot;codificador visual orientado por modelo de linguagem&quot;. Isso significa que o codificador se concentra em rela\u00e7\u00f5es espaciais e informa\u00e7\u00f5es estruturais, em vez de apenas extrair caracter\u00edsticas visuais b\u00e1sicas.<\/p>\n\n<p class=\"wp-block-paragraph\"><strong>Os resultados:<\/strong><\/p>\n\n<p class=\"wp-block-paragraph\">No teste profissional OmniDocBench v1.5, o OCR 2 alcan\u00e7ou uma pontua\u00e7\u00e3o de 91,09. Isso representa uma melhoria de 3,73 pontos em rela\u00e7\u00e3o \u00e0 vers\u00e3o anterior. A maior parte do progresso ocorreu na precis\u00e3o da leitura de ordens e no processamento de layouts complexos.<\/p>\n\n<h2 class=\"wp-block-heading\">Como usar o DeepSeek OCR 2: 3 m\u00e9todos de implanta\u00e7\u00e3o r\u00e1pida<\/h2>\n\n<p class=\"wp-block-paragraph\">A DeepSeek disponibilizou os pesos do modelo no Hugging Face. Voc\u00ea pode usar estes tr\u00eas m\u00e9todos para acessar o modelo para produ\u00e7\u00e3o ou pesquisa:<\/p>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 1: Ajuste fino r\u00e1pido via <a href=\"https:\/\/unsloth.ai\/docs\/models\/deepseek-ocr-2\" rel=\"nofollow noopener\" target=\"_blank\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">Unsloth<\/mark><\/a>(Recomendado)<\/h3>\n\n<p class=\"wp-block-paragraph\">O Unsloth \u00e9 otimizado para OCR 2 e reduz significativamente o uso de mem\u00f3ria.<\/p>\n\n<pre class=\"wp-block-code\"><code><em>from unsloth import FastVisionModel import torch # Carregar o modelo model, tokenizer = FastVisionModel.from_pretrained( &quot;unsloth\/DeepSeek-OCR-2&quot;, load_in_4bit = True, # Usar quantiza\u00e7\u00e3o de 4 bits para economizar mem\u00f3ria ) # Prompt template prompt = &quot; &lt;|grounding|&gt;Por favor, converta este documento para Markdown e extraia todas as tabelas.&lt;\/grounding&gt;<\/em><\/code><\/pre>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 2: Infer\u00eancia de Alto Desempenho com vLLM<\/h3>\n\n<p class=\"wp-block-paragraph\">Essa \u00e9 a melhor op\u00e7\u00e3o para organiza\u00e7\u00f5es que precisam lidar com muitas solicita\u00e7\u00f5es simultaneamente.<\/p>\n\n<ul class=\"wp-block-list\">\n<li><strong>Configura\u00e7\u00f5es:<\/strong> A DeepSeek recomenda definir o <em><code>temperatura<\/code><\/em> Para obter os resultados mais consistentes, defina o valor para 0,0.<\/li>\n\n<li><strong>Suporte a idiomas:<\/strong> Voc\u00ea pode especificar o idioma de destino no prompt. Ele suporta mais de 100 idiomas.<\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">M\u00e9todo 3: Transformadores de rosto de abra\u00e7o padr\u00e3o<\/h3>\n\n<p class=\"wp-block-paragraph\">Para m\u00e1xima flexibilidade, utilize a biblioteca padr\u00e3o:<\/p>\n\n<ol class=\"wp-block-list\" start=\"1\">\n<li>Instale os requisitos: <em><code>pip install transformers einops addict easydict<\/code><\/em>.<\/li>\n\n<li>Carregar o modelo: <em><code>AutoModel.from_pretrained(&quot;deepseek-ai\/DeepSeek-OCR-2&quot;, trust_remote_code=True)<\/code><\/em>.<\/li>\n<\/ol>\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><strong>Dica:<\/strong> Ao processar digitaliza\u00e7\u00f5es inclinadas, girar a imagem em apenas 0,5 graus para endireit\u00e1-la pode ajudar o modelo a produzir resultados ainda melhores.<\/p>\n<\/blockquote>\n\n<p class=\"wp-block-paragraph\">Com base na minha longa observa\u00e7\u00e3o da ind\u00fastria de IA, a DeepSeek tem se destacado consistentemente como pioneira na otimiza\u00e7\u00e3o de algoritmos essenciais. Notei que... <a href=\"https:\/\/www.iweaver.ai\/pt\/blog\/deepseek-ocr-vision-language-model\/\"><mark class=\"has-inline-color has-vivid-cyan-blue-color\" style=\"background-color: rgba(0, 0, 0, 0);\">primeiro modelo OCR<\/mark><\/a> Em outubro de 2025, a compress\u00e3o de tokens j\u00e1 era utilizada para melhorar a efici\u00eancia.<\/p>\n\n<p class=\"wp-block-paragraph\">O OCR 2 n\u00e3o \u00e9 apenas uma atualiza\u00e7\u00e3o de desempenho. Ele representa uma mudan\u00e7a fundamental na forma como a IA processa a l\u00f3gica visual. Ao usar uma arquitetura de modelo de linguagem para codifica\u00e7\u00e3o visual, o DeepSeek aumentou a profundidade com que a IA compreende dados complexos. Acredito que esses esfor\u00e7os demonstram um alto n\u00edvel de vis\u00e3o de futuro. Esse m\u00e9todo de organizar informa\u00e7\u00f5es em um n\u00edvel fundamental permite que a IA leia de uma maneira mais semelhante \u00e0 l\u00f3gica humana e fornece um novo padr\u00e3o para extra\u00e7\u00e3o precisa de dados no futuro.<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>On January 27, DeepSeek released OCR 2 as an open-source model. After analyzing their technical report, I believe this represents a systematic shift in how AI understands visual data. Instead of simply increasing the number of parameters, DeepSeek focused on fundamental architectural changes to improve performance beyond the limits of traditional Vision-Language Models (VLMs). DeepSeek [&hellip;]<\/p>\n","protected":false},"author":25,"featured_media":23099,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_title":"","rank_math_description":"DeepSeek has released OCR 2, which optimizes document layouts using Visual Causal Flow. I will explain its core architecture and three ways to deploy it.","rank_math_focus_keyword":"","footnotes":""},"categories":[138],"tags":[],"class_list":["post-23097","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/posts\/23097","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/comments?post=23097"}],"version-history":[{"count":0,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/posts\/23097\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/media\/23099"}],"wp:attachment":[{"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/media?parent=23097"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/categories?post=23097"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.iweaver.ai\/pt\/wp-json\/wp\/v2\/tags?post=23097"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}