Dans une avancée majeure pour l'IA documentaire et la reconnaissance optique de caractères (OCR), DeepSeek-AI a annoncé la sortie de DeepSeek-OCR, un modèle vision-langage (VLM) de 3 milliards de paramètres, conçu spécifiquement pour l'OCR haute précision à grande échelle et la conversion de documents structurés. Cette version résout l'un des principaux goulots d'étranglement des workflows d'IA actuels : comment traiter efficacement et avec une grande fidélité des documents longs et riches en texte (tels que des rapports, des livres ou des documents juridiques).
Qu'est-ce que DeepSeek-OCR et pourquoi est-ce important ?
DeepSeek-OCR n'est pas simplement un autre outil OCR, c'est un modèle vision-langage (VLM) conçu pour résoudre les plus gros problèmes du traitement traditionnel des documents : utilisation excessive de jetons, inférence lente et mauvaise gestion des mises en page ou du contenu complexe (comme les tableaux, les formules ou les structures chimiques).
Fondamentalement, il utilise la « compression optique du contexte » : il convertit les documents textuels en jetons visuels compacts. Contrairement aux jetons textuels (discrets et gourmands en mémoire), les jetons visuels contiennent davantage d'informations par unité, ce qui signifie que vous pouvez optimiser vos performances avec moins de ressources.
Pour les entreprises, les chercheurs ou les développeurs, cela se traduit par :
Traitement plus rapide de lots de documents volumineux (par exemple, documents universitaires, rapports financiers).
Coûts cloud ou GPU inférieurs (moins de jetons = moins de puissance de calcul).
Reconnaissance précise des mises en page complexes (texte multicolonne, texte-images mixtes) qui ne fonctionnent pas avec les outils OCR de base.

Présentation de la mise à jour Deepseek-OCR
DeepEncoderUn encodeur de vision haute résolution utilise une combinaison d'attention de fenêtre (basée sur SAM) pour la perception locale et d'attention globale dense (de type CLIP) pour l'agrégation des connaissances visuelles. Il compresse l'image en quelques jetons de vision grâce à un compresseur convolutif à deux couches (sous-échantillonnage 16×).
Décodeur (DeepSeek3B-MoE-A570M)Un décodeur de langage Mixture of Experts (MoE) de 3 milliards de paramètres, avec environ 570 millions de paramètres actifs par jeton. Ce décodeur performant ingère les jetons de vision et génère le texte reconstruit et les données structurées.
Modes dynamiques:Pour les documents complexes (mise en page dense, graphiques, tableaux), les modes « Gundam » et « Gundam-Master » combinent plusieurs vues locales en mosaïque ainsi qu'une vue globale pour allouer de manière optimale les jetons en fonction de la complexité du document.
Quels champs seront affectés par la mise à jour de Deep seek-OCR ?
Ce modèle ouvre des applications pratiques dans de nombreux domaines :
Traitement de documents d'entreprise à grande échelle:Rapports, contrats, manuels techniques, livres, articles scientifiques : le débit élevé et la compression le rendent rentable.
Conversion de documents structurés:Au-delà de l'OCR en texte brut, le modèle peut analyser des graphiques, des formules chimiques, des figures géométriques, des tableaux et les convertir en formats structurés (par exemple, des tableaux HTML, SMILES) pour une utilisation en aval.
Flux de travail à contexte long pour les LLM/VLM:En compressant des milliers de jetons de texte en quelques centaines de jetons de vision, le modèle permet d'alimenter des documents longs dans de grands modèles linguistiques de manière plus économique, réduisant ainsi le budget des jetons et la surcharge de mémoire.
Prise en charge de formats multilingues et diversifiés:Bien que la couverture linguistique exacte ne soit pas entièrement divulguée, l'architecture sous-jacente prend en charge des formats de documents riches et a été formée sur des données multimodales.
Que signifie la mise à jour DeepSeek-OCR ?
Dans la section précédente, nous avons présenté la dernière mise à jour de DeepSeek-OCR. En résumé, cette version apporte trois améliorations majeures : une efficacité optimisée des jetons, une meilleure compréhension de la structure des documents et une expérience plus légère et simplifiée, tant pour les développeurs que pour les utilisateurs.
Cette mise à niveau profite non seulement aux ingénieurs, mais également à ceux qui comptent sur DeepSeek comme assistant de productivité quotidien, offrant des améliorations notables en termes de précision et de vitesse dans plusieurs dimensions :
Réduire les erreurs dans la reconnaissance de documents longs
Lors du traitement de longs rapports ou d’articles de recherche, les modèles OCR ou de langage visuel traditionnels ont tendance à consommer de grandes quantités de calculs et de jetons, « oubliant » souvent le contenu antérieur au cours du processus.
DeepSeek-OCR introduit un mécanisme de compression visuelle qui condense les documents longs en un nombre réduit de jetons avant de procéder à la compréhension sémantique et à l'extraction des données. Cette approche économise les ressources de calcul, permet une gestion du contexte plus stable et réduit considérablement les erreurs de reconnaissance dans les documents longs.
Gagner du temps sur l'organisation de documents complexes
Dans des domaines comme le droit, la finance, la recherche et le marketing, les documents contiennent souvent des mises en page complexes : tableaux, graphiques, formules et structures multicolonnes. La nouvelle version de DeepSeek-OCR reconnaît et reconstruit intelligemment ces éléments mixtes, et pas seulement du texte brut, tout en préservant une grande partie de la mise en forme d'origine.
Cela rend la numérisation et la réorganisation structurelle des documents plus rapides et plus précises, idéales pour l'archivage, la compilation de rapports ou la lecture de documents pilotée par l'IA.
Briser les barrières interlinguistiques et interdomaines
Le nouveau jeu de données d'entraînement du modèle couvre plus de 100 langues et plus de 30 millions de pages de documents, couvrant à la fois les langues courantes et celles nécessitant peu de ressources. Il a également été entraîné à reconnaître des contenus spécialisés tels que des diagrammes géométriques et des formules chimiques.
En conséquence, les entreprises mondiales peuvent désormais extraire du texte de contrats multilingues ou d’états financiers japonais sans utiliser d’outils distincts, tandis que les enseignants et les chercheurs peuvent numériser des supports mathématiques ou scientifiques, en identifiant avec précision les structures visuelles sans avoir à les redessiner manuellement.
Une nouvelle hypothèse : utiliser la résolution pour simuler un « mécanisme d’oubli »
L’une des idées les plus intrigantes de l’équipe DeepSeek est l’utilisation de la résolution comme moyen de simuler la mémoire sélective.
En termes simples, le système « mémorise » les documents à différents niveaux de clarté :
- Haute résolution pour les détails critiques (comme les graphiques et les formules).
- Basse résolution pour des informations moins essentielles ou une mise en page générale.
Cette conception permet au système de stocker plus efficacement d'importants historiques de documents et, lors de la récupération des données, de déterminer intelligemment les parties nécessitant une reconstruction complète et celles pouvant être synthétisées. Concrètement, elle confère à l'IA une mémoire sélective plus proche de celle de l'humain, améliorant ainsi la gestion des connaissances à long terme et l'efficacité de la récupération.
Cependant, cette approche présente également des défis. La réduction de la résolution sacrifie inévitablement certaines informations. Si les données sont trop compressées, la restitution des détails fins devient difficile. Les versions futures devront trouver un équilibre entre l'optimisation des ressources et la préservation de la précision pour exploiter pleinement le potentiel de cette idée.
Perspectives d'avenir : un tournant pour Document AI
La sortie de DeepSeek-OCR marque une étape majeure dans l'évolution de Document AI. Elle fait évoluer l'OCR de la simple extraction de texte vers une compréhension structurée et un raisonnement intelligent des documents.
Une fois officiellement lancé en 2025, les utilisateurs quotidiens et les développeurs peuvent s'attendre à une reconnaissance plus rapide, des sorties structurées plus précises et une expérience utilisateur plus fluide.
Il est important de noter que l'OCR n'est pas la seule voie vers la compréhension de l'image en texte. Les grands modèles linguistiques (LLM) peuvent également effectuer l'extraction visuelle de texte grâce à la perception multimodale.
Dans un article précédent, nous avons comparé différents convertisseurs d'image en texte (voir le guide complet).
Chez iWeaver.ai, nous utilisons une technologie d'extraction structurée basée sur l'OCR, offrant une grande précision et une optimisation spécifique au domaine.
Si vous souhaitez découvrir les capacités OCR d'iWeaver, essayez le Résumé d'images IA.