L'informatique

5 applications OCR pour convertir des documents numérisés en texte

L’OCR , connu en espagnol sous le nom de ROC (Optical Character Recognition), est un processus par lequel, à partir d’un texte numérisé, des lettres, des symboles et des caractères peuvent être identifiés pour les stocker sous forme de texte et pouvoir les utiliser, par exemple, dans un traitement de texte comme Word.

Grâce aux programmes OCR , au lieu d’avoir à transcrire un document complet, simplement en scannant ou en numérisant les pages nous pourrons en extraire tout le texte pour l’insérer, comme nous l’avons dit, dans un traitement de texte tel que Word ou tout autre autre programme similaire. Bien que le résultat ne soit généralement pas précis à 100%, il est généralement assez précis et, une fois le texte numérisé et extrait, un simple examen superficiel suffira pour corriger les erreurs de reconnaissance de caractères et ainsi pouvoir sauvegarder notre document sur l’ordinateur en mode texte.

Il existe plusieurs applications OCR pour extraire du texte d’images et l’importer dans un processeur. Ensuite, nous allons voir les plus connus et les plus utilisés.

ABBYY FineReader, l’un des programmes OCR les plus complets

ABBYY FineReader est une application qui nous permet de reconnaître tous les caractères d’une image ou d’un document PDF, de les extraire et de nous permettre de les copier et de travailler avec eux comme s’il s’agissait de texte brut . C’est l’un des outils les plus efficaces, avec un taux de réussite très élevé, et compatible avec plus de 190 langues différentes. De plus, il s’intègre parfaitement à Microsoft Word afin que, si nous numérisons un document, nous puissions l’avoir automatiquement sous forme de texte dans l’outil Microsoft.

Bien que ce soit probablement le programme le plus efficace à cet égard, le principal problème est qu’il est payant, et pas exactement bon marché (200 euros pour la version la plus limitée en fonctions), donc si nous recherchons un programme qui nous permette de convertir nos scans au texte, nous pouvons essayer l’une des alternatives gratuites suivantes.

Tesseract, une bibliothèque OCR 100% JavaScript

Cette bibliothèque OCR a commencé son voyage en 1995 et, depuis lors, elle n’a cessé de croître et de se mettre à jour pour devenir l’un des meilleurs outils de reconnaissance numérique de caractères dans le domaine libre et OpenSource. Cette application peut être un peu compliquée à utiliser puisque son utilisation doit se faire depuis un terminal ou depuis une fenêtre CMD, cependant, les commandes sont très simples et le résultat qu’elle nous offre est excellent en termes de précision.

Nous pouvons trouver plus d’informations à ce sujet, un guide d’installation et d’utilisation et son téléchargement depuis sa page principale GitHub . Cette application est disponible pour Windows, Linux et macOS.

GImageReader, une interface pour Tesseract

Au point précédent, nous avons parlé de la bibliothèque Tesseract écrite en JavaScripy et nous avons dit que son principal inconvénient est qu’elle doit être utilisée depuis un terminal.

GImageReader est un frontend , ou une interface, qui utilise cette bibliothèque et qui nous permet d’utiliser les fonctions de reconnaissance de manière très simple et intuitive. Grâce à cet outil, les utilisateurs qui n’osent pas utiliser Tesseract avec des commandes pourront utiliser confortablement la bibliothèque depuis une fenêtre avec un clavier et une souris.

Cet outil est disponible pour Windows et Linux, et nous pouvons le télécharger à partir du lien suivant .

(a9t9) Logiciel OCR gratuit

(a9t9) Le logiciel OCR gratuit est une autre alternative, également open source, aux applications de reconnaissance de caractères précédentes. Cette option a également un taux de réussite élevé et, en outre, elle peut être exécutée directement à partir du navigateur sans avoir besoin d’installer de logiciel supplémentaire.

Nous pouvons utiliser cet outil directement depuis notre navigateur depuis sa page Web principale . Si nous le voulons, nous pouvons également télécharger un client gratuit depuis le Windows Store (pour Windows 8 et Windows 10) et une extension pour Google Chrome.

OCR gratuit vers Word, une alternative plus gratuite

Bien que nous soyons sortis du domaine OpenSource, nous ne voulions pas en finir sans parler de Free OCR to Word . Cette application nous permet de reconnaître les caractères de différents formats de fichiers, tels que JPG, JPEG, PSD, PNG, GIF, TIFF et BMP, entre autres, et de les importer directement dans un document Word entièrement modifiable afin d’éviter la tâche fastidieuse de réécrire ces documents.

Nous pouvons télécharger cette application gratuitement à partir de son site Web principal .

Connaissez-vous ou utilisez-vous d’autres applications pour la reconnaissance optique de caractères?

Articles Similaires

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba