Herramientas de usuario

Herramientas del sitio


informatica:ocr

¡Esta es una revisión vieja del documento!


OCR

Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.

Tesseract

Tesseract es el motor OCR libre más potente, el que mejores resultados da.

Funciona en línea de comandos:

tesseract imagen_escaneada.png texto

Frontends para Tesseract:

  • gImageReader

Mejorando resultados

Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.

El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.

Docker

Recursos

informatica/ocr.1744978073.txt.gz · Última modificación: por tempwin