Herramientas de usuario

Herramientas del sitio


informatica:ocr

OCR

Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.

Tesseract

Tesseract es el motor OCR libre más potente, el que mejores resultados da.

Funciona en línea de comandos:

tesseract imagen_escaneada.png texto

Mejorando resultados

Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.

El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.

Docker

Frontends para Tesseract

Aplicaciones para usar Tesseract con interfaz gráfica.

Recursos

informatica/ocr.txt · Última modificación: por tempwin