OCR

Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.

Tesseract

Tesseract es el motor OCR libre más potente, el que mejores resultados da.

Funciona en línea de comandos:

tesseract imagen_escaneada.png texto

Frontends para Tesseract:

gImageReader

Mejorando resultados

Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.

El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

https://tesseract-ocr.github.io/

Docker

https://hub.docker.com/r/jitesoft/tesseract-ocr

Recursos

Writing a Fuzzy Receipt Parser in Python (Repositorio)