Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.
Tesseract es el motor OCR libre más potente, el que mejores resultados da.
Funciona en línea de comandos:
tesseract imagen_escaneada.png texto
Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.
El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.
Aplicaciones para usar Tesseract con interfaz gráfica.