====== OCR ======

Reconocimiento óptico de caracteres (//Optical Character Recognition//). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.
===== Tesseract =====

Tesseract es el motor OCR libre más potente, el que mejores resultados da.

  * [[https://github.com/tesseract-ocr/tesseract|Respositorio oficial]]
  * [[https://tesseract-ocr.github.io/|Documentación oficial]]

Funciona en línea de comandos:

<code>
tesseract imagen_escaneada.png texto
</code>


==== Mejorando resultados ====

Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.

El script [[http://www.fmwconcepts.com/imagemagick/textcleaner/index.php|Textcleaner]] basado en [[https://imagemagick.org/index.php|ImageMagick]] realiza varias de estas operaciones de forma automática.

  * https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

  * https://tesseract-ocr.github.io/

==== Docker ====

https://hub.docker.com/r/jitesoft/tesseract-ocr

==== Frontends para Tesseract ====

Aplicaciones para usar Tesseract con interfaz gráfica.

  * [[https://github.com/manisandro/gImageReader|gImageReader]]

===== Recursos =====

  * [[https://tech.trivago.com/2015/10/06/python_receipt_parser/|Writing a Fuzzy Receipt Parser in Python]] ([[https://github.com/ReceiptManager/receipt-parser|Repositorio]])