Herramientas de usuario

Herramientas del sitio


informatica:ocr

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Próxima revisión
Revisión previa
informatica:ocr [2020/12/06 10:15] – creado tempwininformatica:ocr [2025/04/18 14:10] (actual) – [Docker] tempwin
Línea 1: Línea 1:
 ====== OCR ====== ====== OCR ======
  
-Reconocimiento óptico de caracteres (//Optical Character Recognition//) +Reconocimiento óptico de caracteres (//Optical Character Recognition//). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. 
- +===== Tesseract =====
-===== Software =====+
  
 Tesseract es el motor OCR libre más potente, el que mejores resultados da. Tesseract es el motor OCR libre más potente, el que mejores resultados da.
 +
 +  * [[https://github.com/tesseract-ocr/tesseract|Respositorio oficial]]
 +  * [[https://tesseract-ocr.github.io/|Documentación oficial]]
  
 Funciona en línea de comandos: Funciona en línea de comandos:
Línea 13: Línea 15:
 </code> </code>
  
-Frontends para tesseract: 
  
-  * gImageReader+==== Mejorando resultados ==== 
 + 
 +Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc. 
 + 
 +El script [[http://www.fmwconcepts.com/imagemagick/textcleaner/index.php|Textcleaner]] basado en [[https://imagemagick.org/index.php|ImageMagick]] realiza varias de estas operaciones de forma automática. 
 + 
 +  https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html 
 + 
 +  * https://tesseract-ocr.github.io/ 
 + 
 +==== Docker ==== 
 + 
 +https://hub.docker.com/r/jitesoft/tesseract-ocr 
 + 
 +==== Frontends para Tesseract ==== 
 + 
 +Aplicaciones para usar Tesseract con interfaz gráfica. 
 + 
 +  * [[https://github.com/manisandro/gImageReader|gImageReader]] 
 + 
 +===== Recursos =====
  
 +  * [[https://tech.trivago.com/2015/10/06/python_receipt_parser/|Writing a Fuzzy Receipt Parser in Python]] ([[https://github.com/ReceiptManager/receipt-parser|Repositorio]])
informatica/ocr.1607246102.txt.gz · Última modificación: por tempwin