informatica:ocr
Tabla de Contenidos
OCR
Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.
Tesseract
Tesseract es el motor OCR libre más potente, el que mejores resultados da.
Funciona en línea de comandos:
tesseract imagen_escaneada.png texto
Mejorando resultados
Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.
El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.
Docker
Frontends para Tesseract
Aplicaciones para usar Tesseract con interfaz gráfica.
Recursos
informatica/ocr.txt · Última modificación: por tempwin
