informatica:ocr
¡Esta es una revisión vieja del documento!
Tabla de Contenidos
OCR
Reconocimiento óptico de caracteres (Optical Character Recognition). Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos.
Tesseract
Tesseract es el motor OCR libre más potente, el que mejores resultados da.
Funciona en línea de comandos:
tesseract imagen_escaneada.png texto
Frontends para Tesseract:
Mejorando resultados
Para que el reconocimiento sea más acertado es importante que la imagen que va a procesar Tesseract sea lo más clara posible en términos de contraste, resolución, etc.
El script Textcleaner basado en ImageMagick realiza varias de estas operaciones de forma automática.
Docker
Recursos
informatica/ocr.1744978167.txt.gz · Última modificación: por tempwin
