jueves, 6 de julio de 2017

Un buen Sandwich

Algunas instituciones de mi país tienen procedimientos muy rigurosos para publicar información. Es así que algunas veces la secretaria redacta un reglamento basándose en alguno anterior. Luego de trabajar durante algún tiempo corrigiendo el texto para capturar lo que el abogado secretario desea plasmar, se obtiene un archivo de texto con la versión final.
Cabe recordar que para poder realizar búsquedas desde una computadora, es este el formato necesario para colgar en un sitio WEB. Pero un reglamento sin firma de responsabilidad no es válido en realidad, bueno entonces se procede a imprimir el reglamento o documento legal, se le coloca la firma de responsabilidad por todos los implicados en este documentosidio y se procede a escanear el documento para esta vez si, poder colgarlo "como debe de ser".  El problema es que ahora en lugar de tener texto buscable con el poder la computación, se tiene una foto en la que no se pueden realizar busquedas sin realizar algún procesamiento previo, pero nadie quiere saltarse los pasos de ley, no es verdad??

Hoy por n-sima vez utilicé linux y programas con licencia GNU para poder pasar de fotos que provienen de un escaner a un texto buscable. Al tratarse del mundo Open-Source, el camino no es sencillo.  De cualquier manera, llevo utilizando para  esta tarea el script llamado pdfsandwich; mismo que solo ejecuta un script de enlace con varias herramientas que hacen la dificil tarea de reconocer el texto (tesseract), previo el uso de una conversión de color a escala de grises, a veces se corrige las inclinaciones del texto, y se coloca el texto por debajo de la imagen del texto (gs o ghostScript), para finalmente obtener una nueva versión del documento pero con texto buscable. Una opción "razonable" cuando nuestra conexión a internet de subida impide enviar los grandes archivos a un servicio en la nube, bueno, y por los problemas de seguridad ue ello implica.

El comando típico que utilizamos sería:

pdfsandwich -lang spa -layout single -o texto  -debug -verbose archivo.pdf

Lang es de language y spa es de spanish
layout es por si se trata de una columna o 2 columnas
-o es de output o salida, para indicar el nombre del archivo de salida
-debug para guardar todos los archivos intermedios por cada página.
-verbose para leer los mensajes y poder saber en qué página se encuentra.
y obvio, el archivo con las fotos a procesar.

La herramienta no es perfecta, pero es gratis y abierta. Entonces si deseas mejorarla solo cierra la boca y dedicate a programar :)


No hay comentarios:

Publicar un comentario