Mostrando entradas con la etiqueta herramientas. Mostrar todas las entradas
Mostrando entradas con la etiqueta herramientas. Mostrar todas las entradas

lunes, 24 de octubre de 2022

Girar hojas de pdf

Una buena guía para cambiar la orientación de las páginas de un pdf con una herramienta gratuita PDFTK sin recurrir a empresas que cobran por todo está en el siguiente enlace.

https://people.uleth.ca/~daniel.odonnell/blog/rotating-one-or-more-pages-in-a-pdf-in-linux

Anteriormente ya les había contado de las bondades de pdftk en la entrada:

https://barrosjuan.blogspot.com/2017/07/pdftk-y-su-pandilla-pdftops-ps2pdf.html

Y la línea que me salvó hoy fue: 90 grados sentido horario de todo el doc

 

pdftk in.pdf cat 1-endeast output out.pdf

jueves, 14 de mayo de 2020

la vida en tiempos del COVID19

Hablando de la importancia de los datos abiertos para mejorar la colaboración a nivel mundial, existen varias fuentes de información.
Ver por ejemplo:

https://artic.network/ncov-2019

que presenta manuales para usar las herramientas para utilizar los datos obtenidos luego de la secuenciación de ADN.

https://artic.network/ncov-2019/ncov2019-bioinformatics-sop.html 

La información gráfica siempre es interesante. ver por ejemplo los gráficos presentados en:
https://www.ncbi.nlm.nih.gov/nuccore/MN908947.3?report=graph


De la misma manera, existen alternativas para la visualización de los datos. Ver pro ejemplo
https://nextstrain.org/ncov/global


En fin, algo más de información para aprender usando la tecnología actual.

lunes, 16 de abril de 2018

Su duodécima casa en Jupyter

Hace poco comentaba a unos amigos que estaba leyendo un sitio web que declaraba que el "paper" científico está muerto, para sorpresa mía no me prestaron mayor atención.  El artículo se encuentra en la siguiente dirección:  https://www.theatlantic.com/science/archive/2018/04/the-scientific-paper-is-obsolete/556676/
Y entre los candidatos a reemplazar el método tan tradicional de publicación están Wolfram Mathematica y la versión actual de IPython.  Con anterioridad había utilizado IPython en el contexto de robots LEGO mindstorm, en los cuales se permitía el manejo a distancia de los actuadores mediante una interfaz web.  Una idea original, sin duda y muy útil.
Sin embargo, en el artículo que menciono se habla de la nueva tendencia que son los cuadernos o "notebooks". Cuadernos de investigación, muy parecidos a los que usan algunos investigadores con las ideas buenas y los métodos utilizados. Y de hecho, hace poco recibí información sobre el "crash course" de tensorFlow de google (https://developers.google.com/machine-learning/crash-course/representation/video-lecture).  Para mi sorpresa, todo el curso utiliza Jupyter para ayudar en el aprendizaje.
Jupyter es la evolución de IPython y ahora permite utilizar varios lenguajes de programación y no solo Python (https://blog.jupyter.org/ ). Hay más (https://jupyter.org/), el software es de código abierto, un tema recurrente en este blog. Y de repente, una referencia a un texto "antiguo" pero nuevo: la catedral y el bazar; un ensayo sobre el código abierto en nuestro tiempos. http://www.catb.org/esr/writings/cathedral-bazaar/cathedral-bazaar/
En general, los cuadernos permiten presentar de una manera más comprensible el recorrido que llevo a obtener algún resultado de investigación, con la esperanza de que la reproductibilidad de los resultados sea más fácil. Algo difícil de lograr entre científicos que pueden explotar durante años conjuntos de datos que costaron mucho dinero.
Será que los científicos se lograrán adaptar a las tendencias actuales de "open-source" y open-data?

martes, 29 de agosto de 2017

Falta de información - transporte https://andestransit.com/

Siempre me ha parecido interesante la percepción de "normalidad", misma que se desarrolla día a día en las calles, que es en realidad el motor y gestor cultural de los humanos.

Si vivo en un lugar dónde todo el mundo bota basura en la calle, lo más probable es que acepte tal comportamiento como "normal", y bajo las premisas de "siempre ha sido así" y "¿para qué cambiar si hemos vivido así y nada ha pasado?", nunca se logrará un cambio en el comportamiento de las personas, es decir un cambio cultural.

Recuerdo los comentarios de un amigo de la parte norte de Africa sobre la contaminación y la basura.  Para él, la basura no representa ningún problema y el hecho de que esté en el suelo no cambiaba para nada su percepción que existe demasiado espacio en el Sahara en el cual podríamos colocar toda la basura del mundo y aún así no lograríamos llenarlo jamás. Es un buen punto considerando que es un desierto y nada crece en él.

Y es parecido cuando deseo ir a algún lugar en mi ciudad, no hay información en tiempo real sobre las rutas de los buses, por las malas gestiones del municipio de turno. Pero lo mismo sucede cuando vamos a visitar otro país y no existe información sobre los tiempos y frecuencias de los transportes.

Para sopresa mía, existe un sitio web que ayuda con la falta de información para los viajeros inter-nacionales. El sitio es:
https://andestransit.com/
 Y en teoría se pueden comprar y ver las frecuencias de varias empresas que realizan rutas. Por ejemplo: Chachapoyas - Chiclayo o Chiclayo - Huaquillas.
Interesante gestión y manejo para llevar a cabo una idea muy util. Recominedo la herramienta para la planificación de su próximo viaje en América latina. Cabe recalcar que le herramienta no es para nada completa ni exhaustiva pero sin ninguna duda representa una gran ayuda cuando no se conoce mayor cosa del lugar a dónde se llega o desde dónde uno sale.

jueves, 6 de julio de 2017

pdftk y su pandilla pdftops ps2pdf pdfinfo pdfimages

Existe una discusión entre los ñoños sobre el presente y futuro de los datos. Cómo se debe estructurar desde el punto de vista informático un documento portable (PDF)? La tendencia es tratar de separar el contenido del documento de su presentación. Los datos y su presentación podría estar unidos mediante algún tipo de metadato o alguna técnica de hipertexto (alguien dijo XML?).

Lo importante es que al común de los mortales no le interesa perder su tiempo en una discusión tan vanal como esa y prefiere estar de fisgón sobre la vida de sus amigos, utilizando fb por ejemplo.

En algunas ocasiones el problema no es trivial.  Por ejemplo, hoy debía preparar un documento en formato PDF para poder ser enviado e imprimido en algún otro lugar distante. Y es que el código abierto brinda herramientas para por ejemplo:
- obtener las imágenes de un pdf: pdfimages
- obtener el tamaño en puntos de cada una de las páginas: pdfinfo
- realizar cortes o integraciones, separar solo algunas páginas, en general manipulación: pdftk.
- convertir archivos de imagen en otros de tipo pdf: convert

De hecho, pdftk significa ToolKit PDF. Un conjunto  de herramientas para manipular varios aspectos de un pdf.

El problema que se me presentó hoy fue que tenía imágenes escaneadas y las convertí a archivos pdf. Y mediente pdftk pretendía generar un archivo con todos los subdocumentos seleccionados. Pero luego de realizar la integración, al revisar el documento observé que el tamaño de algunas páginas era mayor con respecto  a otras páginas.  Recuerden, en teoría Internet es su amigo. y tras buscar un poco encontré algunas posibles soluciones, algunas no funcionaron.

La solución que funcionó hoy fue convertir el pdf al formato postScript o ps.

pdftops -paper A4 PagsGrandes.pdf nuevoArchivoA4.ps

y luego

ps2pdf nuevoArchivoA4.ps archivoRegulado.pdf

para comprobar el tamaño de las páginas utilizamos, el viejo conocido:

pdfinfo archivoRegulado.pdf

Ahora podemos unir sin ningún problema los archivos con pdftk.

Espero recordar esta nota la próxima vez que tenga este problema.



Un buen Sandwich

Algunas instituciones de mi país tienen procedimientos muy rigurosos para publicar información. Es así que algunas veces la secretaria redacta un reglamento basándose en alguno anterior. Luego de trabajar durante algún tiempo corrigiendo el texto para capturar lo que el abogado secretario desea plasmar, se obtiene un archivo de texto con la versión final.
Cabe recordar que para poder realizar búsquedas desde una computadora, es este el formato necesario para colgar en un sitio WEB. Pero un reglamento sin firma de responsabilidad no es válido en realidad, bueno entonces se procede a imprimir el reglamento o documento legal, se le coloca la firma de responsabilidad por todos los implicados en este documentosidio y se procede a escanear el documento para esta vez si, poder colgarlo "como debe de ser".  El problema es que ahora en lugar de tener texto buscable con el poder la computación, se tiene una foto en la que no se pueden realizar busquedas sin realizar algún procesamiento previo, pero nadie quiere saltarse los pasos de ley, no es verdad??

Hoy por n-sima vez utilicé linux y programas con licencia GNU para poder pasar de fotos que provienen de un escaner a un texto buscable. Al tratarse del mundo Open-Source, el camino no es sencillo.  De cualquier manera, llevo utilizando para  esta tarea el script llamado pdfsandwich; mismo que solo ejecuta un script de enlace con varias herramientas que hacen la dificil tarea de reconocer el texto (tesseract), previo el uso de una conversión de color a escala de grises, a veces se corrige las inclinaciones del texto, y se coloca el texto por debajo de la imagen del texto (gs o ghostScript), para finalmente obtener una nueva versión del documento pero con texto buscable. Una opción "razonable" cuando nuestra conexión a internet de subida impide enviar los grandes archivos a un servicio en la nube, bueno, y por los problemas de seguridad ue ello implica.

El comando típico que utilizamos sería:

pdfsandwich -lang spa -layout single -o texto  -debug -verbose archivo.pdf

Lang es de language y spa es de spanish
layout es por si se trata de una columna o 2 columnas
-o es de output o salida, para indicar el nombre del archivo de salida
-debug para guardar todos los archivos intermedios por cada página.
-verbose para leer los mensajes y poder saber en qué página se encuentra.
y obvio, el archivo con las fotos a procesar.

La herramienta no es perfecta, pero es gratis y abierta. Entonces si deseas mejorarla solo cierra la boca y dedicate a programar :)


lunes, 29 de abril de 2013

frecuencia de las palabras Ngrams

Para ver la utilización de una palabra a lo largo del tiempo se puede usar: Ngrams

http://books.google.com/ngrams/
Esta busca en todos los libros de su base de datos y muestra la variación  en el tiempo.

Existen palabras que no existían en el año 1500 entonces no aparecen hasta el final del gráfico.  Y otras como la "vida" "dios" "muerte" no varían en el tiempo.
Y para muestra un botón:
http://books.google.com/ngrams/graph?content=vida%2CDios%2Cmuerte%2Camor%2Csexo&year_start=1500&year_end=2008&corpus=21&smoothing=3&share=

De qué hablan los libros ahora?