jueves, 3 de marzo de 2016

Encontrar grupos de números

Desde un pdf extraigo el texto usando pdftotext. Pero la información contiene un salto de línea por cada celda de la tabla.
Deseo obtener  las cedulas y los nombres en la lista.
Buscando en internet encuentro el siguiente enlace:

http://askubuntu.com/questions/538730/how-to-grep-for-groups-of-n-digits-but-no-more-than-n

Y la respuesta es :
grep -P '(?<!\d)\d{4}(?!\d)' file
 
retirar las líneas que no tienen texto
cut  -f2 reporte.txt | grep -v "^$"


Y para juntarlos: 
join -a 1 <(sort CIAG)  <( sort hoja1) 

No hay comentarios:

Publicar un comentario