[MontelLUG] Pdf & disordine alfabetico: suggerimenti

Davide Rondini davide.rondini a gmail.com
Lun 15 Maggio 2006 17:22:32 CEST


2006/5/15, Daneel Olivaw <daneel.olivaw.r a gmail.com>:
>
> Il 15/05/06, Nicola Durante<nicola a nicetoad.homelinux.org> ha scritto:
> > Effettivamente, negli ultimi tempi non perdo occasione per risolvere
> > qualsiasi problema con il perl.
> > L'ultimo programma perl su cui sto lavorando cercherà un modo per far
> > scagionare Luciano Moggi.
>
> Piuttosto trova invece la maniera per trovare e svuotare i loro conti
> correnti, redistribuendo il malloppo all'italico popolo (in caso
> preleva anche dai calciatori, tanto con quello che prendono non se ne
> accorgono ^_^) e fai un altro programmino per cacciare nella
> costituzione un bell'articolo che prevede i lavori forzati per i vari
> truffatori :-)
>
> Tornando a noi, virando col fido vim per il famoso txt estratto dal
> pdf, ho notato che in quello che potrebbe al 99% corrispondere come la
> fine di una pagina e l'inizio dell'altra ci sono questi due caratteri:
> ^L
> Confermate la mia ipotesi che sia effettivamente la dicitura: "ciccio,
> la pagina finisce qui, quella sotto è un'altra" (o inizia qui, quella
> sopra era un'altra)?
>
> Vorrei estrarre in nomi degli utenti dalla riga che li contiene, cioè
> la quinta di ogni pagina. Sto scartabellando le guide di bash
> programming, ma per ora non ho trovato nessuna che riguardi la
> gestione delle pagine di un txt, solo delle righe. Esiste una cosa del
> genere, oppure meglio che conti quante sono per ogni pagina e poi vado
> di multipli per individuare quella giusta?


Puoi cercare di individuare le pagine, se conosci il carattere che le
separa. Se no a cosa servono sed, grep e awk? Però se la riga di testo con i
nomi contiene un certo pattern riconoscibile ti conviene usare grep con le
espressioni regolari. Salvi ciascuna riga con i nomi all'inizio, più il
rispettivo numero di pagina in un file temporaneo con la lista, lo passi a
sort e rinomini con la sequenza delle righe ottenute tutti i file PDF
splittati. Un po' di tempo fa avevo trovato dei tool da riga di comando che
facevano questa cosa sui pdf, mi ricordo però solo che il comando per unire
si chiamava pdfmerge e che erano in python.

Have fun.
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://mail.montellug.it/pipermail/montellug/attachments/20060515/0e4d062c/attachment.html>


More information about the montellug mailing list