<br><br><div><span class="gmail_quote">2006/5/15, Daneel Olivaw <<a href="mailto:daneel.olivaw.r@gmail.com">daneel.olivaw.r@gmail.com</a>>:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Il 15/05/06, Nicola Durante<<a href="mailto:nicola@nicetoad.homelinux.org">nicola@nicetoad.homelinux.org</a>> ha scritto:<br>> Effettivamente, negli ultimi tempi non perdo occasione per risolvere<br>> qualsiasi problema con il perl.
<br>> L'ultimo programma perl su cui sto lavorando cercherà un modo per far<br>> scagionare Luciano Moggi.<br><br>Piuttosto trova invece la maniera per trovare e svuotare i loro conti<br>correnti, redistribuendo il malloppo all'italico popolo (in caso
<br>preleva anche dai calciatori, tanto con quello che prendono non se ne<br>accorgono ^_^) e fai un altro programmino per cacciare nella<br>costituzione un bell'articolo che prevede i lavori forzati per i vari<br>truffatori :-)
<br><br>Tornando a noi, virando col fido vim per il famoso txt estratto dal<br>pdf, ho notato che in quello che potrebbe al 99% corrispondere come la<br>fine di una pagina e l'inizio dell'altra ci sono questi due caratteri:
<br>^L<br>Confermate la mia ipotesi che sia effettivamente la dicitura: "ciccio,<br>la pagina finisce qui, quella sotto è un'altra" (o inizia qui, quella<br>sopra era un'altra)?<br><br>Vorrei estrarre in nomi degli utenti dalla riga che li contiene, cioè
<br>la quinta di ogni pagina. Sto scartabellando le guide di bash<br>programming, ma per ora non ho trovato nessuna che riguardi la<br>gestione delle pagine di un txt, solo delle righe. Esiste una cosa del<br>genere, oppure meglio che conti quante sono per ogni pagina e poi vado
<br>di multipli per individuare quella giusta?</blockquote></div><br>
Puoi cercare di individuare le pagine, se conosci il carattere che le
separa. Se no a cosa servono sed, grep e awk? Però se la riga di testo
con i nomi contiene un certo pattern riconoscibile ti conviene usare
grep con le espressioni regolari. Salvi ciascuna riga con i nomi
all'inizio, più il rispettivo numero di pagina in un file temporaneo
con la lista, lo passi a sort e rinomini con la sequenza delle righe
ottenute tutti i file PDF splittati. Un po' di tempo fa avevo trovato
dei tool da riga di comando che facevano questa cosa sui pdf, mi
ricordo però solo che il comando per unire si chiamava pdfmerge e che
erano in python.<br>
<br>
Have fun.<br>