Estrazione note SVG da file PDF

img-evidenza-svg-article
Oggi vedremo come estrarre delle note manuali da PDF in formato SVG. Gli strumenti utilizzati sono stati PoDoFopotrace.
PoDoFo è una libreria C++ free che serve per la gestione e modifica di file PDF. Potrace invece è un tool che consente di trasformare una bitmap in svg tramite comandi da terminale.

Prima di commentare il codice vediamo brevemente la procedura di installazione di PoDoFo e delle sue dipendenze

Dipendenze:

Andare su http://podofo.sourceforge.net/download.html e scaricare l'ultima versione stabile di PoDoFo. Per generalità diciamo che l'ultima versione è la 0.9.* (al posto dell'asterisco, d'ora in avanti, mettete il numero della vostra versione).
Estrarre l'archivio scaricato, e posizionarsi tramite terminale all'interno della cartella.

Una volta installato tutto quanto vediamo l'idea che sta dietro all'estrazione delle note manuali in formato SVG.
Supponendo di avere a disposizione sia il PDF annotato che quello non annotato, l'algoritmo è riassumibile in questi brevi step:

  • Cancellazione dei file di esecuzioni precedenti
  • Salvataggio delle pagine dei PDF in immagini PNG
  • Creazione delle immagini differenza in formato PNM tra le pagine dei due PDF
  • Tramite Potrace si convertono questi PNM in SVG

Il codice completo è qua sotto. Ricordate di passare come argomenti il path del PDF originario e quello annotato.
Ecco due PDF di prova: original.pdf e ann.pdf

Se avete bisogno di ulteriori chiarimenti, non esitate a scrivermi nei commenti.

Alla prossima!

Ingegnere Informatico e Ricercatore se compiace al Prodigioso Spaghetto Volante. Sono uno spartan racer, massimo esperto di serie tv, fotografo amatoriale e appena ne ho l’occasione preparo la valigia e parto

Estrazione note SVG da file PDF ultima modifica: 2016-03-01T12:30:29+01:00 da Andrea Salvi


Advertisment ad adsense adlogger