Come estrarre il testo da un documento PDF scansionato
Vi è mai capitato di ricevere un PDF contenente un documento di più pagine scansionato? Avrete sicuramente notato che essendo essenzialmente formato da immagini, non è possibile selezionare il testo per incollarlo altrove. Se avete la necessità di avere il testo in formato digitale, prima di riscriverlo a mano sappiate che attraverso i cosiddetti software OCR (Optical Character Recognition) è possibile estrarre il testo in automatico.
Oggi vedremo un piccolo software completamente gratuito e compatibile con qualsiasi sistema Windows, che ci aiuta ad estrarre automaticamente il testo dalle immagini presenti in un file pdf.
Il programma in questione si chiama PDFOCR. Potete scaricarlo dalla pagina dei download, l’installazione è standard e non presenta alcuna difficoltà particolare. Una volta aperto, il programma presenta subito due finestre affiancate, quella sulla sinistra mostrerà il file PDF che andrete ad elaborare, mentre in quella di destra verrà scritto il testo estratto dal PDF.

Come prima cosa dovete aprire il file PDF da elaborare nella schermata di sinistra, andate in File -> Open Pdf e selezionate il file dal quale volete estrarre il testo. A questo punto il PDF verrà diviso in pagine e mostrato nella schermata di sinistra, per iniziare l’estrazione del testo vi basta cliccare su Start OCR, si presenterà questa finestra di dialogo:

Selezionando la prima opzione in alto, verrà elaborata solamente la pagina che state visualizzando nella schermata di sinistra, attraverso l’opzione centrale potete indicare quali pagine elaborare, mentre con l’ultima opzione verrà elaborato l’intero file. Per avviare il processo di estrazione del testo basta cliccare sul pulsante Start.
Alla fine dell’elaborazione, sulla destra vedrete il testo che il programma è riuscito ad estrarre. Nelle mie prove PDF OCR si è comportato abbastanza bene, nonostante la presenza alcuni errori, ad esempio ho notato gli apostrofi non riesce quasi mai a riconoscerli correttamente. A questo punto avete il vostro testo, è consigliabile inserirlo all’interno del vostro editor di testi preferito e fare un controllo ortografico, saranno sicuramente presenti delle imprecisioni.
In conclusione, tenendo presente che si tratta di un software gratuito, penso che PDF OCR esegua il suo compito in maniera discreta. Chiaramente esistono software molto più complessi e funzionali da utilizzare in ambito professionale, ma PDF OCR vuole fornire le funzionalità base per una utenza casalinga.
Web Experiments , 17 marzo 2010.
Potrebbe interessarti anche:
Commenti
6 commenti per “Come estrarre il testo da un documento PDF scansionato”
Scrivi un commento
Seguici Via Mail:
RSS Feed
-
Articoli Recenti
- Come ruotare un PDF in maniera permanente
- WhatsApp diventa a pagamento? Facciamo chiarezza
- Come trovare i file duplicati presenti sul tuo PC
- Come ridimensionare una foto in maniera rapida
- Perchè i video su Youtube vanno a scatti?
- Attività iregolari su conto Postepay? Attenzione alla truffa
- Come Inviare messaggi vocali su Facebook
- Proteggere le pendrive dai virus che partono in automatico
- Vedere gli amministratori di gruppi e pagine Facebook
- Come condividere lo schermo con Skype
Argomenti del Blog
- Altro
- Amicizie Online
- BitTorrent
- Cellulari e telefonia
- Curiosità
- Emule
- Firefox
- Fotoritocco
- Google World
- Hardware
- Hosting
- Inviare SMS
- Msn – Live Messenger
- Networking
- News
- Privacy e Sicurezza
- Reti Wireless
- Rss
- Siti Utili
- Skype
- Software
- Strumenti per file PDF
- Truffe / Bufale
- video
- Voip
- Webmaster
- Windows
- Windows 7
- Windows 8
- Windows Vista
- YouTube

con Foxit c’è lo strumento ‘seleziona testo’, dopodichè si può copiare ed incollare dove si vuole!
Davvero un ottimo articolo!
Prenderò in considerazione il software Pdf Ocr; ero proprio alla ricerca di qualcosa di simile.
Grazie per la segnalazione
Bel centro Andi, questo è interessante!
Eh no caro Francesco. Foxit ha sì lo strumento ’seleziona testo’, ma funziona solo con .pdf fatti con vecchie versioni di Adobe, e non sempre. Questo invece, con mia grande sorpresa, ha aperto .pdf che ritenevo impossibili. Grande Andi! Bel colpo.
Scusate la mia ignoranza, ma a me non appaiono due finestre come riportato sopra, quando traduce mi chiede di registrarmi e non mi traduce per niente bene anzi… Qualcuno mi aiuti
Scusate ma io l’ho scaricato e installato peccato che ti fa trasformare solo le prime 3 pagine! Mah