Riconoscimento testi (OCR)

Stampa

Convertire i documenti cartacei in file full-text digitali ricercabili e gestirli in un sistema di gestione documenti cartacei che incorpora avanzati software OCR. Puoi applicare rapidamente e facilmente tutti gli strumenti e le funzioni di gestione elettronica dei documenti a documenti cartacei e file precedentemente acquisiti. LogicalDOC è capace di estrarre i testi dalle immagini e dai PDF raster acquisiti da scansioni massive provenienti dal tuo dispositivo multi-funzione.

Svantaggi nelle prestazioni

L'elaborazione OCR di solito richiede molto tempo e alto carico della CPU per indicizzare un singolo documento, quindi se si attiva l'OCR, si aspettati di avere un tempo per indicizzare il tuo repository molto più alto

OCR di una scansione

Non è necessario richiedere esplicitamente l'OCR dei file, semplicemente archiviali in LogicalDOC e l'OCR verrà utilizzato automaticamente al momento l'indicizzazione per estrarre i testi dalle immagini o PDF raster.

Ricorda che questo non è un OCR zonale, estrae solo tutti i testi in modo da consentire le ricerche full-text.

Configurazione del motore OCR

È possibile impostare come l'OCR funziona modificando le configurazioni in questo pannello.

Abilitato: per abilitare o disabilitare l'elaborazione OCR
Tempo d'attesa: numero massimo di secondi per elaborare un singolo file
Includi: elenco separato da virgole di espressioni di nomi di file per i file da includere
Escludi: elenco separato da virgole di espressioni di nomi di file per i file da escludere
Dim. max.: dimensione massima del file da elaborare
Soglia del testo: utilizzato solo per i PDF, indica il peso del contenuto testuale contro altro tipo di contenuto. Se il contenuto testuale è inferiore a questa soglia, il documento è interpretato come raster e l'OCR viene eseguito
Dim. min. immagine: dimensione minima per le immagini da elaborare
Ris. rendering: A volte il file deve essere stampato in formato PDF, questo parametro specificare la risoluzione di stampa
Batch: numero di pagine elaborate dal OCR contemporaneamente
Timeout batch: numero massimo di secondi per elaborare un batch
Processi consentiti: numero massimo di processi consentiti per utilizzare contemporaneamente l'OCR
Attendere un processo: numero massimo di secondi di attesa per ottenere l'accesso all'OCR
Errore quando l'estrazione è vuota: se deve essere sollevato un errore nel caso in cui l'OCR non abbia estratto nulla
Registra eventi: se vuoi registrare gli eventi OCR (li vedrai nella scheda Cronologia)
Motore: quale motore usare

Motori OCR supportati

Puoi scegliere uno dei motori OCR supportati
Motore OCR	Descrizione	Configurazione
Tesseract	Il famoso motore OCR open source gestito da Google	path: il percorso assoluto di installazione dell'eseguibile tesseract (assicurati di inserire questo percorso nei comandi consentiti)
OCR Web Service	Un leggero motore OCR online	username: il tuo proprio username di OCR Web Service licenseCode: il tuo codice di licenza associato al tuo account di OCR Web Service
Power PDF Advanced	Un motore OCR sviluppato da Nuance	path: il percorso assoluto di installazione di Power PDF Advanced (assicurati di inserire questo percorso nei comandi consentiti)

Cronologia

Nella scheda Cronologia viene visualizzato l'elenco degli eventi registrati relativi alle estrazioni OCR: