Riconoscimento testi (OCR)

Convertire i documenti cartacei in file full-text digitali ricercabili e gestirli in un sistema di gestione documenti cartacei che incorpora avanzati software OCR.  Puoi applicare rapidamente e facilmente tutti gli strumenti e le funzioni di gestione elettronica dei documenti a documenti cartacei e file precedentemente acquisiti. LogicalDOC è capace di estrarre i testi dalle immagini e dai PDF raster acquisiti da scansioni massive provenienti dal tuo dispositivo multi-funzione.

Svantaggi nelle prestazioni

L'elaborazione OCR di solito richiede molto tempo e alto carico della CPU per indicizzare un singolo documento, quindi se si attiva l'OCR, si aspettati di avere un tempo per indicizzare il tuo repository molto più alto 

 

OCR di una scansione

Non è necessario richiedere esplicitamente l'OCR dei file, semplicemente archiviali in LogicalDOC e l'OCR verrà utilizzato automaticamente al momento l'indicizzazione per estrarre i testi dalle immagini o PDF raster.

Ricorda che questo non è un OCR zonale, estrae solo tutti i testi in modo da consentire le ricerche full-text.

Configurazione del motore OCR

È possibile impostare come l'OCR funziona modificando le configurazioni in questo pannello.

  • Abilitato: per abilitare o disabilitare l'elaborazione OCR
  • Tempo d'attesa: numero massimo di secondi per elaborare un singolo file
  • Includi: elenco separato da virgole di espressioni di nomi di file per i file da includere
  • Escludi: elenco separato da virgole di espressioni di nomi di file per i file da escludere
  • Dim. max.: dimensione massima del file da elaborare
  • Soglia del testo: utilizzato solo per i PDF, indica il peso del contenuto testuale contro altro tipo di contenuto. Se il contenuto testuale è inferiore a questa soglia, il documento è interpretato come raster e l'OCR viene eseguito
  • Dim. min. immagine: dimensione minima per le immagini da elaborare
  • Ris. rendering: A volte il file deve essere stampato in formato PDF, questo parametro specificare la risoluzione di stampa
  • Batch: numero di pagine elaborate dal OCR contemporaneamente
  • Timeout batch: numero massimo di secondi per elaborare un batch
  • Processi consentiti: numero massimo di processi consentiti per utilizzare contemporaneamente l'OCR
  • Attendere un processo: numero massimo di secondi di attesa per ottenere l'accesso all'OCR
  • Errore quando l'estrazione è vuota: se deve essere sollevato un errore nel caso in cui l'OCR non abbia estratto nulla
  • Registra eventi: se vuoi registrare gli eventi OCR (li vedrai nella scheda Cronologia)
  • Motore: quale motore usare

Motori OCR supportati

Puoi scegliere uno dei motori OCR supportati

Motore OCR Descrizione Configurazione
Tesseract Il famoso motore OCR open source gestito da Google

path: il percorso assoluto di installazione dell'eseguibile tesseract (assicurati di inserire questo percorso nei comandi consentiti)

OCR Web Service Un leggero motore OCR online

username: il tuo proprio username di OCR Web Service

licenseCode: il tuo codice di licenza associato al tuo account di OCR Web Service

Power PDF Advanced Un motore OCR sviluppato da Nuance

path: il percorso assoluto di installazione di Power PDF Advanced (assicurati di inserire questo percorso nei comandi consentiti)

Cronologia

Nella scheda Cronologia viene visualizzato l'elenco degli eventi registrati relativi alle estrazioni OCR:

FSVpAnkX0AAUa6o