OCR

Convertir documentos en papel en archivos de texto completo de búsqueda digital y gestionarlos en un sistema de gestión sin papeles que incorpora la avanzada tecnologia OCR. Rápidamente y fácilmente aplicar todas las herramientas y funciones de gestión de documentos electrónicos a los documentos impresos y archivos previamente digitalizados. LogicalDOC es capaz de extraer los textos de las imágenes y archivos PDF adquiridos de las scaneas masivas de su dispositivo multi-funcion.

Inconvenientes de rendimiento

El procesamiento de OCR suele tardar mucho tiempo y producir alta carga de la CPU para indexar un único documento, así que si usted activa el OCR, esperese de tener un tiempo para indexar su repositorio mucho mayor

OCR de un escaneo

Usted no tiene que pedir explícitamente el OCR de los archivos, simplemente guardelos en LogicalDOC y el OCR se utilizará de forma automática en el momento de la indexación para extraer los textos de sus imágenes o archivos PDF de trama.

Recuerde que esto no es un OCR zonal, simplemente extrae todos los textos con el fin de permitirle realizar búsquedas de texto completo.

Configuración del motor de OCR

Puede establecer cómo el OCR funciona cambiando las configuraciones en este panel.

Activado: para habilitar o deshabilitar el procesamiento OCR
Fuera de tiempo: número máximo de segundos para procesar un solo archivo
Incluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a incluir
Excluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a excluir
Max. tamaño: tamaño máximo del archivo a procesar
Nivel de texto: utilizado sólo para archivos PDF, indica el peso del contenido textual contra el otro tipo de contenido. Si el contenido textual es inferior a este nivel, el documento se interpreta comoraster y el OCR se executa
Dimensión min. de la imagen: dimensión mínima de las imágenes a procesar
Res. rendering: a veces, el archivo debe ser imprimido en formato PDF, este parámetro especifica la resolución de impresión
Lote: número de páginas procesadas por el OCR a la vez
Tiempo de espera de lote: número máximo de segundos para procesar un lote
Subprocesos permitidos: número máximo de subprocesos permitidos para usar el OCR simultáneamente
Esperar subproceso: número máximo de segundos de espera para obtener acceso al OCR
Error en extracción vacía: si se debe generar un error en caso de que el OCR no haya extraído nada
Grabar eventos: si desea grabar los eventos de OCR (los verá en la pestaña Historial)
Motor: qué motor usar

Motores OCR soportados

Puede elegir uno de los motores de OCR compatibles
Motor OCR	Descripción	Configuración
Tesseract	El famoso motor OCR de código abierto manejado por Google	path: la ruta absoluta de instalación del ejecutable tesseract (asegúrese de poner esta ruta en los comandos permitidos)
OCR Web Service	Un motor OCR ligero en línea	username: tu propio nombre de usuario de OCR Web Service licenseCode: tu propio código de licencia asociado a tu cuenta de OCR Web Service
Power PDF Advanced	Un motor OCR desarrollado por Nuance	path: ruta absoluta de instalación de Power PDF Advanced (asegúrese de poner esta ruta en los comandos permitidos)

Historial

En la pestaña Historial, verá la lista de eventos registrados relacionados con las extracciones de OCR: