OCR
Convertir documentos en papel en archivos de texto completo de búsqueda digital y gestionarlos en un sistema de gestión sin papeles que incorpora la avanzada tecnologia OCR. Rápidamente y fácilmente aplicar todas las herramientas y funciones de gestión de documentos electrónicos a los documentos impresos y archivos previamente digitalizados. LogicalDOC es capaz de extraer los textos de las imágenes y archivos PDF adquiridos de las scaneas masivas de su dispositivo multi-funcion.
Inconvenientes de rendimiento
El procesamiento de OCR suele tardar mucho tiempo y producir alta carga de la CPU para indexar un único documento, así que si usted activa el OCR, esperese de tener un tiempo para indexar su repositorio mucho mayor
OCR de un escaneo
Usted no tiene que pedir explícitamente el OCR de los archivos, simplemente guardelos en LogicalDOC y el OCR se utilizará de forma automática en el momento de la indexación para extraer los textos de sus imágenes o archivos PDF de trama.
Recuerde que esto no es un OCR zonal, simplemente extrae todos los textos con el fin de permitirle realizar búsquedas de texto completo.
Configuración del motor de OCR
Puede establecer cómo el OCR funciona cambiando las configuraciones en este panel.
- Activado: para habilitar o deshabilitar el procesamiento OCR
- Fuera de tiempo: número máximo de segundos para procesar un solo archivo
- Incluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a incluir
- Excluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a excluir
- Max. tamaño: tamaño máximo del archivo a procesar
- Nivel de texto: utilizado sólo para archivos PDF, indica el peso del contenido textual contra el otro tipo de contenido. Si el contenido textual es inferior a este nivel, el documento se interpreta comoraster y el OCR se executa
- Dimensión min. de la imagen: dimensión mínima de las imágenes a procesar
- Res. rendering: a veces, el archivo debe ser imprimido en formato PDF, este parámetro especifica la resolución de impresión
- Lote: número de páginas procesadas por el OCR a la vez
- Tiempo de espera de lote: número máximo de segundos para procesar un lote
- Subprocesos permitidos: número máximo de subprocesos permitidos para usar el OCR simultáneamente
- Esperar subproceso: número máximo de segundos de espera para obtener acceso al OCR
- Error en extracción vacía: si se debe generar un error en caso de que el OCR no haya extraído nada
- Grabar eventos: si desea grabar los eventos de OCR (los verá en la pestaña Historial)
- Motor: qué motor usar
Motores OCR soportados
Puede elegir uno de los motores de OCR compatibles |
||
---|---|---|
Motor OCR | Descripción | Configuración |
Tesseract | El famoso motor OCR de código abierto manejado por Google |
path: la ruta absoluta de instalación del ejecutable tesseract (asegúrese de poner esta ruta en los comandos permitidos) |
OCR Web Service | Un motor OCR ligero en línea |
username: tu propio nombre de usuario de OCR Web Service licenseCode: tu propio código de licencia asociado a tu cuenta de OCR Web Service |
Power PDF Advanced | Un motor OCR desarrollado por Nuance |
path: ruta absoluta de instalación de Power PDF Advanced (asegúrese de poner esta ruta en los comandos permitidos) |
Historial
En la pestaña Historial, verá la lista de eventos registrados relacionados con las extracciones de OCR: