OCR

Convertir documentos en papel en archivos de texto completo de búsqueda digital y gestionarlos en un sistema de gestión sin papeles que incorpora la avanzada tecnologia OCR. Rápidamente y fácilmente aplicar todas las herramientas y funciones de gestión de documentos electrónicos a los documentos impresos y archivos previamente digitalizados. LogicalDOC es capaz de extraer los textos de las imágenes y archivos PDF adquiridos de las scaneas masivas de su dispositivo multi-funcion.

Inconvenientes de rendimiento

El procesamiento de OCR suele tardar mucho tiempo y producir alta carga de la CPU para indexar un único documento, así que si usted activa el OCR, esperese de tener un tiempo para indexar su repositorio mucho mayor

OCR de un escaneo

Usted no tiene que pedir explícitamente el OCR de los archivos, simplemente guardelos en LogicalDOC y el OCR se utilizará de forma automática en el momento de la indexación para extraer los textos de sus imágenes o archivos PDF de trama.

Recuerde que esto no es un OCR zonal, simplemente extrae todos los textos con el fin de permitirle realizar búsquedas de texto completo.

Configuración del motor de OCR

Puede establecer cómo el OCR funciona cambiando las configuraciones en este panel.

  • Activado: para habilitar o deshabilitar el procesamiento OCR
  • Fuera de tiempo: número máximo de segundos para procesar un solo archivo
  • Incluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a incluir
  • Excluir: lista separada por comas de los esquemas de nombre de archivo para los archivos a excluir
  • Nivel de texto: utilizado sólo para archivos PDF, indica el peso del contenido textual contra el otro tipo de contenido. Si el contenido textual es inferior a este nivel, el documento se interpreta comoraster y el OCR se executa
  • Dimensión min. de la imagen: dimensión mínima de las imágenes a procesar
  • Res. rendering: a veces, el archivo debe ser imprimido en formato PDF, este parámetro especifica la resolución de impresión
  • Res. rendering (barcode): a veces, los códigos de barras integrados deben ser imprimidos en formato PDF, este parámetro especifica la resolución de impresión
  • Lote: número de páginas procesadas por el OCR a la vez
  • Motor: qué motor usar

Supported OCR engines

Puede elegir uno de los motores de OCR compatibles

Motor OCR Descripción Configuración
Tesseract El famoso motor OCR de código abierto manejado por Google

path: la ruta absoluta de instalación del ejecutable tesseract

OCR Web Service Un motor OCR ligero en línea

username: tu propio nombre de usuario de OCR Web Service

licenseCode: tu propio código de licencia asociado a tu cuenta de OCR Web Service

Power PDF Advanced Un motor OCR desarrollado por Nuance

path: ruta absoluta de instalación de Power PDF Advanced