Skip to main content

Samplers

Un muestreador es un objeto que se utiliza para recuperar y preparar un conjunto de datos para el entrenamiento de un modelo.

Los samplers se gestionan en Administración > Inteligencia Artificial > Modelos > Samplers

Samplers
 

Puedes contar con diferentes tipos de samplers con diferentes configuraciones:

SamplerDescripciónAjustes
CSV

Lee el contenido de un archivo CSV extrayendo todas las filas como una matriz de cadenas. El formato esperado para cada recurso es el siguiente:

5.1,3.5,1.4,.2,"Setosa"
7,3.2,4.7,1.4,"Versicolor"
6.2,3.4,5.4,2.3,"Virginica"

Este ejemplo producirá tres filas de 5 elementos cada una:

5.1, 3.5, 1.4, .2, Setosa
7, 3.2, 4.7, 1.4, Versicolor
6.2, 3.4, 5.4, 2.3, Virginica
  • Delimitador: El carácter utilizado como delimitador de campo.
  • Cita: El carácter utilizado para encerrar el valor de un campo.
  • Documento: el documento CSV que contiene los datos.
Párrafo

Extrae párrafos, interpretados como bloques de texto separados por líneas en blanco. El formato esperado para cada recurso es el siguiente:

A colleague of mine told me that the document 12356897 contains very important information, so I want to get it. Understood, but are you registered as LogicalDOC's user? If you are a user, just access the interface and then execute a search by document id = 12356897.

Where can I locate a specific file? I was not able to find what I was looking for. Ok, just enter LogicalDOC and search for document with ID -96668429, it is very easy. Sure! Easy and quick, many thanks for your hint.

El ejemplo anterior producirá dos párrafos.

  • Documento: el documento CSV que contiene los datos.
MetadatosExtraer muestras de una lista de documentos. De forma predeterminada, los atributos de documento extendidos se consideran características, por lo que todos los documentos en la carpeta referenciada deben compartir el mismo esquema de atributos. Con la automatización, también puedes extraer cualquier dato de cada documento.
  • Carpeta: La carpeta que contiene los documentos que se van a procesar.
  • Categoría: El nombre del atributo extendido que contiene la categoría, opcional.
  • Características: una lista ordenada y separada por comas de nombres de atributos extendidos que se utilizan para almacenar valores de características.
  • Automatización: un script de automatización utilizado para extraer una muestra de un documento fuente, accesible a través de la clave de diccionario $document.
CadenaRecoge muestras extraídas de una colección de otros muestreadores.
  • Cadena: lista ordenada de samplers