Skip to main content

Campionatori

Un campionatore è un oggetto utilizzato per recuperare e preparare un set di dati per l'addestramento di un modello.

È possibile gestire i campionatori in Amministrazione > Intelligenza Artificiale > Modelli > Campionatori.

Samplers
 

Puoi contare su diversi tipi di campionatori con impostazioni diverse:

CampionatoreDescrizioneImpostazioni
CSV

Legge il contenuto di un file CSV estraendo tutte le righe come array di stringhe. Il formato previsto per ciascuna risorsa è il seguente:

5.1,3.5,1.4,.2,"Setosa"
7,3.2,4.7,1.4,"Versicolor"
6.2,3.4,5.4,2.3,"Virginica"

Questo esempio produrrà tre righe di 5 elementi ciascuna:

5.1, 3.5, 1.4, .2, Setosa
7, 3.2, 4.7, 1.4, Versicolor
6.2, 3.4, 5.4, 2.3, Virginica
  • Separatore: il carattere utilizzato come delimitatore di campo.
  • Citazione: il carattere utilizzato per racchiudere il valore di un campo.
  • Documento: il documento CSV che contiene i dati.
Paragrafo

Estrae i paragrafi, interpretati come blocchi di testo separati da righe vuote. Il formato previsto per ogni risorsa è il seguente:

A colleague of mine told me that the document 12356897 contains very important information, so I want to get it. Understood, but are you registered as LogicalDOC's user? If you are a user, just access the interface and then execute a search by document id = 12356897.

Where can I locate a specific file? I was not able to find what I was looking for. Ok, just enter LogicalDOC and search for document with ID -96668429, it is very easy. Sure! Easy and quick, many thanks for your hint.

L'esempio sopra riportato produrrà due paragrafi.

  • Documento: il documento CSV che contiene i dati.
MetadatiEstrarre campioni da un elenco di documenti. Per impostazione predefinita, gli attributi estesi dei documenti sono considerati feature, quindi tutti i documenti nella cartella referenziata devono condividere lo stesso schema di attributi. Con l'automazione è anche possibile estrarre qualsiasi dato per ciascun documento.
  • Cartella: la cartella che contiene i documenti da elaborare.
  • Categoria: nome dell'attributo esteso che contiene la categoria, facoltativo.
    Caratteristiche: elenco ordinato, separato da virgole, dei nomi degli attributi estesi utilizzati per memorizzare i valori delle feature.
  • Automazione: uno script di automazione utilizzato per estrarre un campione da un documento sorgente, accessibile tramite la chiave del dizionario $document.
CatenaRaccoglie i campioni estratti da una raccolta di altri campionatori
  • Catena: lista ordinata di campionatori