Ricerca e indicizzazione

Qui è possibile recuperare informazioni e configurare il motore di ricerca, le lingue installate, i parser disponibili e la coda di documenti da indicizzare.

Motore di ricerca

Conteggio elementi: visualizza il numero di elementi nell'indice

Repository: la cartella che memorizza l'indice

Filtri di Inclusione / Esclusione: schemi di inclusione / esclusione sul nome file per limitare i documenti da processare

Ordinamento: definisce l'ordine utilizzato per elaborare i documenti

Batch: numero di documenti elaborati ad ogni indicizzazione

Timeout nel Parsing: massimo tempo per elaborare un unico documento

Testo massimo: numero massimo di caratteri salvati nell'indice per ogni singolo documento

Dim. massima file testo: massima dimensione analizzata per i file di testo, espressa in KB

Salva: saranno memorizzate tutte le modifiche

Sblocca: l'indice full-text sarà sbloccato

Marca tutti per l'indicizzazione: tutti i documenti vengono riprogrammati per essere indicizzati di nuovo

Elimina indice: cancella l'indice attuale

Verifica: sarà mostrato un rapporto sullo stato indice full-text

Filtri

Il modo in cui i testi vengono elaborati durante l'indicizzazione dipende dai filtri. I filtri esaminano un flusso di frammenti di testo e possono conservarli, trasformarli o scartarli, o crearne di nuovi. I filtri possono essere combinati in una catena, in cui l'uscita di uno è l'ingresso per il successivo. Tale sequenza di filtri viene utilizzata per comporre i risultati delle ricerche e per costruire l'indice. Nella scheda Filtri si vede l'elenco di tutti i filtri disponibili, naturalmente si possono riordinare e disabilitare / abilitare.

Se si espande un filtro è anche possibile configurare i suoi parametri specifici, ecco una breve descrizione dei filtri disponibili:

Filtro: stemmer

Usa un linguaggio del documento per separare le radici delle parole:

Esempio: "Take papers everywhere" produce: "take", "paper", "every"

Filtro: worddelimiter

Divide i frammenti con delimitatori di parola. Le regole per le delimitazioni sono impostate come segue:

  • Cambiamento di caso all'interno della parola: "CamelCase" -> "Camel", "Case". Può essere disabilitato con il parametro splitOnCaseChange="0".
  • Una transizione da alfa a caratteri numerici o viceversa: "Gonzo5000" -> "Gonzo", "5000" "4500XL" -> "4500", "XL". Può essere disabilitato con il parametro splitOnNumerics="0".
  • Caratteri non alfanumerici(scartato): "hot-spot" -> "hot", "spot"
  • Un finale "'s" viene rimosso: "O'Reilly's" -> "O", "Reilly"
  • Eventuali delimitatori iniziali o finali vengono scartati: "--hot-spot--" -> "hot", "spot"
Configurazione
generateWordParts (integer, default 1) If non-zero, splits words at delimiters. For example:"CamelCase", "hot-spot" -> "Camel", "Case", "hot", "spot"
generateNumberParts (integer, default 1) If non-zero, splits numeric strings at delimiters:"1947-32" ->"1947", "32"
splitOnCaseChange (integer, default 1) If 0, words are not split on camel-case changes:"BugBlaster-XL" -> "BugBlaster", "XL". Example 1 below illustrates the default (non-zero) splitting behavior.
splitOnNumerics (integer, default 1) If 0, don't split words on transitions from alpha to numeric:"FemBot3000" -> "Fem", "Bot3000"
catenateWords (integer, default 0) If non-zero, maximal runs of word parts will be joined: "hot-spot-sensor's" -> "hotspotsensor"
catenateNumbers (integer, default 0) If non-zero, maximal runs of number parts will be joined: 1947-32" -> "194732"
catenateAll (0/1, default 0) If non-zero, runs of word and number parts will be joined: "Zap-Master-9000" -> "ZapMaster9000"
preserveOriginal (integer, default 0) If non-zero, the original token is preserved: "Zap-Master-9000" -> "Zap-Master-9000", "Zap", "Master", "9000"
stemEnglishPossessive (integer, default 1) If 1, strips the possessive "'s" from each subword
 

Filtro: ngram

Generara iframmenti n-gram di dimensioni nel range indicato. Si noti che i frammenti sono ordinati per posizione e poi in base alle dimensioni.

Esempio: "four score" produce: "f", "o", "u", "r", "fo", "ou", "ur", "s", "c", "o", "r", "e", "sc", "co", "or", "re"

Configurations
minGramSize (integer, default 1) The minimum gram size
maxGramSize (integer, default 2) The maximum gram size
 

Lingue

In questo pannello è possibile vedere tutte le lingue disponibili. È possibile abilitare o disabilitare ciascuna di esse, cliccando sulla voce e selezionando l'opzione Attiva o Disattiva.

Search and Indexing - Installed languages

Analizzatori

In questo pannello è possibile vedere tutti igli analizzatori del sistema.

Coda di indicizzazione

In questo pannello è possibile visualizzare tutti i documenti ancora da indicizzare. È possibile togliere dall'indicizzazione un documento facendo clic destro sulla voce e selezionando l'opzione Marca come non indicizzabile.