Ricerca e indicizzazione

Stampa

Qui è possibile recuperare informazioni e configurare il motore di ricerca, le lingue installate, i parser disponibili e la coda di documenti da indicizzare.

Motore di ricerca

Conteggio elementi: visualizza il numero di elementi nell'indice

Repository: la cartella che memorizza l'indice

Filtri di Inclusione / Esclusione: schemi di inclusione / esclusione sul nome file per limitare i documenti da processare

Filtri di Inclusione / Esclusione (solo metadati): schemi di inclusione / esclusione sul nome file per limitare i documenti da processare con solo i metadati

Con errore, contrassegna come non indicizzabile: In caso di errore, il documento viene contrassegnato come non indicizzabile

Ordinamento: definisce l'ordine utilizzato per elaborare i documenti

Batch: numero di documenti elaborati ad ogni indicizzazione

Timeout nel Parsing: massimo tempo per elaborare un unico documento

Testo massimo: numero massimo di caratteri salvati nell'indice per ogni singolo documento

Dim. massima file testo: massima dimensione analizzata per i file di testo, espressa in KB

Salva: saranno memorizzate tutte le modifiche

Sblocca: l'indice full-text sarà sbloccato

Pulisci: rimuove dall'indice quelle voci che fanno riferimento a file eliminati

Marca tutti per l'indicizzazione: tutti i documenti vengono riprogrammati per essere indicizzati di nuovo

Elimina indice: cancella l'indice attuale

Verifica: sarà mostrato un rapporto sullo stato indice full-text

Filtri

Il modo in cui i testi vengono elaborati durante l'indicizzazione dipende dai filtri. I filtri esaminano un flusso di frammenti di testo e possono conservarli, trasformarli o scartarli, o crearne di nuovi. I filtri possono essere combinati in una catena, in cui l'uscita di uno è l'ingresso per il successivo. Tale sequenza di filtri viene utilizzata per comporre i risultati delle ricerche e per costruire l'indice. Nella scheda Filtri si vede l'elenco di tutti i filtri disponibili, naturalmente si possono riordinare e disabilitare / abilitare.

Se si espande un filtro è anche possibile configurare i suoi parametri specifici, ecco una breve descrizione dei filtri disponibili:

Filtro: stemmer

Usa un linguaggio del documento per separare le radici delle parole:

Esempio: "Take papers everywhere" produce: "take", "paper", "every"

Filtro: worddelimiter

Divide i frammenti con delimitatori di parola. Le regole per le delimitazioni sono impostate come segue:

Cambiamento di caso all'interno della parola: "CamelCase" -> "Camel", "Case". Può essere disabilitato con il parametro splitOnCaseChange="0".

Una transizione da alfa a caratteri numerici o viceversa: "Gonzo5000" -> "Gonzo", "5000" "4500XL" -> "4500", "XL". Può essere disabilitato con il parametro splitOnNumerics="0".

Caratteri non alfanumerici(scartato): "hot-spot" -> "hot", "spot"

Un finale "'s" viene rimosso: "O'Reilly's" -> "O", "Reilly"

Eventuali delimitatori iniziali o finali vengono scartati: "--hot-spot--" -> "hot", "spot"

Configurazione
types	il file di configurazione che definisce i tipi di caratteri, il percorso è relativo a <LDOC_HOME>/repository/index/logicaldoc/conf
generateWordParts	(integer, default 1) If non-zero, splits words at delimiters. For example:"CamelCase", "hot-spot" -> "Camel", "Case", "hot", "spot"
generateNumberParts	(integer, default 1) If non-zero, splits numeric strings at delimiters:"1947-32" ->"1947", "32"
splitOnCaseChange	(integer, default 1) If 0, words are not split on camel-case changes:"BugBlaster-XL" -> "BugBlaster", "XL". Example 1 below illustrates the default (non-zero) splitting behavior.
splitOnNumerics	(integer, default 1) If 0, don't split words on transitions from alpha to numeric:"FemBot3000" -> "Fem", "Bot3000"
catenateWords	(integer, default 0) If non-zero, maximal runs of word parts will be joined: "hot-spot-sensor's" -> "hotspotsensor"
catenateNumbers	(integer, default 0) If non-zero, maximal runs of number parts will be joined: 1947-32" -> "194732"
catenateAll	(0/1, default 0) If non-zero, runs of word and number parts will be joined: "Zap-Master-9000" -> "ZapMaster9000"
preserveOriginal	(integer, default 0) If non-zero, the original token is preserved: "Zap-Master-9000" -> "Zap-Master-9000", "Zap", "Master", "9000"
stemEnglishPossessive	(integer, default 1) If 1, strips the possessive "'s" from each subword

Filtro: ngram

Generara iframmenti n-gram di dimensioni nel range indicato. Si noti che i frammenti sono ordinati per posizione e poi in base alle dimensioni.

Esempio: "four score" produce: "f", "o", "u", "r", "fo", "ou", "ur", "s", "c", "o", "r", "e", "sc", "co", "or", "re"

Configurations
minGramSize	(integer, default 1) The minimum gram size
maxGramSize	(integer, default 2) The maximum gram size

Lingue

In questo pannello è possibile vedere tutte le lingue disponibili. È possibile abilitare o disabilitare ciascuna di esse, cliccando sulla voce e selezionando l'opzione Attiva o Disattiva.

Search and Indexing - Installed languages

Analizzatori

In questo pannello è possibile vedere tutti igli analizzatori del sistema.

Cronologia

In questo pannello ci sono gli eventi di indicizzazione. Qui puoi vedere i successi e gli errori:

Coda di indicizzazione

In questo pannello è possibile visualizzare tutti i documenti ancora da indicizzare. È possibile togliere dall'indicizzazione un documento facendo clic destro sulla voce e selezionando l'opzione Marca come non indicizzabile.

Elementi

In questo pannello è possibile effettuare ricerche di basso livello per ispezionare le voci contenute nell'indice full-text