Embeddings

Gli embedding sono vettori che rappresentano interi documenti o frammenti di essi in uno spazio vettoriale continuo. Questa rappresentazione numerica è necessaria per dedurre in modo efficiente le similitudini tra i documenti e implementare funzionalità come la Ricerca Semantica.

Ciò significa che LogicalDOC deve calcolare tutti questi embedding per i documenti nel repositorio e salvarli nel Vector Store, la cui configurazione è un requisito.

Schemi di Embedding

Il processo di calcolo di un embedding di un documento non è univoco, ma dipende dal modello di embedding utilizzato.

In Amministrazione > Intelligenza Artificiale > Embedding, è possibile gestire diversi schemi di embedding, ognuno dei quali indica a LogicalDOC come elaborare i documenti con uno specifico modello di embedding.

Quando si crea un nuovo schema facendo clic su Aggiungi schema di embedding, verrà richiesto di specificare uno dei modelli di embedding disponibili.

Al momento della stesura di questo documento, è possibile scegliere tra i modelli Embedder codificati in LogicalDOC stesso o uno dei modelli di embedding disponibili in ChatGPT.

Le impostazioni comuni a tutti i modelli di embedding sono:

Batch: Il numero massimo di documenti scritti nell'archivio vettoriale in una singola operazione.
Lotto di frammenti: Quanti blocchi vengono aggiunti contemporaneamente all'archivio vettoriale

Le impostazioni specifiche del modello ChatGPT sono:

Spec. modello: nome del modello di embedding da utilizzare, ad esempio: text-embedding-3-small
Dimensione vettore: deve corrispondere esattamente alla dimensione degli embedding prodotti dal modello scelto, nel caso di text-embedding-3-small la dimensione è 1536
API Key: la chiave API fornita da ChatGPT

Per maggiori informazioni in merito agli embedding con ChatGPT, fate riferimento a https://platform.openai.com/docs/guides/embeddings

Info

Come l'indicizzazione full-text, anche il calcolo degli embeddings richiede un uso intensivo della CPU e viene quindi eseguito dall'attività pianificata Embedder.

Impostazioni

Fare clic sul pulsante Impostazioni per visualizzare alcuni parametri di configurazione che regolano il funzionamento dell'attività.

Pattern di inclusione: Specifica quali tipi di documento devono essere elaborati. Se lasciato vuoto, verranno inclusi tutti i documenti per impostazione predefinita.
Pattern di esclusione: Specifica quali tipi di documento non devono essere elaborati. Ad esempio, per escludere tutti i file con estensione .png, è possibile inserire *.png nel campo.
Batch (Lotto): Numero di documenti elaborati contemporaneamente dall'attività di "Embedding" (Embedder).
Ordinamento: Determina l'ordine di elaborazione dei documenti da propcessare (ad esempio, dando priorità ai file più recenti o più piccoli per ottimizzare le prestazioni).
Ordinamento personalizzato: Consente di definire una logica di ordinamento specifica tramite proprietà di configurazione.
Thread (Hilos): Indica quanti "worker" paralleli sono in esecuzione contemporaneamente per elaborare la coda di generazione degli embedding.

Man mano che i vettori vengono calcolati e salvati nell'archivio vettoriale, è possibile visualizzarli nel contatore e nel pannello Embeddings.