Embeddings

Los embeddings son vectores que representan documentos completos o fragmentos de ellos en un espacio vectorial continuo. Esta representación numérica es necesaria para inferir similitudes entre documentos de forma eficiente e implementar funciones como la Búsqueda Semántica.

Esto significa que LogicalDOC debe calcular todas estas incrustaciones para los documentos de su repositorio y guardarlas en el Vectors Store, cuya configuración es obligatoria.

Esquemas de Embedding

El proceso de cálculo de un embedding de un documento no es único, sino que depende del modelo de incrustación que utilice.

En Administración > Inteligencia Artificial > Embeddings, puede gestionar diferentes esquemas de incrustación, cada uno de los cuales indica a LogicalDOC cómo procesar los documentos con un modelo de incrustación específico.

Al crear un nuevo esquema haciendo clic en Añadir esquema de embedding, se le pedirá que especifique uno de los modelos de embedding disponibles.

En el momento de redactar este documento, puede elegir entre los modelos Embedder codificados directamente en LogicalDOC o uno de los modelos de embedding disponibles en ChatGPT.

Las configuraciones comunes a todos los modelos son:

Lote: Número de documentos procesados simultáneamente
Lote de trozos: Cuántos fragmentos se añaden simultáneamente al almacén de vectores

Las configuraciones específicas del modelo ChatGPT son:

Espec. del modelo: nombre del modelo de incrustación que se utilizará, p. ej.: text-embedding-3-small
Tamaño del vector: debe coincidir exactamente con el tamaño de las incrustaciones generadas por el modelo seleccionado; en el caso de text-embedding-3-small, el tamaño es 1536
API Key: clave API proporcionada por ChatGPT

Para más información sobre los embeddings de ChatGPT, consulte https://platform.openai.com/docs/guides/embeddings

Info

Al igual que la indexación de texto completo, también el cálculo de los embedding consume mucha CPU, por lo que lo realiza la tarea programada Embedder.

Ajustes

Haga clic en el botón Ajustes para ver algunos parámetros de configuración que regulan el funcionamiento de la tarea.

Patrones de inclusión: Qué tipos de documentos deben procesarse. Si se deja en blanco, se incluirán todos los documentos por defecto..
Patrones de exclusión: Qué tipos de documentos no deben incrustarse. Por ejemplo, para excluir todos los documentos con extensión .png, puede introducir *.png en el campo.
Lote (Batch): Número de documentos que la tarea del "Embedder" procesará conjuntamente en cada operación.
Ordenación (Sorting): Determina el orden en que se procesan los documentos pendientes (por ejemplo, priorizando los archivos más recientes o los más pequeños para optimizar el rendimiento).
Ordenación personalizada: Posibilidad de definir una lógica de ordenación personalizada.
Hilos (Threads): Cuántos "trabajadores" (workers) en paralelo se ejecutan simultáneamente para procesar la cola de incrustación.

A medida que los vectores se calculan y se guardan en el almacén de vectores, puede verlos en el contador y en el panel Embeddings.