Rilevatore di Token

Il Rilevatore di Token è un modello di linguaggio naturale specializzato progettato per identificare ed estrarre specifiche informazioni, chiamate token, dall'interno di una frase. Viene utilizzato per rilevare dati strutturati come ID, nomi, date o codici incorporati nel testo in linguaggio naturale.

A differenza di un classificatore, che categorizza intere frasi, il rilevatore di token si concentra sulla marcatura e l'etichettatura di sottosezioni di una frase. Questo è particolarmente utile per le applicazioni che devono estrarre valori dalle richieste degli utenti, come ID di documenti o riferimenti.

Come funziona il rilevatore di token

Il Rilevatore di Token viene addestrato utilizzando frasi etichettate in cui i token di interesse sono chiaramente contrassegnati con un formato speciale. Ogni token da rilevare è racchiuso tra i tag <START:label> e <END>. Questi indicano sia i limiti del token sia il tipo di informazioni estratte. Nello specifico, questi tag (<START:label> e <END>) insegnano al sistema come riconoscere strutture e valori simili in testo nuovo e non visualizzato.

Esempi:

I am searching for the document with id <START:docId> 12356897 </START:docId>, please send it to me.
All employees are encouraged to find doc with id <START:docid> 0023 <END> on the HR portal.
Interested faculty and graduate students can find document with id <START:docid> 1250 <END>.
Please open file titled <START:filename> launch_brief.txt <END>.
The revised pipeline is presented in the document <START:filename> ingestion_workflow_diagram_v2.pdf <END>.
To explore the many benefits of developing a consistent reading habit, see the document called <START:filename> reading-benefits.txt <END>. 
Please, retrieve any documents about <START:expression> 1250 <END> paper .
Locate the finance policy document containing <START:expression> "card*" <END> usage rules and restrictions.
I need you to find all compliance documentation that specifies <START:expression> dev* <END> for our legal counsel.

Come mostrato, il rilevatore utilizza esempi etichettati in cui i token sono contrassegnati in modo esplicito. Pertanto, impara a riconoscere questi tipi di token in base a:

Posizione della parola
Forma della parola (numeri, maiuscole, ecc.)
Contesto intorno al token

Rilevamento del Token

Quando una frase viene inviata al modello, questo la scompone innanzitutto in token (tipicamente parole o segni di punteggiatura) utilizzando un tokenizzatore specifico per la lingua. Questo passaggio è essenziale per il riconoscimento accurato dei confini dei token. Il modello addestrato analizza la frase tokenizzata e identifica intervalli di parole che corrispondono ai pattern appresi. Ogni intervallo viene restituito insieme a:

L'etichetta del token (ad esempio, docid)
Il valore (ad esempio, 12356897)
Un punteggio di affidabilità