Skip to main content

Rilevatore di Token

Il Rilevatore di Token è un modello di linguaggio naturale specializzato progettato per identificare ed estrarre specifiche informazioni, chiamate token, dall'interno di una frase. Viene utilizzato per rilevare dati strutturati come ID, nomi, date o codici incorporati nel testo in linguaggio naturale.

A differenza di un classificatore, che categorizza intere frasi, il rilevatore di token si concentra sulla marcatura e l'etichettatura di sottosezioni di una frase. Questo è particolarmente utile per le applicazioni che devono estrarre valori dalle richieste degli utenti, come ID di documenti o riferimenti.

Come funziona il rilevatore di token

Il Rilevatore di Token viene addestrato utilizzando frasi etichettate in cui i token di interesse sono chiaramente contrassegnati con un formato speciale. Ogni token da rilevare è racchiuso tra i tag <START:label> e <END>. Questi indicano sia i limiti del token sia il tipo di informazioni estratte. Nello specifico, questi tag (<START:label> e <END>) insegnano al sistema come riconoscere strutture e valori simili in testo nuovo e non visualizzato.

Esempi: 

I am searching for the document with id <START:docId> 12356897 </START:docId>, please send it to me.
All employees are encouraged to find doc with id <START:docid> 0023 <END> on the HR portal.
Interested faculty and graduate students can find document with id <START:docid> 1250 <END>. Please open file titled <START:filename> launch_brief.txt <END>.
The revised pipeline is presented in the document <START:filename> ingestion_workflow_diagram_v2.pdf <END>.
To explore the many benefits of developing a consistent reading habit, see the document called <START:filename> reading-benefits.txt <END>.  Please, retrieve any documents about <START:expression> 1250 <END> paper .
Locate the finance policy document containing <START:expression> "card*" <END> usage rules and restrictions.
I need you to find all compliance documentation that specifies <START:expression> dev* <END> for our legal counsel.

Come mostrato, il rilevatore utilizza esempi etichettati in cui i token sono contrassegnati in modo esplicito. Pertanto, impara a riconoscere questi tipi di token in base a:

  • Posizione della parola
  • Forma della parola (numeri, maiuscole, ecc.)
  • Contesto intorno al token

Rilevamento del Token

Quando una frase viene inviata al modello, questo la scompone innanzitutto in token (tipicamente parole o segni di punteggiatura) utilizzando un tokenizzatore specifico per la lingua. Questo passaggio è essenziale per il riconoscimento accurato dei confini dei token. Il modello addestrato analizza la frase tokenizzata e identifica intervalli di parole che corrispondono ai pattern appresi. Ogni intervallo viene restituito insieme a:

  • L'etichetta del token (ad esempio, docid)
  • Il valore (ad esempio, 12356897)
  • Un punteggio di affidabilità