Standard
Il tokenizzatore standard
di Milvus divide il testo in base agli spazi e ai segni di punteggiatura, rendendolo adatto alla maggior parte delle lingue.
Configurazione
Per configurare un analizzatore che utilizza il tokenizer standard
, impostare tokenizer
su standard
in analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
Il tokenizer standard
può funzionare insieme a uno o più filtri. Per esempio, il codice seguente definisce un analizzatore che utilizza il tokenizer standard
e il filtro lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Per una configurazione più semplice, si può scegliere di usare il filtro standard analyzer
che combina il tokenizer standard
con il filtro lowercase filter
.
Dopo aver definito analyzer_params
, è possibile applicarli a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il tokenizer standard
elabora il testo.
Testo originale.
"The Milvus vector database is built for scale!"
Risultato atteso.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]