Spazio bianco
Il tokenizer whitespace
divide il testo in termini ogni volta che c'è uno spazio tra le parole.
Configurazione
Per configurare un analizzatore che utilizza il tokenizer whitespace
, impostare tokenizer
su whitespace
in analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
Il tokenizer degli spazi bianchi può funzionare insieme a uno o più filtri. Ad esempio, il codice seguente definisce un analizzatore che usa il tokenizer whitespace
e il filtro lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Dopo aver definito analyzer_params
, è possibile applicarli a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo di quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il tokenizer whitespace
elabora il testo.
Testo originale.
"The Milvus vector database is built for scale!"
Risultato atteso.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]