Inglese
L'analizzatore english
di Milvus è progettato per elaborare testi in inglese, applicando regole specifiche per la lingua per la tokenizzazione e il filtraggio.
Definizione
L'analizzatore english
utilizza i seguenti componenti.
Tokenizzatore: Utilizza la funzione
standard tokenizer
per dividere il testo in unità di parole discrete.Filtri: Include diversi filtri per un'elaborazione completa del testo.
lowercase
: Converte tutti i token in minuscolo, consentendo ricerche senza distinzione tra maiuscole e minuscole.stemmer
: Riduce le parole alla loro forma radicale per supportare una corrispondenza più ampia (ad esempio, "running" diventa "run").stop_words
: Rimuove le comuni stop words inglesi per concentrarsi sui termini chiave del testo.
La funzionalità dell'analizzatore english
è equivalente alla seguente configurazione personalizzata dell'analizzatore.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Configurazione
Per applicare l'analizzatore english
a un campo, è sufficiente impostare type
su english
in analyzer_params
e includere i parametri opzionali necessari.
analyzer_params = {
"type": "english",
}
L'analizzatore english
accetta i seguenti parametri opzionali:
Parametro | Descrizione |
---|---|
| Un array contenente un elenco di stop words che saranno rimosse dalla tokenizzazione. L'impostazione predefinita è |
Esempio di configurazione con stop word personalizzate.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Dopo aver definito analyzer_params
, è possibile applicarle a un campo VARCHAR
quando si definisce uno schema di raccolta. Questo permette a Milvus di elaborare il testo in quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco come l'analizzatore english
elabora il testo.
Testo originale.
"The Milvus vector database is built for scale!"
Risultato atteso.
["milvus", "vector", "databas", "built", "scale"]