Stemmer
Il filtro stemmer
riduce le parole alla loro forma di base o radice (nota come stemming), facilitando la corrispondenza tra parole con significati simili e inflessioni diverse. Il filtro stemmer
supporta più lingue, consentendo una ricerca e un'indicizzazione efficaci in vari contesti linguistici.
Configurazione
Il filtro stemmer
è un filtro personalizzato di Milvus. Per utilizzarlo, è necessario specificare "type": "stemmer"
nella configurazione del filtro, insieme a un parametro language
per selezionare la lingua desiderata per lo stemming.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
Il filtro stemmer
accetta i seguenti parametri configurabili.
Parametro | Descrizione |
---|---|
| Specifica la lingua per il processo di stemming. Le lingue supportate sono: |
Il filtro stemmer
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarli a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro stemmer
elabora il testo.
Testo originale.
"running runs looked ran runner"
Risultato atteso (con language: "english"
).
["run", "run", "look", "ran", "runner"]