Stemmer (littéralement : "racine")
Le filtre stemmer
réduit les mots à leur forme de base ou racine (stemming), ce qui facilite l'appariement de mots ayant des significations similaires à travers différentes inflexions. Le filtre stemmer
prend en charge plusieurs langues, ce qui permet une recherche et une indexation efficaces dans différents contextes linguistiques.
Configuration
Le filtre stemmer
est un filtre personnalisé dans Milvus. Pour l'utiliser, spécifiez "type": "stemmer"
dans la configuration du filtre, ainsi qu'un paramètre language
pour sélectionner la langue souhaitée pour le stemming.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
Le filtre stemmer
accepte les paramètres configurables suivants.
Paramètre | Description |
---|---|
| Spécifie la langue pour le processus de filtrage. Les langues prises en charge sont les suivantes : |
Le filtre stemmer
opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement du texte par le filtre stemmer
.
Texte original.
"running runs looked ran runner"
Résultat attendu (avec language: "english"
).
["run", "run", "look", "ran", "runner"]