Arrêt
Le filtre stop
supprime les mots d'arrêt spécifiés du texte tokenisé, ce qui permet d'éliminer les mots courants et moins significatifs. Vous pouvez configurer la liste des mots d'arrêt à l'aide du paramètre stop_words
.
Configuration
Le filtre length
est un filtre personnalisé dans Milvus. Pour l'utiliser, spécifiez "type": "stop"
dans la configuration du filtre, ainsi qu'un paramètre stop_words
qui fournit une liste de mots vides.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
Le filtre stop
accepte les paramètres configurables suivants.
Paramètre | Description |
---|---|
| Une liste de mots à supprimer de la tokenisation. Par défaut, la liste prédéfinie |
Le filtre stop
opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement du texte par le filtre stop
.
Texte original.
"The stop filter allows control over common stop words for text processing."
Résultat attendu (avec stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]