milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Arrêt

Le filtre stop supprime les mots d'arrêt spécifiés du texte tokenisé, ce qui permet d'éliminer les mots courants et moins significatifs. Vous pouvez configurer la liste des mots d'arrêt à l'aide du paramètre stop_words.

Configuration

Le filtre length est un filtre personnalisé dans Milvus. Pour l'utiliser, spécifiez "type": "stop" dans la configuration du filtre, ainsi qu'un paramètre stop_words qui fournit une liste de mots vides.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

Le filtre stop accepte les paramètres configurables suivants.

Paramètre

Description

stop_words

Une liste de mots à supprimer de la tokenisation. Par défaut, la liste prédéfinie _english_, qui contient des mots d'arrêt anglais courants, est utilisée. Les détails de _english_ peuvent être trouvés ici.

Le filtre stop opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement du texte par le filtre stop.

Texte original.

"The stop filter allows control over common stop words for text processing."

Résultat attendu (avec stop_words: ["the", "over", "_english_"]).

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

Traduit parDeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?