milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Décompacteur

Le filtre decompounder divise les mots composés en composants individuels sur la base d'un dictionnaire spécifié, ce qui facilite la recherche de parties de termes composés. Ce filtre est particulièrement utile pour les langues qui utilisent fréquemment des mots composés, comme l'allemand.

Configuration

Le filtre decompounder est un filtre personnalisé dans Milvus. Pour l'utiliser, spécifiez "type": "decompounder" dans la configuration du filtre, ainsi qu'un paramètre word_list qui fournit le dictionnaire des composants de mots à reconnaître.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

Le filtre decompounder accepte les paramètres configurables suivants.

Paramètre

Description

word_list

Une liste de composants de mots utilisés pour diviser les termes composés. Ce dictionnaire détermine comment les mots composés sont décomposés en termes individuels.

Le filtre decompounder opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement du texte par le filtre decompounder.

Texte original.

"dampfschifffahrt brotbackautomat"

Résultat attendu (avec word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]).

["dampf", "schiff", "fahrt", "brotbackautomat"]

Traduit parDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?