Décompacteur
Le filtre decompounder
divise les mots composés en composants individuels sur la base d'un dictionnaire spécifié, ce qui facilite la recherche de parties de termes composés. Ce filtre est particulièrement utile pour les langues qui utilisent fréquemment des mots composés, comme l'allemand.
Configuration
Le filtre decompounder
est un filtre personnalisé dans Milvus. Pour l'utiliser, spécifiez "type": "decompounder"
dans la configuration du filtre, ainsi qu'un paramètre word_list
qui fournit le dictionnaire des composants de mots à reconnaître.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
Le filtre decompounder
accepte les paramètres configurables suivants.
Paramètre | Description |
---|---|
| Une liste de composants de mots utilisés pour diviser les termes composés. Ce dictionnaire détermine comment les mots composés sont décomposés en termes individuels. |
Le filtre decompounder
opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement du texte par le filtre decompounder
.
Texte original.
"dampfschifffahrt brotbackautomat"
Résultat attendu (avec word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]