Pliage ASCII
Le filtre asciifolding
** ** convertit les caractères situés en dehors du bloc Unicode latin de base (les 127 premiers caractères ASCII) en leurs équivalents ASCII. Par exemple, il transforme des caractères tels que í
en i
, ce qui rend le traitement de texte plus simple et plus cohérent, en particulier pour les contenus multilingues.
Configuration
Le filtre asciifolding
est intégré à Milvus. Pour l'utiliser, il suffit de spécifier son nom dans la section filter
de analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
Le filtre asciifolding
fonctionne sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement du texte par le filtre asciifolding
.
Texte original.
"Café Möller serves crème brûlée and piñatas."
Résultat attendu.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]