Espace blanc
Le tokenizer whitespace
divise le texte en termes lorsqu'il y a un espace entre les mots.
Configuration
Pour configurer un analyseur utilisant le tokenizer whitespace
, définissez tokenizer
sur whitespace
dans analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
Le tokenizer d'espaces blancs peut fonctionner en conjonction avec un ou plusieurs filtres. Par exemple, le code suivant définit un analyseur qui utilise le tokenizer whitespace
et le filtre lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici un exemple de traitement de texte par le tokenizer whitespace
.
Texte original.
"The Milvus vector database is built for scale!"
Résultat attendu.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]