Norme
L'analyseur standard
est l'analyseur par défaut de Milvus, qui est automatiquement appliqué aux champs de texte si aucun analyseur n'est spécifié. Il utilise une tokénisation basée sur la grammaire, ce qui le rend efficace pour la plupart des langues.
Définition
L'analyseur standard
se compose de
Untokenizer: Utilise le tokenizer
standard
pour diviser le texte en unités de mots discrètes basées sur des règles de grammaire. Pour plus d'informations, voir Standard.Filtre: Utilise le filtre
lowercase
pour convertir tous les tokens en minuscules, ce qui permet d'effectuer des recherches insensibles à la casse. Pour plus d'informations, voirlowercase filter
.
Les fonctionnalités de l'analyseur standard
sont équivalentes à la configuration personnalisée suivante de l'analyseur.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Configuration
Pour appliquer l'analyseur standard
à un champ, il suffit de définir type
comme standard
dans analyzer_params
, et d'inclure des paramètres facultatifs si nécessaire.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
L'analyseur standard
accepte les paramètres facultatifs suivants :
Paramètre | Description |
---|---|
| Un tableau contenant une liste de mots vides, qui seront supprimés de la tokenisation. La valeur par défaut est |
Exemple de configuration de mots vides personnalisés.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus d'informations, voir Exemple d'utilisation.
Exemple de sortie
Voici comment l'analyseur standard
traite le texte.
Texte original.
"The Milvus vector database is built for scale!"
Résultat attendu.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]