milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Norme

L'analyseur standard est l'analyseur par défaut de Milvus, qui est automatiquement appliqué aux champs de texte si aucun analyseur n'est spécifié. Il utilise une tokénisation basée sur la grammaire, ce qui le rend efficace pour la plupart des langues.

Définition

L'analyseur standard se compose de

  • Untokenizer: Utilise le tokenizer standard pour diviser le texte en unités de mots discrètes basées sur des règles de grammaire. Pour plus d'informations, voir Standard.

  • Filtre: Utilise le filtre lowercase pour convertir tous les tokens en minuscules, ce qui permet d'effectuer des recherches insensibles à la casse. Pour plus d'informations, voirlowercase filter.

Les fonctionnalités de l'analyseur standard sont équivalentes à la configuration personnalisée suivante de l'analyseur.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Configuration

Pour appliquer l'analyseur standard à un champ, il suffit de définir type comme standard dans analyzer_params, et d'inclure des paramètres facultatifs si nécessaire.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

L'analyseur standard accepte les paramètres facultatifs suivants :

Paramètre

Description

stop_words

Un tableau contenant une liste de mots vides, qui seront supprimés de la tokenisation. La valeur par défaut est _english_, un ensemble intégré de mots vides courants en anglais. Les détails de _english_ peuvent être trouvés ici.

Exemple de configuration de mots vides personnalisés.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus d'informations, voir Exemple d'utilisation.

Exemple de sortie

Voici comment l'analyseur standard traite le texte.

Texte original.

"The Milvus vector database is built for scale!"

Résultat attendu.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Traduit parDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?