milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Anglais

L'analyseur english de Milvus est conçu pour traiter des textes en anglais, en appliquant des règles de tokenisation et de filtrage propres à la langue.

Définition

L'analyseur english utilise les composants suivants.

  • Tokenizer: Utilise le standard tokenizer pour diviser le texte en unités de mots discrètes.

  • Filtres : Inclut plusieurs filtres pour un traitement complet du texte.

    • lowercase: Convertit tous les tokens en minuscules, ce qui permet d'effectuer des recherches sans tenir compte de la casse.

    • stemmer: Réduit les mots à leur forme racine pour permettre une recherche plus large (par exemple, "running" devient "run").

    • stop_words: Supprime les mots d'arrêt courants en anglais pour se concentrer sur les termes clés du texte.

La fonctionnalité de l'analyseur english est équivalente à la configuration de l'analyseur personnalisé suivant.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Configuration

Pour appliquer l'analyseur english à un champ, il suffit de définir type sur english dans analyzer_params, et d'inclure des paramètres optionnels si nécessaire.

analyzer_params = {
    "type": "english",
}

L'analyseur english accepte les paramètres facultatifs suivants :

Paramètre

Description

stop_words

Un tableau contenant une liste de mots vides, qui seront supprimés de la tokenisation. La valeur par défaut est _english_, un ensemble intégré de mots d'arrêt anglais courants.

Exemple de configuration avec des mots vides personnalisés.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici comment l'analyseur english traite le texte.

Texte original.

"The Milvus vector database is built for scale!"

Résultat attendu.

["milvus", "vector", "databas", "built", "scale"]

Traduit parDeepLogo

Table de contenu

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?