Anglais
L'analyseur english
de Milvus est conçu pour traiter des textes en anglais, en appliquant des règles de tokenisation et de filtrage propres à la langue.
Définition
L'analyseur english
utilise les composants suivants.
Tokenizer: Utilise le
standard tokenizer
pour diviser le texte en unités de mots discrètes.Filtres : Inclut plusieurs filtres pour un traitement complet du texte.
lowercase
: Convertit tous les tokens en minuscules, ce qui permet d'effectuer des recherches sans tenir compte de la casse.stemmer
: Réduit les mots à leur forme racine pour permettre une recherche plus large (par exemple, "running" devient "run").stop_words
: Supprime les mots d'arrêt courants en anglais pour se concentrer sur les termes clés du texte.
La fonctionnalité de l'analyseur english
est équivalente à la configuration de l'analyseur personnalisé suivant.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Configuration
Pour appliquer l'analyseur english
à un champ, il suffit de définir type
sur english
dans analyzer_params
, et d'inclure des paramètres optionnels si nécessaire.
analyzer_params = {
"type": "english",
}
L'analyseur english
accepte les paramètres facultatifs suivants :
Paramètre | Description |
---|---|
| Un tableau contenant une liste de mots vides, qui seront supprimés de la tokenisation. La valeur par défaut est |
Exemple de configuration avec des mots vides personnalisés.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Après avoir défini analyzer_params
, vous pouvez les appliquer à un champ VARCHAR
lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.
Exemple de sortie
Voici comment l'analyseur english
traite le texte.
Texte original.
"The Milvus vector database is built for scale!"
Résultat attendu.
["milvus", "vector", "databas", "built", "scale"]