milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Norme

Le tokenizer standard de Milvus divise le texte en fonction des espaces et des signes de ponctuation, ce qui le rend adapté à la plupart des langues.

Configuration

Pour configurer un analyseur utilisant le tokenizer standard, définissez tokenizer sur standard dans analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

Le tokenizer standard peut fonctionner en conjonction avec un ou plusieurs filtres. Par exemple, le code suivant définit un analyseur qui utilise le tokenizer standard et le filtre lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Pour une configuration plus simple, vous pouvez choisir d'utiliser le code standard analyzerqui combine le tokenizer standard avec le filtre lowercase filter.

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement de texte par le tokenizer standard.

Texte original.

"The Milvus vector database is built for scale!"

Résultat attendu.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Traduit parDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?