milvus-logo
LFAI
Home
  • Guide de l'utilisateur

Longueur

Le filtre length supprime les tokens qui ne répondent pas aux critères de longueur spécifiés, ce qui vous permet de contrôler la longueur des tokens conservés lors du traitement du texte.

Configuration

Le filtre length est un filtre personnalisé dans Milvus, spécifié par le paramètre "type": "length" dans la configuration du filtre. Vous pouvez le configurer comme un dictionnaire dans analyzer_params pour définir des limites de longueur.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "length", # Specifies the filter type as length
        "max": 10, # Sets the maximum token length to 10 characters
    }],
}

Le filtre length accepte les paramètres configurables suivants.

Paramètre

Description

max

Définit la longueur maximale du jeton. Les jetons plus longs que cette longueur sont supprimés.

Le filtre length opère sur les termes générés par le tokenizer, il doit donc être utilisé en combinaison avec un tokenizer.

Après avoir défini analyzer_params, vous pouvez les appliquer à un champ VARCHAR lors de la définition d'un schéma de collecte. Cela permet à Milvus de traiter le texte de ce champ à l'aide de l'analyseur spécifié pour une tokenisation et un filtrage efficaces. Pour plus de détails, voir Exemple d'utilisation.

Exemple de sortie

Voici un exemple de traitement de texte par le filtre length.

Exemple de texte.

"The length filter allows control over token length requirements for text processing."

Résultat attendu (avec max: 10).

["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]

Traduit parDeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Cette page a-t - elle été utile ?