Lunghezza
Il filtro length
rimuove i token che non soddisfano i requisiti di lunghezza specificati, consentendo di controllare la lunghezza dei token conservati durante l'elaborazione del testo.
Configurazione
Il filtro length
è un filtro personalizzato in Milvus, specificato dall'impostazione "type": "length"
nella configurazione del filtro. Si può configurare come un dizionario all'interno di analyzer_params
per definire i limiti di lunghezza.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
Il filtro length
accetta i seguenti parametri configurabili.
Parametro | Descrizione |
---|---|
| Imposta la lunghezza massima dei token. I token più lunghi di questa lunghezza vengono rimossi. |
Il filtro length
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarlo a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro length
elabora il testo.
Testo di esempio.
"The length filter allows control over token length requirements for text processing."
Risultato atteso (con max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]