Longitud
El filtro length
elimina los tokens que no cumplen los requisitos de longitud especificados, lo que permite controlar la longitud de los tokens retenidos durante el procesamiento del texto.
Configuración
El filtro length
es un filtro personalizado en Milvus, especificado al establecer "type": "length"
en la configuración del filtro. Puede configurarlo como un diccionario dentro de analyzer_params
para definir los límites de longitud.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
El filtro length
acepta los siguientes parámetros configurables.
Parámetro | Descripción |
---|---|
| Establece la longitud máxima de los tokens. Los tokens de longitud superior se eliminan. |
El filtro length
opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el filtro length
.
Texto de ejemplo.
"The length filter allows control over token length requirements for text processing."
Salida esperada (con max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]