Detener
El filtro stop
elimina las palabras de parada especificadas del texto tokenizado, lo que ayuda a eliminar las palabras comunes y menos significativas. Puede configurar la lista de palabras de parada utilizando el parámetro stop_words
.
Configuración
El filtro length
es un filtro personalizado de Milvus. Para utilizarlo, especifique "type": "stop"
en la configuración del filtro, junto con un parámetro stop_words
que proporciona una lista de palabras de parada.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
El filtro stop
acepta los siguientes parámetros configurables.
Parámetro | Descripción |
---|---|
| Lista de palabras que deben eliminarse de la tokenización. Por defecto, se utiliza la lista predefinida |
El filtro stop
opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el filtro stop
.
Texto original.
"The stop filter allows control over common stop words for text processing."
Salida esperada (con stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]