milvus-logo
LFAI
Home
  • Guía del usuario

Detener

El filtro stop elimina las palabras de parada especificadas del texto tokenizado, lo que ayuda a eliminar las palabras comunes y menos significativas. Puede configurar la lista de palabras de parada utilizando el parámetro stop_words.

Configuración

El filtro length es un filtro personalizado de Milvus. Para utilizarlo, especifique "type": "stop" en la configuración del filtro, junto con un parámetro stop_words que proporciona una lista de palabras de parada.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

El filtro stop acepta los siguientes parámetros configurables.

Parámetro

Descripción

stop_words

Lista de palabras que deben eliminarse de la tokenización. Por defecto, se utiliza la lista predefinida _english_, que contiene palabras de parada comunes en inglés. Los detalles de _english_ pueden encontrarse aquí.

El filtro stop opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.

Después de definir analyzer_params, puede aplicarlos a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.

Ejemplo de salida

A continuación se muestra un ejemplo de cómo procesa el texto el filtro stop.

Texto original.

"The stop filter allows control over common stop words for text processing."

Salida esperada (con stop_words: ["the", "over", "_english_"]).

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

Traducido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?