milvus-logo
LFAI
Home
  • Guia do utilizador

Parar

O filtro stop remove as palavras de paragem especificadas do texto tokenizado, ajudando a eliminar palavras comuns e menos significativas. Pode configurar a lista de palavras de paragem utilizando o parâmetro stop_words.

Configuração

O filtro length é um filtro personalizado no Milvus. Para o utilizar, especifique "type": "stop" na configuração do filtro, juntamente com um parâmetro stop_words que fornece uma lista de palavras de paragem.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

O filtro stop aceita os seguintes parâmetros configuráveis.

Parâmetro

Descrição

stop_words

Uma lista de palavras a serem removidas da tokenização. Por predefinição, é utilizada a lista predefinida _english_, que contém palavras de paragem comuns em inglês. Os detalhes de _english_ podem ser encontrados aqui.

O filtro stop opera nos termos gerados pelo tokenizador, portanto deve ser usado em combinação com um tokenizador.

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o filtro stop processa o texto.

Texto original.

"The stop filter allows control over common stop words for text processing."

Saída esperada (com stop_words: ["the", "over", "_english_"]).

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

Traduzido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?