Parar
O filtro stop
remove as palavras de paragem especificadas do texto tokenizado, ajudando a eliminar palavras comuns e menos significativas. Pode configurar a lista de palavras de paragem utilizando o parâmetro stop_words
.
Configuração
O filtro length
é um filtro personalizado no Milvus. Para o utilizar, especifique "type": "stop"
na configuração do filtro, juntamente com um parâmetro stop_words
que fornece uma lista de palavras de paragem.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
O filtro stop
aceita os seguintes parâmetros configuráveis.
Parâmetro | Descrição |
---|---|
| Uma lista de palavras a serem removidas da tokenização. Por predefinição, é utilizada a lista predefinida |
O filtro stop
opera nos termos gerados pelo tokenizador, portanto deve ser usado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro stop
processa o texto.
Texto original.
"The stop filter allows control over common stop words for text processing."
Saída esperada (com stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]