Comprimento
O filtro length
remove os tokens que não cumprem os requisitos de comprimento especificados, permitindo-lhe controlar o comprimento dos tokens retidos durante o processamento de texto.
Configuração
O filtro length
é um filtro personalizado no Milvus, especificado pela definição "type": "length"
na configuração do filtro. É possível configurá-lo como um dicionário dentro do analyzer_params
para definir limites de comprimento.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
O filtro length
aceita os seguintes parâmetros configuráveis.
Parâmetro | Descrição |
---|---|
| Define o comprimento máximo do token. Os tokens maiores que este comprimento são removidos. |
O filtro length
opera nos termos gerados pelo tokenizador, pelo que deve ser utilizado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro length
processa o texto.
Texto de exemplo.
"The length filter allows control over token length requirements for text processing."
Saída esperada (com max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]