Minúsculas
O filtro lowercase
converte os termos gerados por um tokenizador para minúsculas, tornando as pesquisas insensíveis a maiúsculas e minúsculas. Por exemplo, ele pode converter ["High", "Performance", "Vector", "Database"]
em ["high", "performance", "vector", "database"]
.
Configuração
O filtro lowercase
está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter
dentro de analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"],
}
O filtro lowercase
opera nos termos gerados pelo tokenizador, por isso deve ser usado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro lowercase
processa o texto.
Texto original.
"The Lowercase Filter Ensures Uniformity In Text Processing."
Saída esperada.
["the", "lowercase", "filter", "ensures", "uniformity", "in", "text", "processing"]