Dobragem ASCII
O filtro asciifolding
** ** converte caracteres fora do bloco Unicode latino básico (os primeiros 127 caracteres ASCII) nos seus equivalentes ASCII. Por exemplo, transforma caracteres como í
em i
, tornando o processamento de texto mais simples e mais consistente, especialmente para conteúdos multilingues.
Configuração
O filtro asciifolding
está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter
em analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
O filtro asciifolding
funciona com os termos gerados pelo tokenizador, pelo que deve ser utilizado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro asciifolding
processa o texto.
Texto original.
"Café Möller serves crème brûlée and piñatas."
Saída esperada.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]