milvus-logo
LFAI
Home
  • Guia do utilizador

Dobragem ASCII

O filtro asciifolding** ** converte caracteres fora do bloco Unicode latino básico (os primeiros 127 caracteres ASCII) nos seus equivalentes ASCII. Por exemplo, transforma caracteres como í em i, tornando o processamento de texto mais simples e mais consistente, especialmente para conteúdos multilingues.

Configuração

O filtro asciifolding está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter em analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["asciifolding"],
}

O filtro asciifolding funciona com os termos gerados pelo tokenizador, pelo que deve ser utilizado em combinação com um tokenizador.

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o filtro asciifolding processa o texto.

Texto original.

"Café Möller serves crème brûlée and piñatas."

Saída esperada.

["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]

Traduzido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?