Apenas alfanuméricos
O filtro alphanumonly
remove os tokens que contêm caracteres não-ASCII, mantendo apenas os termos alfanuméricos. Este filtro é útil para processar texto em que apenas letras e números básicos são relevantes, excluindo quaisquer caracteres especiais ou símbolos.
Configuração
O filtro alphanumonly
está integrado no Milvus. Para o utilizar, basta especificar o seu nome na secção filter
em analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
O filtro alphanumonly
funciona com os termos gerados pelo tokenizador, pelo que deve ser utilizado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro alphanumonly
processa o texto.
Texto original.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Saída esperada.
["Milvus", "2", "0", "Scale", "AI", "Vector"]