Inglês
O analisador english
do Milvus foi concebido para processar texto em inglês, aplicando regras específicas da língua para tokenização e filtragem.
Definição
O analisador english
utiliza os seguintes componentes.
Tokenizador: Usa o
standard tokenizer
para dividir o texto em unidades discretas de palavras.Filtros: Inclui vários filtros para um processamento de texto abrangente.
lowercase
: Converte todos os tokens para minúsculas, permitindo pesquisas sem distinção entre maiúsculas e minúsculas.stemmer
: Reduz as palavras à sua forma de raiz para suportar uma correspondência mais ampla (por exemplo, "running" torna-se "run").stop_words
: Remove palavras de paragem comuns em inglês para se concentrar em termos-chave no texto.
A funcionalidade do analisador english
é equivalente à seguinte configuração de analisador personalizado.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Configuração
Para aplicar o analisador english
a um campo, basta definir type
para english
em analyzer_params
, e incluir parâmetros opcionais conforme necessário.
analyzer_params = {
"type": "english",
}
O analisador english
aceita os seguintes parâmetros opcionais:
Parâmetro | Descrição |
---|---|
| Uma matriz contendo uma lista de palavras de paragem, que serão removidas da tokenização. A predefinição é |
Exemplo de configuração com palavras de paragem personalizadas.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Depois de definir analyzer_params
, pode aplicá-las a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Veja como o analisador english
processa o texto.
Texto original.
"The Milvus vector database is built for scale!"
Saída esperada.
["milvus", "vector", "databas", "built", "scale"]