Padrão
O tokenizador standard
do Milvus divide o texto com base em espaços e sinais de pontuação, tornando-o adequado para a maioria das línguas.
Configuração
Para configurar um analisador usando o tokenizador standard
, defina tokenizer
para standard
em analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
O tokenizador standard
pode funcionar em conjunto com um ou mais filtros. Por exemplo, o código a seguir define um analisador que usa o tokenizador standard
e o filtro lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Para uma configuração mais simples, você pode optar por usar o filtro standard analyzer
que combina o tokenizador standard
com o filtro lowercase filter
.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o tokenizador standard
processa o texto.
Texto original.
"The Milvus vector database is built for scale!"
Saída esperada.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]