Espaço em branco
O tokenizador whitespace
divide o texto em termos sempre que houver um espaço entre as palavras.
Configuração
Para configurar um analisador usando o tokenizador whitespace
, defina tokenizer
como whitespace
em analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
O tokenizador de espaço em branco pode funcionar em conjunto com um ou mais filtros. Por exemplo, o código a seguir define um analisador que usa o tokenizador whitespace
e lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o tokenizador whitespace
processa o texto.
Texto original.
"The Milvus vector database is built for scale!"
Saída esperada.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]