milvus-logo
LFAI
Home
  • Guia do utilizador

Espaço em branco

O tokenizador whitespace divide o texto em termos sempre que houver um espaço entre as palavras.

Configuração

Para configurar um analisador usando o tokenizador whitespace, defina tokenizer como whitespace em analyzer_params.

analyzer_params = {
    "tokenizer": "whitespace",
}

O tokenizador de espaço em branco pode funcionar em conjunto com um ou mais filtros. Por exemplo, o código a seguir define um analisador que usa o tokenizador whitespace e lowercase filter:

analyzer_params = {
    "tokenizer": "whitespace",
    "filter": ["lowercase"]
}

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o tokenizador whitespace processa o texto.

Texto original.

"The Milvus vector database is built for scale!"

Saída esperada.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]

Traduzido porDeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?