milvus-logo
LFAI
Home
  • Guia do utilizador

Padrão

O tokenizador standard do Milvus divide o texto com base em espaços e sinais de pontuação, tornando-o adequado para a maioria das línguas.

Configuração

Para configurar um analisador usando o tokenizador standard, defina tokenizer para standard em analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

O tokenizador standard pode funcionar em conjunto com um ou mais filtros. Por exemplo, o código a seguir define um analisador que usa o tokenizador standard e o filtro lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Para uma configuração mais simples, você pode optar por usar o filtro standard analyzerque combina o tokenizador standard com o filtro lowercase filter.

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o tokenizador standard processa o texto.

Texto original.

"The Milvus vector database is built for scale!"

Saída esperada.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Traduzido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?