milvus-logo
LFAI
Home
  • Guia do utilizador

Padrão

O analisador standard é o analisador predefinido no Milvus, que é aplicado automaticamente aos campos de texto se não for especificado um analisador. Utiliza a tokenização baseada na gramática, o que o torna eficaz para a maioria das línguas.

Definição

O analisador standard é composto por.

  • Tokenizador: Usa o tokenizador standard para dividir o texto em unidades de palavras discretas com base em regras gramaticais. Para obter mais informações, consulte Padrão.

  • Filtro: Usa o filtro lowercase para converter todos os tokens em minúsculas, permitindo pesquisas sem distinção entre maiúsculas e minúsculas. Para obter mais informações, consultelowercase filter.

A funcionalidade do analisador standard é equivalente à seguinte configuração de analisador personalizado.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Configuração

Para aplicar o analisador standard a um campo, basta definir type para standard em analyzer_params, e incluir parâmetros opcionais conforme necessário.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

O analisador standard aceita os seguintes parâmetros opcionais:

Parâmetro

Descrição

stop_words

Uma matriz que contém uma lista de palavras de paragem, que serão removidas da tokenização. A predefinição é _english_, um conjunto incorporado de palavras de paragem comuns em inglês. Os detalhes de _english_ podem ser encontrados aqui.

Exemplo de configuração de palavras de parada personalizadas.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Depois de definir analyzer_params, pode aplicá-las a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais informações, consulte Exemplo de utilização.

Exemplo de saída

Veja como o analisador standard processa o texto.

Texto original.

"The Milvus vector database is built for scale!"

Saída esperada.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Traduzido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?