milvus-logo
LFAI
Home
  • Guia do utilizador

Inglês

O analisador english do Milvus foi concebido para processar texto em inglês, aplicando regras específicas da língua para tokenização e filtragem.

Definição

O analisador english utiliza os seguintes componentes.

  • Tokenizador: Usa o standard tokenizer para dividir o texto em unidades discretas de palavras.

  • Filtros: Inclui vários filtros para um processamento de texto abrangente.

    • lowercase: Converte todos os tokens para minúsculas, permitindo pesquisas sem distinção entre maiúsculas e minúsculas.

    • stemmer: Reduz as palavras à sua forma de raiz para suportar uma correspondência mais ampla (por exemplo, "running" torna-se "run").

    • stop_words: Remove palavras de paragem comuns em inglês para se concentrar em termos-chave no texto.

A funcionalidade do analisador english é equivalente à seguinte configuração de analisador personalizado.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Configuração

Para aplicar o analisador english a um campo, basta definir type para english em analyzer_params, e incluir parâmetros opcionais conforme necessário.

analyzer_params = {
    "type": "english",
}

O analisador english aceita os seguintes parâmetros opcionais:

Parâmetro

Descrição

stop_words

Uma matriz contendo uma lista de palavras de paragem, que serão removidas da tokenização. A predefinição é _english_, um conjunto incorporado de palavras de paragem comuns em inglês.

Exemplo de configuração com palavras de paragem personalizadas.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Depois de definir analyzer_params, pode aplicá-las a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Veja como o analisador english processa o texto.

Texto original.

"The Milvus vector database is built for scale!"

Saída esperada.

["milvus", "vector", "databas", "built", "scale"]

Traduzido porDeepL

Tabela de conteúdos

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?