milvus-logo
LFAI
Home
  • Guia do utilizador

Formador de caule

O filtro stemmer reduz as palavras à sua forma básica ou raiz (conhecida como stemming), facilitando a correspondência de palavras com significados semelhantes em diferentes inflexões. O filtro stemmer suporta várias línguas, permitindo uma pesquisa e indexação eficazes em vários contextos linguísticos.

Configuração

O filtro stemmer é um filtro personalizado no Milvus. Para o utilizar, especifique "type": "stemmer" na configuração do filtro, juntamente com um parâmetro language para selecionar o idioma pretendido para o stemming.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stemmer", # Specifies the filter type as stemmer
        "language": "english", # Sets the language for stemming to English
    }],
}

O filtro stemmer aceita os seguintes parâmetros configuráveis.

Parâmetro

Descrição

language

Especifica o idioma para o processo de stemming. Os idiomas suportados incluem: "arabic", "danish", "dutch", "english", "finnish", "french", "german", "greek", "hungarian", "italian", "norwegian", "portuguese", "romanian", "russian", "spanish", "swedish", "tamil", "turkish"

O filtro stemmer opera nos termos gerados pelo tokenizador, portanto, deve ser usado em combinação com um tokenizador.

Depois de definir analyzer_params, pode aplicá-los a um campo VARCHAR ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.

Exemplo de saída

Aqui está um exemplo de como o filtro stemmer processa o texto.

Texto original.

"running runs looked ran runner"

Saída esperada (com language: "english").

["run", "run", "look", "ran", "runner"]

Traduzido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

Esta página foi útil?