Descompactador
O filtro decompounder
divide as palavras compostas em componentes individuais com base num dicionário especificado, facilitando a pesquisa de partes de termos compostos. Este filtro é particularmente útil para línguas que utilizam frequentemente palavras compostas, como o alemão.
Configuração
O filtro decompounder
é um filtro personalizado no Milvus. Para o utilizar, especifique "type": "decompounder"
na configuração do filtro, juntamente com um parâmetro word_list
que fornece o dicionário de componentes de palavras a reconhecer.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
O filtro decompounder
aceita os seguintes parâmetros configuráveis.
Parâmetro | Descrição |
---|---|
| Uma lista de componentes de palavras utilizadas para dividir termos compostos. Este dicionário determina como as palavras compostas são decompostas em termos individuais. |
O filtro decompounder
opera nos termos gerados pelo tokenizador, pelo que deve ser utilizado em combinação com um tokenizador.
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o filtro decompounder
processa o texto.
Texto original.
"dampfschifffahrt brotbackautomat"
Saída esperada (com word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]