Descomponedor
El filtro decompounder
divide las palabras compuestas en componentes individuales basándose en un diccionario especificado, lo que facilita la búsqueda de partes de términos compuestos. Este filtro es especialmente útil para los idiomas que utilizan con frecuencia palabras compuestas, como el alemán.
Configuración
El filtro decompounder
es un filtro personalizado de Milvus. Para utilizarlo, especifique "type": "decompounder"
en la configuración del filtro, junto con un parámetro word_list
que proporciona el diccionario de componentes de palabras a reconocer.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
El filtro decompounder
acepta los siguientes parámetros configurables.
Parámetro | Descripción |
---|---|
| Una lista de componentes de palabras utilizados para dividir términos compuestos. Este diccionario determina cómo se descomponen las palabras compuestas en términos individuales. |
El filtro decompounder
opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.
Después de definir analyzer_params
, puede aplicarlos a un campo VARCHAR
al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.
Ejemplo de salida
A continuación se muestra un ejemplo de cómo procesa el texto el filtro decompounder
.
Texto original.
"dampfschifffahrt brotbackautomat"
Salida esperada (con word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]