milvus-logo
LFAI
Home
  • Guía del usuario

Descomponedor

El filtro decompounder divide las palabras compuestas en componentes individuales basándose en un diccionario especificado, lo que facilita la búsqueda de partes de términos compuestos. Este filtro es especialmente útil para los idiomas que utilizan con frecuencia palabras compuestas, como el alemán.

Configuración

El filtro decompounder es un filtro personalizado de Milvus. Para utilizarlo, especifique "type": "decompounder" en la configuración del filtro, junto con un parámetro word_list que proporciona el diccionario de componentes de palabras a reconocer.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

El filtro decompounder acepta los siguientes parámetros configurables.

Parámetro

Descripción

word_list

Una lista de componentes de palabras utilizados para dividir términos compuestos. Este diccionario determina cómo se descomponen las palabras compuestas en términos individuales.

El filtro decompounder opera sobre los términos generados por el tokenizador, por lo que debe utilizarse en combinación con un tokenizador.

Después de definir analyzer_params, puede aplicarlos a un campo VARCHAR al definir un esquema de colección. Esto permite a Milvus procesar el texto de ese campo utilizando el analizador especificado para una tokenización y filtrado eficientes. Para más detalles, consulte Ejemplo de uso.

Ejemplo de salida

A continuación se muestra un ejemplo de cómo procesa el texto el filtro decompounder.

Texto original.

"dampfschifffahrt brotbackautomat"

Salida esperada (con word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]).

["dampf", "schiff", "fahrt", "brotbackautomat"]

Traducido porDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

¿Fue útil esta página?