Decompositore
Il filtro decompounder
suddivide le parole composte in singoli componenti sulla base di un dizionario specificato, facilitando la ricerca di parti di termini composti. Questo filtro è particolarmente utile per le lingue che utilizzano frequentemente parole composte, come il tedesco.
Configurazione
Il filtro decompounder
è un filtro personalizzato di Milvus. Per usarlo, si deve specificare "type": "decompounder"
nella configurazione del filtro, insieme a un parametro word_list
che fornisce il dizionario dei componenti delle parole da riconoscere.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
Il filtro decompounder
accetta i seguenti parametri configurabili.
Parametro | Descrizione |
---|---|
| Un elenco di componenti di parole usate per dividere i termini composti. Questo dizionario determina il modo in cui le parole composte vengono scomposte in termini individuali. |
Il filtro decompounder
opera sui termini generati dal tokenizer, quindi deve essere usato in combinazione con un tokenizer.
Dopo aver definito analyzer_params
, è possibile applicarlo a un campo VARCHAR
quando si definisce uno schema di raccolta. Ciò consente a Milvus di elaborare il testo in quel campo utilizzando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il filtro decompounder
elabora il testo.
Testo originale.
"dampfschifffahrt brotbackautomat"
Risultato atteso (con word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]