milvus-logo
LFAI
Home
  • Benutzerhandbuch

Dekompounder

Der Filter decompounder zerlegt zusammengesetzte Wörter auf der Grundlage eines angegebenen Wörterbuchs in einzelne Komponenten, um die Suche nach Teilen zusammengesetzter Begriffe zu erleichtern. Dieser Filter ist besonders nützlich für Sprachen, die häufig zusammengesetzte Wörter verwenden, wie z. B. Deutsch.

Konfiguration

Der Filter decompounder ist ein benutzerdefinierter Filter in Milvus. Um ihn zu verwenden, geben Sie "type": "decompounder" in der Filterkonfiguration an, zusammen mit einem word_list Parameter, der das Wörterbuch der zu erkennenden Wortbestandteile angibt.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

Der Filter decompounder akzeptiert die folgenden konfigurierbaren Parameter.

Parameter

Beschreibung

word_list

Eine Liste von Wortkomponenten, die zur Aufteilung zusammengesetzter Begriffe verwendet werden. Dieses Wörterbuch bestimmt, wie zusammengesetzte Wörter in einzelne Begriffe zerlegt werden.

Der Filter decompounder arbeitet mit den vom Tokenizer erzeugten Begriffen und muss daher in Kombination mit einem Tokenizer verwendet werden.

Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.

Beispiel-Ausgabe

Hier ist ein Beispiel dafür, wie der decompounder Filter Text verarbeitet.

Ursprünglicher Text.

"dampfschifffahrt brotbackautomat"

Erwartete Ausgabe (mit word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]).

["dampf", "schiff", "fahrt", "brotbackautomat"]

Übersetzt vonDeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?