milvus-logo
LFAI
Home
  • Benutzerhandbuch

Stopp

Der Filter stop entfernt bestimmte Stoppwörter aus tokenisiertem Text und hilft so, häufige, weniger aussagekräftige Wörter zu eliminieren. Sie können die Liste der Stoppwörter mit dem Parameter stop_words konfigurieren.

Konfiguration

Der Filter length ist ein benutzerdefinierter Filter in Milvus. Um ihn zu verwenden, geben Sie "type": "stop" in der Filterkonfiguration an, zusammen mit einem stop_words Parameter, der eine Liste von Stoppwörtern bereitstellt.

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

Der Filter stop akzeptiert die folgenden konfigurierbaren Parameter.

Parameter

Beschreibung

stop_words

Eine Liste von Wörtern, die aus der Tokenisierung entfernt werden sollen. Standardmäßig wird die vordefinierte Liste _english_ verwendet, die gängige englische Stoppwörter enthält. Die Details von _english_ finden Sie hier.

Der Filter stop arbeitet mit den vom Tokenizer erzeugten Begriffen und muss daher in Kombination mit einem Tokenizer verwendet werden.

Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.

Beispiel-Ausgabe

Hier ist ein Beispiel dafür, wie der stop Filter Text verarbeitet.

Ursprünglicher Text.

"The stop filter allows control over common stop words for text processing."

Erwartete Ausgabe (mit stop_words: ["the", "over", "_english_"]).

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

Übersetzt vonDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?