milvus-logo
LFAI
Home
  • Benutzerhandbuch

Englisch

Der english Analyzer in Milvus ist für die Verarbeitung von englischem Text konzipiert und wendet sprachspezifische Regeln zur Tokenisierung und Filterung an.

Definition

Der english Analyzer verwendet die folgenden Komponenten.

  • Tokenisierer: Verwendet die standard tokenizer um Text in diskrete Worteinheiten zu zerlegen.

  • Filter: Enthält mehrere Filter für eine umfassende Textverarbeitung.

    • lowercase: Konvertiert alle Token in Kleinbuchstaben und ermöglicht so eine Suche ohne Berücksichtigung der Groß-/Kleinschreibung.

    • stemmer: Reduziert Wörter auf ihren Wortstamm, um einen breiteren Abgleich zu ermöglichen (z. B. wird "laufen" zu "run").

    • stop_words: Entfernt gängige englische Stoppwörter, um sich auf die Schlüsselbegriffe im Text zu konzentrieren.

Die Funktionalität des english Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Konfiguration

Um den english Analyzer auf ein Feld anzuwenden, setzen Sie einfach type auf english in analyzer_params, und fügen Sie bei Bedarf optionale Parameter hinzu.

analyzer_params = {
    "type": "english",
}

Der Analyzer english akzeptiert die folgenden optionalen Parameter:

Parameter

Beschreibung

stop_words

Ein Array mit einer Liste von Stoppwörtern, die aus der Tokenisierung entfernt werden. Der Standardwert ist _english_, ein eingebauter Satz allgemeiner englischer Stoppwörter.

Beispielkonfiguration mit benutzerdefinierten Stoppwörtern.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Nachdem Sie analyzer_params definiert haben, können Sie diese bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielverwendung.

Beispielhafte Ausgabe

Hier sehen Sie, wie der english Analyzer Text verarbeitet.

Ursprünglicher Text.

"The Milvus vector database is built for scale!"

Erwartete Ausgabe.

["milvus", "vector", "databas", "built", "scale"]

Übersetzt vonDeepLogo

Tabelle der Inhalte

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?