Englisch
Der english
Analyzer in Milvus ist für die Verarbeitung von englischem Text konzipiert und wendet sprachspezifische Regeln zur Tokenisierung und Filterung an.
Definition
Der english
Analyzer verwendet die folgenden Komponenten.
Tokenisierer: Verwendet die
standard tokenizer
um Text in diskrete Worteinheiten zu zerlegen.Filter: Enthält mehrere Filter für eine umfassende Textverarbeitung.
lowercase
: Konvertiert alle Token in Kleinbuchstaben und ermöglicht so eine Suche ohne Berücksichtigung der Groß-/Kleinschreibung.stemmer
: Reduziert Wörter auf ihren Wortstamm, um einen breiteren Abgleich zu ermöglichen (z. B. wird "laufen" zu "run").stop_words
: Entfernt gängige englische Stoppwörter, um sich auf die Schlüsselbegriffe im Text zu konzentrieren.
Die Funktionalität des english
Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Konfiguration
Um den english
Analyzer auf ein Feld anzuwenden, setzen Sie einfach type
auf english
in analyzer_params
, und fügen Sie bei Bedarf optionale Parameter hinzu.
analyzer_params = {
"type": "english",
}
Der Analyzer english
akzeptiert die folgenden optionalen Parameter:
Parameter | Beschreibung |
---|---|
| Ein Array mit einer Liste von Stoppwörtern, die aus der Tokenisierung entfernt werden. Der Standardwert ist |
Beispielkonfiguration mit benutzerdefinierten Stoppwörtern.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Nachdem Sie analyzer_params
definiert haben, können Sie diese bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielverwendung.
Beispielhafte Ausgabe
Hier sehen Sie, wie der english
Analyzer Text verarbeitet.
Ursprünglicher Text.
"The Milvus vector database is built for scale!"
Erwartete Ausgabe.
["milvus", "vector", "databas", "built", "scale"]