Standard
Der standard
Analyzer ist der Standard-Analyzer in Milvus, der automatisch auf Textfelder angewendet wird, wenn kein Analyzer angegeben ist. Er verwendet eine grammatikbasierte Tokenisierung und ist daher für die meisten Sprachen geeignet.
Definition
Der standard
Analyzer besteht aus.
Tokenisierer: Verwendet den
standard
Tokenizer, um Text auf der Grundlage von Grammatikregeln in diskrete Worteinheiten aufzuteilen. Weitere Informationen finden Sie unter Standard.Filter: Verwendet den
lowercase
Filter, um alle Token in Kleinbuchstaben umzuwandeln und so eine Suche ohne Berücksichtigung der Groß-/Kleinschreibung zu ermöglichen. Weitere Informationen finden Sie unterlowercase filter
.
Die Funktionalität des standard
Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Konfiguration
Um den standard
Analyzer auf ein Feld anzuwenden, setzen Sie einfach type
auf standard
in analyzer_params
, und fügen Sie bei Bedarf optionale Parameter hinzu.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
Der Analyzer standard
akzeptiert die folgenden optionalen Parameter:
Parameter | Beschreibung |
---|---|
| Ein Array mit einer Liste von Stoppwörtern, die aus der Tokenisierung entfernt werden. Der Standardwert ist |
Beispielkonfiguration von benutzerdefinierten Stoppwörtern.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Nachdem Sie analyzer_params
definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Weitere Informationen finden Sie unter Beispielverwendung.
Beispielhafte Ausgabe
Hier sehen Sie, wie der standard
Analyzer Text verarbeitet.
Ursprünglicher Text.
"The Milvus vector database is built for scale!"
Erwartete Ausgabe.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]