Leerzeichen
Der Tokenizer whitespace
unterteilt den Text in Begriffe, wenn ein Leerzeichen zwischen den Wörtern steht.
Konfiguration
Um einen Analyzer zu konfigurieren, der den whitespace
Tokenizer verwendet, setzen Sie tokenizer
auf whitespace
in analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
Der Whitespace-Tokenizer kann in Verbindung mit einem oder mehreren Filtern arbeiten. Der folgende Code definiert zum Beispiel einen Analyzer, der den whitespace
tokenizer verwendet und lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Nachdem Sie analyzer_params
definiert haben, können Sie diese auf ein VARCHAR
Feld anwenden, wenn Sie ein Auflistungsschema definieren. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analyzers für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der whitespace
Tokenizer Text verarbeitet.
Ursprünglicher Text.
"The Milvus vector database is built for scale!"
Erwartete Ausgabe.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]