Standard
Der standard
Tokenizer in Milvus trennt Text auf der Basis von Leerzeichen und Satzzeichen und ist damit für die meisten Sprachen geeignet.
Konfiguration
Um einen Analyzer zu konfigurieren, der den standard
Tokenizer verwendet, setzen Sie tokenizer
auf standard
in analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
Der standard
Tokenizer kann in Verbindung mit einem oder mehreren Filtern arbeiten. Der folgende Code definiert zum Beispiel einen Analyzer, der den standard
Tokenizer und den lowercase
Filter verwendet.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Für eine einfachere Einrichtung können Sie den Filter standard analyzer
verwenden, der den standard
tokenizer mit dem lowercase filter
.
Nachdem Sie analyzer_params
definiert haben, können Sie diese auf ein VARCHAR
Feld anwenden, wenn Sie ein Sammelschema definieren. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der standard
Tokenizer Text verarbeitet.
Ursprünglicher Text.
"The Milvus vector database is built for scale!"
Erwartete Ausgabe.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]