milvus-logo
LFAI
Home
  • Benutzerhandbuch

Standard

Der standard Tokenizer in Milvus trennt Text auf der Basis von Leerzeichen und Satzzeichen und ist damit für die meisten Sprachen geeignet.

Konfiguration

Um einen Analyzer zu konfigurieren, der den standard Tokenizer verwendet, setzen Sie tokenizer auf standard in analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

Der standard Tokenizer kann in Verbindung mit einem oder mehreren Filtern arbeiten. Der folgende Code definiert zum Beispiel einen Analyzer, der den standard Tokenizer und den lowercase Filter verwendet.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Für eine einfachere Einrichtung können Sie den Filter standard analyzerverwenden, der den standard tokenizer mit dem lowercase filter.

Nachdem Sie analyzer_params definiert haben, können Sie diese auf ein VARCHAR Feld anwenden, wenn Sie ein Sammelschema definieren. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.

Beispiel-Ausgabe

Hier ist ein Beispiel dafür, wie der standard Tokenizer Text verarbeitet.

Ursprünglicher Text.

"The Milvus vector database is built for scale!"

Erwartete Ausgabe.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Übersetzt vonDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?