milvus-logo
LFAI
Home
  • Benutzerhandbuch

Standard

Der standard Analyzer ist der Standard-Analyzer in Milvus, der automatisch auf Textfelder angewendet wird, wenn kein Analyzer angegeben ist. Er verwendet eine grammatikbasierte Tokenisierung und ist daher für die meisten Sprachen geeignet.

Definition

Der standard Analyzer besteht aus.

  • Tokenisierer: Verwendet den standard Tokenizer, um Text auf der Grundlage von Grammatikregeln in diskrete Worteinheiten aufzuteilen. Weitere Informationen finden Sie unter Standard.

  • Filter: Verwendet den lowercase Filter, um alle Token in Kleinbuchstaben umzuwandeln und so eine Suche ohne Berücksichtigung der Groß-/Kleinschreibung zu ermöglichen. Weitere Informationen finden Sie unterlowercase filter.

Die Funktionalität des standard Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Konfiguration

Um den standard Analyzer auf ein Feld anzuwenden, setzen Sie einfach type auf standard in analyzer_params, und fügen Sie bei Bedarf optionale Parameter hinzu.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

Der Analyzer standard akzeptiert die folgenden optionalen Parameter:

Parameter

Beschreibung

stop_words

Ein Array mit einer Liste von Stoppwörtern, die aus der Tokenisierung entfernt werden. Der Standardwert ist _english_, ein eingebauter Satz von gebräuchlichen englischen Stoppwörtern. Die Details von _english_ können hier gefunden werden.

Beispielkonfiguration von benutzerdefinierten Stoppwörtern.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Weitere Informationen finden Sie unter Beispielverwendung.

Beispielhafte Ausgabe

Hier sehen Sie, wie der standard Analyzer Text verarbeitet.

Ursprünglicher Text.

"The Milvus vector database is built for scale!"

Erwartete Ausgabe.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Übersetzt vonDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?