Länge
Der Filter length
entfernt Token, die nicht den festgelegten Längenanforderungen entsprechen, so dass Sie die Länge der Token, die bei der Textverarbeitung beibehalten werden, steuern können.
Konfiguration
Der Filter length
ist ein benutzerdefinierter Filter in Milvus, der durch die Einstellung "type": "length"
in der Filterkonfiguration festgelegt wird. Sie können ihn als Wörterbuch innerhalb von analyzer_params
konfigurieren, um Längengrenzen zu definieren.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
Der length
Filter akzeptiert die folgenden konfigurierbaren Parameter.
Parameter | Beschreibung |
---|---|
| Legt die maximale Tokenlänge fest. Token, die länger als diese Länge sind, werden entfernt. |
Der Filter length
arbeitet mit den vom Tokenizer erzeugten Begriffen und muss daher in Kombination mit einem Tokenizer verwendet werden.
Nachdem Sie analyzer_params
definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der length
Filter Text verarbeitet.
Beispieltext.
"The length filter allows control over token length requirements for text processing."
Erwartete Ausgabe (mit max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]