Nur alphanumerische Begriffe
Der Filter alphanumonly
entfernt Token, die Nicht-ASCII-Zeichen enthalten, und behält nur alphanumerische Begriffe bei. Dieser Filter ist nützlich für die Verarbeitung von Text, bei dem nur einfache Buchstaben und Zahlen relevant sind und keine Sonderzeichen oder Symbole enthalten sind.
Konfiguration
Der Filter alphanumonly
ist in Milvus integriert. Um ihn zu verwenden, geben Sie einfach seinen Namen im Abschnitt filter
unter analyzer_params
an.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
Der Filter alphanumonly
arbeitet mit den vom Tokenizer erzeugten Begriffen, muss also in Kombination mit einem Tokenizer verwendet werden.
Nachdem Sie analyzer_params
definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der alphanumonly
Filter Text verarbeitet.
Ursprünglicher Text.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Erwartete Ausgabe.
["Milvus", "2", "0", "Scale", "AI", "Vector"]