ASCII-Faltung
Der asciifolding
** **Filter wandelt Zeichen außerhalb des Basic Latin Unicode-Blocks (die ersten 127 ASCII-Zeichen) in ihre ASCII-Entsprechung um. Er wandelt zum Beispiel Zeichen wie í
in i
um, wodurch die Textverarbeitung einfacher und konsistenter wird, insbesondere bei mehrsprachigen Inhalten.
Konfiguration
Der Filter asciifolding
ist in Milvus integriert. Um ihn zu verwenden, geben Sie einfach seinen Namen im Abschnitt filter
unter analyzer_params
an.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
Der Filter asciifolding
arbeitet mit den vom Tokenizer erzeugten Begriffen, muss also in Kombination mit einem Tokenizer verwendet werden.
Nachdem Sie analyzer_params
definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der asciifolding
Filter Text verarbeitet.
Ursprünglicher Text.
"Café Möller serves crème brûlée and piñatas."
Erwartete Ausgabe.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]