Cnalphanumonly
Der Filter cnalphanumonly
entfernt Token, die andere Zeichen als chinesische Zeichen, englische Buchstaben oder Ziffern enthalten.
Konfiguration
Der cnalphanumonly
Filter ist in Milvus eingebaut. Um ihn zu verwenden, geben Sie einfach seinen Namen im Abschnitt filter
unter analyzer_params
an.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
Der Filter cnalphanumonly
arbeitet mit den vom Tokenizer erzeugten Begriffen, muss also in Kombination mit einem Tokenizer verwendet werden.
Nachdem Sie analyzer_params
definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR
Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiel-Ausgabe
Hier ist ein Beispiel dafür, wie der cnalphanumonly
Filter Text verarbeitet.
Ursprünglicher Text.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Erwartete Ausgabe.
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]