Cncharonly
Der Filter cncharonly entfernt Token, die nicht-chinesische Zeichen enthalten. Dieser Filter ist nützlich, wenn Sie sich ausschließlich auf chinesischen Text konzentrieren und alle Token herausfiltern möchten, die andere Schriftzeichen, Zahlen oder Symbole enthalten.
Konfiguration
Der Filter cncharonly ist in Milvus integriert. Um ihn zu verwenden, geben Sie einfach seinen Namen im Abschnitt filter unter analyzer_params an.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
const analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
};
analyzerParams = map[string]any{"tokenizer": "standard", "filter": []any{"cncharonly"}}
# restful
analyzerParams='{
"tokenizer": "standard",
"filter": [
"cncharonly"
]
}'
Der cncharonly -Filter arbeitet mit den vom Tokenizer erzeugten Begriffen, so dass er in Kombination mit einem Tokenizer verwendet werden muss. Eine Liste der in Milvus verfügbaren Tokenizer finden Sie unter Standard Tokenizer und den zugehörigen Seiten.
Nachdem Sie analyzer_params definiert haben, können Sie sie auf ein VARCHAR Feld anwenden, wenn Sie ein Sammelschema definieren. Dies ermöglicht es Milvus, den Text in diesem Feld mit dem angegebenen Analysator für eine effiziente Tokenisierung und Filterung zu verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiele
Bevor Sie die Analyzer-Konfiguration auf Ihr Sammelschema anwenden, überprüfen Sie das Verhalten mit der Methode run_analyzer.
Analyzer-Konfiguration
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
// javascript
analyzerParams = map[string]any{"tokenizer": "standard", "filter": []any{"cncharonly"}}
# restful
Überprüfung mit run_analyzerCompatible with Milvus 2.5.11+
# Sample text to analyze
sample_text = "Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
# Run the standard analyzer with the defined configuration
result = MilvusClient.run_analyzer(sample_text, analyzer_params)
print(result)
// java
// javascript
// go
# restful
Erwartete Ausgabe
['是', '下的一个开源项目', '以', '许可发布']