milvus-logo
LFAI
Home
  • Benutzerhandbuch

Cncharonly

Der Filter cncharonly entfernt Token, die nicht-chinesische Zeichen enthalten. Dieser Filter ist nützlich, wenn Sie sich ausschließlich auf chinesischen Text konzentrieren und alle Token herausfiltern möchten, die andere Schriftzeichen, Zahlen oder Symbole enthalten.

Konfiguration

Der Filter cncharonly ist in Milvus integriert. Um ihn zu verwenden, geben Sie einfach seinen Namen im Abschnitt filter unter analyzer_params an.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cncharonly"],
}

Der Filter cncharonly arbeitet mit den Begriffen, die vom Tokenizer erzeugt wurden, und muss daher in Kombination mit einem Tokenizer verwendet werden.

Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.

Beispiel-Ausgabe

Hier ist ein Beispiel dafür, wie der cncharonly Filter Text verarbeitet.

Ursprünglicher Text.

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

Erwartete Ausgabe.

["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]

Übersetzt vonDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?