Cncharonly
cncharonly
過濾器會移除包含任何非中文字元的標記。當您只想專注於中文文字,濾除任何包含其他文字、數字或符號的標記時,此過濾器非常有用。
設定
cncharonly
過濾器內建於 Milvus。要使用它,只需在analyzer_params
中的filter
部分指定其名稱。
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
cncharonly
過濾器會對由 tokenizer 產生的詞彙進行操作,因此它必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是cncharonly
過濾器處理文字的範例。
原始文字。
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
預期輸出。
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]