Cnalphanumonly
cnalphanumonly
過濾器會移除包含任何非中文字元、英文字母或數字以外的字元。
設定
cnalphanumonly
過濾器內建於 Milvus。要使用它,只需在analyzer_params
中的filter
部分指定其名稱。
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
cnalphanumonly
過濾器是在 tokenizer 產生的詞彙上運作,所以它必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是cnalphanumonly
過濾器如何處理文字的範例。
原始文字。
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
預期輸出。
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]