Cncharonly
cncharonly
过滤器会删除包含任何非中文字符的标记。当您只想关注中文文本,过滤掉任何包含其他脚本、数字或符号的标记时,该过滤器非常有用。
配置
cncharonly
过滤器内置在 Milvus 中。要使用它,只需在analyzer_params
中的filter
部分指定其名称即可。
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
cncharonly
过滤器对标记符号生成器生成的术语进行操作,因此必须与标记符号生成器结合使用。
定义analyzer_params
后,可以在定义 Collections Schema 时将它们应用到VARCHAR
字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是cncharonly
过滤器处理文本的示例。
原始文本。
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
预期输出。
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]