milvus-logo
LFAI
首页
  • 用户指南

Cnalphanumonly

cnalphanumonly 过滤器会删除包含除汉字、英文字母或数字以外的任何字符的标记。

配置

cnalphanumonly 过滤器内置于 Milvus 中。要使用它,只需在analyzer_params 中的filter 部分指定其名称即可。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cnalphanumonly"],
}

cnalphanumonly 过滤器对标记符生成的术语进行操作,因此必须与标记符结合使用。

定义analyzer_params 后,可以在定义 Collections Schema 时将它们应用到VARCHAR 字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是cnalphanumonly 过滤器处理文本的示例。

原始文本

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

预期输出

["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]

翻译自DeepL

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?