milvus-logo
LFAI
首页
  • 用户指南

中文

chinese 分析器专为处理中文文本而设计,可提供有效的分段和标记化功能。

定义

chinese 分析器包括

  • 标记化器:使用jieba 标记化器,根据词汇和上下文将中文文本分割成标记。更多信息,请参阅Jieba

  • 过滤器:使用cnalphanumonly 过滤器删除包含任何非汉字的标记。更多信息,请参阅Cnalphanumonly

chinese 分析器的功能等同于以下自定义分析器配置。

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

配置

要将chinese 分析器应用到一个字段,只需在analyzer_params 中将type 设置为chinese 即可。

analyzer_params = {
    "type": "chinese",
}

chinese 分析器不接受任何可选参数。

输出示例

下面是chinese 分析器处理文本的过程。

原始文本

"Milvus 是一个高性能、可扩展的向量数据库!"

预期输出

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

翻译自DeepL

目录

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?