中文
chinese
分析器专为处理中文文本而设计,可提供有效的分段和标记化功能。
定义
chinese
分析器包括
标记化器:使用
jieba
标记化器,根据词汇和上下文将中文文本分割成标记。更多信息,请参阅Jieba。过滤器:使用
cnalphanumonly
过滤器删除包含任何非汉字的标记。更多信息,请参阅Cnalphanumonly。
chinese
分析器的功能等同于以下自定义分析器配置。
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
配置
要将chinese
分析器应用到一个字段,只需在analyzer_params
中将type
设置为chinese
即可。
analyzer_params = {
"type": "chinese",
}
chinese
分析器不接受任何可选参数。
输出示例
下面是chinese
分析器处理文本的过程。
原始文本。
"Milvus 是一个高性能、可扩展的向量数据库!"
预期输出。
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]