词霸
jieba
标记符号转换器可将中文文本分解为单词。
配置
要配置使用jieba
标记符号转换器的分析器,请在analyzer_params
中将tokenizer
设置为jieba
。
analyzer_params = {
"tokenizer": "jieba",
}
定义analyzer_params
后,可以在定义 Collections Schema 时将它们应用到VARCHAR
字段。这样,Milvus 就能使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是jieba
标记化器处理文本的示例。
原始文本。
"Milvus 是一个高性能、可扩展的向量数据库!"
预期输出。
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]