詞霸
jieba
tokenizer 可將中文文字拆解為字詞來處理。
配置
要配置使用jieba
tokenizer 的分析器,請在analyzer_params
中設定tokenizer
為jieba
。
analyzer_params = {
"tokenizer": "jieba",
}
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的符記化和過濾。詳情請參閱範例使用。
輸出範例
以下是jieba
標記化器如何處理文字的範例。
原始文字。
"Milvus 是一个高性能、可扩展的向量数据库!"
預期輸出。
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]