Jieba
jieba
トークナイザーは、中国語テキストを単語に分解して処理します。
構成
jieba
トークン化器を使用して解析器を構成するには、analyzer_params
でtokenizer
をjieba
に設定します。
analyzer_params = {
"tokenizer": "jieba",
}
analyzer_params
を定義した後、コレクションスキーマを定義するときに、VARCHAR
フィールドに適用できます。これにより、Milvusは指定された解析器を使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
jieba
トークン化器がテキストをどのように処理するかの例を示します。
元のテキスト。
"Milvus 是一个高性能、可扩展的向量数据库!"
期待される出力
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]