Jieba
O tokenizador jieba
processa o texto chinês dividindo-o nas palavras que o compõem.
Configuração
Para configurar um analisador utilizando o tokenizador jieba
, defina tokenizer
para jieba
em analyzer_params
.
analyzer_params = {
"tokenizer": "jieba",
}
Depois de definir analyzer_params
, pode aplicá-los a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais pormenores, consulte Exemplo de utilização.
Exemplo de saída
Aqui está um exemplo de como o tokenizador jieba
processa o texto.
Texto original.
"Milvus 是一个高性能、可扩展的向量数据库!"
Saída esperada.
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]