Jieba
Il tokenizer jieba
elabora il testo cinese scomponendolo nelle parole che lo compongono.
Configurazione
Per configurare un analizzatore che utilizza il tokenizer jieba
, impostare tokenizer
su jieba
in analyzer_params
.
analyzer_params = {
"tokenizer": "jieba",
}
Dopo aver definito analyzer_params
, è possibile applicarlo a un campo VARCHAR
quando si definisce uno schema di raccolta. Questo permette a Milvus di elaborare il testo di quel campo usando l'analizzatore specificato per una tokenizzazione e un filtraggio efficienti. Per i dettagli, vedere Esempio di utilizzo.
Esempio di output
Ecco un esempio di come il tokenizer jieba
elabora il testo.
Testo originale.
"Milvus 是一个高性能、可扩展的向量数据库!"
Risultato atteso.
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]