Jieba
Tokenizer jieba
memproses teks bahasa Mandarin dengan memecahnya menjadi beberapa komponen kata.
Konfigurasi
Untuk mengonfigurasi penganalisis menggunakan jieba
tokenizer, setel tokenizer
ke jieba
di analyzer_params
.
analyzer_params = {
"tokenizer": "jieba",
}
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
saat mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana tokenizer jieba
memproses teks.
Teks asli.
"Milvus 是一个高性能、可扩展的向量数据库!"
Keluaran yang diharapkan.
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]