Bahasa Mandarin
Penganalisis chinese
dirancang khusus untuk menangani teks bahasa Mandarin, menyediakan segmentasi dan tokenisasi yang efektif.
Definisi
Penganalisis chinese
terdiri dari.
Tokenizer: Menggunakan tokenizer
jieba
untuk menyegmentasikan teks bahasa Mandarin menjadi token berdasarkan kosakata dan konteks. Untuk informasi lebih lanjut, lihat Jieba.Filter: Menggunakan filter
cnalphanumonly
untuk menghapus token yang mengandung karakter non-Cina. Untuk informasi lebih lanjut, lihat Cnalphanumonly.
Fungsionalitas dari chinese
analyzer setara dengan konfigurasi custom analyzer berikut ini.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Konfigurasi
Untuk menerapkan penganalisis chinese
ke suatu bidang, cukup setel type
ke chinese
di analyzer_params
.
analyzer_params = {
"type": "chinese",
}
Penganalisis chinese
tidak menerima parameter opsional apa pun.
Contoh keluaran
Berikut adalah cara penganalisis chinese
memproses teks.
Teks asli.
"Milvus 是一个高性能、可扩展的向量数据库!"
Keluaran yang diharapkan.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]