Cncharonly
Filter cncharonly
menghapus token yang mengandung karakter non-Cina. Filter ini berguna ketika Anda hanya ingin fokus pada teks bahasa Mandarin, menyaring token apa pun yang mengandung aksara, angka, atau simbol lain.
Konfigurasi
Filter cncharonly
sudah ada di dalam Milvus. Untuk menggunakannya, cukup tentukan namanya di bagian filter
di dalam analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Filter cncharonly
beroperasi berdasarkan ketentuan yang dibuat oleh tokenizer, jadi filter ini harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring cncharonly
memproses teks.
Teks asli.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Keluaran yang diharapkan.
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]