Cnalphanumonly
Filter cnalphanumonly
menghapus token yang berisi karakter apa pun selain karakter Cina, huruf Inggris, atau angka.
Konfigurasi
Filter cnalphanumonly
sudah ada di dalam Milvus. Untuk menggunakannya, cukup tentukan namanya di bagian filter
di dalam analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
Filter cnalphanumonly
beroperasi berdasarkan ketentuan yang dihasilkan oleh tokenizer, sehingga harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring cnalphanumonly
memproses teks.
Teks asli.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Keluaran yang diharapkan.
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]