Hanya alfanumerik
Filter alphanumonly
menghapus token yang berisi karakter non-ASCII, dan hanya menyimpan istilah alfanumerik. Filter ini berguna untuk memproses teks yang hanya terdiri dari huruf dan angka dasar, tidak termasuk karakter atau simbol khusus.
Konfigurasi
Filter alphanumonly
sudah ada di dalam Milvus. Untuk menggunakannya, cukup tentukan namanya di bagian filter
di dalam analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
Filter alphanumonly
beroperasi berdasarkan ketentuan yang dibuat oleh tokenizer, jadi filter ini harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring alphanumonly
memproses teks.
Teks asli.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Keluaran yang diharapkan.
["Milvus", "2", "0", "Scale", "AI", "Vector"]