Pelipatan ASCII
Filter asciifolding
** ** mengubah karakter di luar blok Unicode Latin Dasar (127 karakter ASCII pertama) menjadi ekuivalen ASCII. Sebagai contoh, filter ini mengubah karakter seperti Ă
menjadi i
, membuat pemrosesan teks menjadi lebih sederhana dan lebih konsisten, terutama untuk konten multibahasa.
Konfigurasi
Filter asciifolding
sudah ada di dalam Milvus. Untuk menggunakannya, cukup tentukan namanya di bagian filter
di dalam analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
Filter asciifolding
beroperasi berdasarkan istilah yang dihasilkan oleh tokenizer, sehingga harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring asciifolding
memproses teks.
Teks asli.
"Café Möller serves crème brûlée and piñatas."
Keluaran yang diharapkan.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]