Pengurai
Filter decompounder
membagi kata majemuk menjadi beberapa komponen berdasarkan kamus yang ditentukan, sehingga lebih mudah untuk mencari bagian dari istilah majemuk. Filter ini sangat berguna untuk bahasa yang sering menggunakan kata majemuk, seperti bahasa Jerman.
Konfigurasi
Filter decompounder
adalah filter khusus di Milvus. Untuk menggunakannya, tentukan "type": "decompounder"
dalam konfigurasi filter, bersama dengan parameter word_list
yang menyediakan kamus komponen kata yang akan dikenali.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
Filter decompounder
menerima parameter yang dapat dikonfigurasi berikut ini.
Parameter | Deskripsi |
---|---|
| Daftar komponen kata yang digunakan untuk memisahkan istilah majemuk. Kamus ini menentukan bagaimana kata majemuk diuraikan menjadi istilah individual. |
Filter decompounder
beroperasi pada istilah yang dihasilkan oleh tokenizer, sehingga harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring decompounder
memproses teks.
Teks asli.
"dampfschifffahrt brotbackautomat"
Keluaran yang diharapkan (dengan word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]