Stemmer
Filter stemmer
mengurangi kata menjadi bentuk dasar atau akarnya (dikenal sebagai stemming), sehingga lebih mudah mencocokkan kata dengan arti yang sama di berbagai infleksi. Filter stemmer
mendukung berbagai bahasa, memungkinkan pencarian dan pengindeksan yang efektif dalam berbagai konteks bahasa.
Konfigurasi
Filter stemmer
adalah filter khusus di Milvus. Untuk menggunakannya, tentukan "type": "stemmer"
dalam konfigurasi filter, bersama dengan parameter language
untuk memilih bahasa yang diinginkan untuk stemming.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
Filter stemmer
menerima parameter yang dapat dikonfigurasi berikut ini.
Parameter | Deskripsi |
---|---|
| Menentukan bahasa untuk proses stemming. Bahasa yang didukung meliputi: |
Filter stemmer
beroperasi pada istilah yang dihasilkan oleh tokenizer, sehingga harus digunakan dalam kombinasi dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring stemmer
memproses teks.
Teks asli.
"running runs looked ran runner"
Keluaran yang diharapkan (dengan language: "english"
).
["run", "run", "look", "ran", "runner"]