Berhenti
Filter stop
menghapus kata henti yang ditentukan dari teks yang diberi tanda, sehingga membantu menghilangkan kata-kata umum yang kurang bermakna. Anda dapat mengonfigurasi daftar kata henti menggunakan parameter stop_words
.
Konfigurasi
Filter length
adalah filter khusus di Milvus. Untuk menggunakannya, tentukan "type": "stop"
dalam konfigurasi filter, bersama dengan parameter stop_words
yang menyediakan daftar stop words.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
Filter stop
menerima parameter yang dapat dikonfigurasi berikut ini.
Parameter | Deskripsi |
---|---|
| Daftar kata yang akan dihapus dari tokenisasi. Secara default, daftar |
Filter stop
beroperasi pada istilah yang dihasilkan oleh tokenizer, sehingga harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring stop
memproses teks.
Teks asli.
"The stop filter allows control over common stop words for text processing."
Keluaran yang diharapkan (dengan stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]