Panjang
Filter length
menghapus token yang tidak memenuhi persyaratan panjang yang ditentukan, sehingga Anda dapat mengontrol panjang token yang dipertahankan selama pemrosesan teks.
Konfigurasi
Filter length
adalah filter khusus di Milvus, yang ditentukan dengan mengatur "type": "length"
dalam konfigurasi filter. Anda dapat mengonfigurasinya sebagai kamus di dalam analyzer_params
untuk menentukan batas panjang.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
Filter length
menerima parameter yang dapat dikonfigurasi berikut ini.
Parameter | Deskripsi |
---|---|
| Menetapkan panjang token maksimum. Token yang lebih panjang dari panjang ini akan dihapus. |
Filter length
beroperasi pada ketentuan yang dihasilkan oleh tokenizer, sehingga harus digunakan bersama dengan tokenizer.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana penyaring length
memproses teks.
Contoh teks.
"The length filter allows control over token length requirements for text processing."
Keluaran yang diharapkan (dengan max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]