Bahasa Inggris
Penganalisis english
di Milvus dirancang untuk memproses teks bahasa Inggris, menerapkan aturan khusus bahasa untuk tokenisasi dan penyaringan.
Definisi
Penganalisis english
menggunakan komponen-komponen berikut.
Tokenizer: Menggunakan
standard tokenizer
untuk membagi teks menjadi unit-unit kata yang terpisah.Filter: Termasuk beberapa filter untuk pemrosesan teks yang komprehensif.
lowercase
: Mengubah semua token menjadi huruf kecil, sehingga memungkinkan pencarian yang tidak peka huruf.stemmer
: Mengurangi kata menjadi bentuk dasar untuk mendukung pencocokan yang lebih luas (misalnya, "berlari" menjadi "menjalankan").stop_words
: Menghilangkan kata henti bahasa Inggris yang umum untuk fokus pada istilah-istilah kunci dalam teks.
Fungsionalitas dari english
analyzer setara dengan konfigurasi penganalisis khusus berikut ini.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Konfigurasi
Untuk menerapkan penganalisis english
ke suatu bidang, cukup setel type
ke english
di analyzer_params
, dan sertakan parameter opsional sesuai kebutuhan.
analyzer_params = {
"type": "english",
}
Penganalisis english
menerima parameter opsional berikut ini:
Parameter | Deskripsi |
---|---|
| Larik yang berisi daftar kata henti, yang akan dihapus dari tokenisasi. Setelan default ke |
Contoh konfigurasi dengan kata henti khusus.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah bagaimana penganalisis english
memproses teks.
Teks asli.
"The Milvus vector database is built for scale!"
Keluaran yang diharapkan.
["milvus", "vector", "databas", "built", "scale"]