Standar
Penganalisis standard
adalah penganalisis default di Milvus, yang secara otomatis diterapkan pada bidang teks jika tidak ada penganalisis yang ditentukan. Penganalisis ini menggunakan tokenisasi berbasis tata bahasa, sehingga efektif untuk sebagian besar bahasa.
Definisi
Penganalisis standard
terdiri dari.
Tokenizer: Menggunakan tokenizer
standard
untuk membagi teks menjadi unit kata terpisah berdasarkan aturan tata bahasa. Untuk informasi lebih lanjut, lihat Standar.Filter: Menggunakan filter
lowercase
untuk mengubah semua token menjadi huruf kecil, sehingga memungkinkan pencarian yang tidak peka huruf besar/kecil. Untuk informasi lebih lanjut, lihatlowercase filter
.
Fungsionalitas penganalisis standard
setara dengan konfigurasi penganalisis khusus berikut ini.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Konfigurasi
Untuk menerapkan penganalisis standard
ke suatu bidang, cukup setel type
ke standard
di analyzer_params
, dan sertakan parameter opsional sesuai kebutuhan.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
Penganalisis standard
menerima parameter opsional berikut ini:
Parameter | Deskripsi |
---|---|
| Larik yang berisi daftar kata henti, yang akan dihapus dari tokenisasi. Setelan default ke |
Contoh konfigurasi kata henti khusus.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk informasi lebih lanjut, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah bagaimana penganalisis standard
memproses teks.
Teks asli.
"The Milvus vector database is built for scale!"
Keluaran yang diharapkan.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]