Standar
Tokenizer standard
di Milvus membagi teks berdasarkan spasi dan tanda baca, sehingga cocok untuk sebagian besar bahasa.
Konfigurasi
Untuk mengonfigurasi penganalisis menggunakan tokenizer standard
, setel tokenizer
ke standard
di analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
Tokenizer standard
dapat bekerja bersama dengan satu atau beberapa filter. Sebagai contoh, kode berikut ini mendefinisikan penganalisis yang menggunakan tokenizer standard
dan filter lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Untuk pengaturan yang lebih sederhana, Anda dapat memilih untuk menggunakan filter standard analyzer
yang menggabungkan tokenizer standard
dengan filter lowercase filter
.
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana tokenizer standard
memproses teks.
Teks asli.
"The Milvus vector database is built for scale!"
Keluaran yang diharapkan.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]