Spasi
Tokenizer whitespace
membagi teks menjadi beberapa istilah setiap kali ada spasi di antara kata-kata.
Konfigurasi
Untuk mengonfigurasi penganalisis menggunakan tokenizer whitespace
, setel tokenizer
ke whitespace
di analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
Tokenizer spasi dapat bekerja bersama dengan satu atau beberapa filter. Sebagai contoh, kode berikut ini mendefinisikan penganalisis yang menggunakan tokenizer whitespace
dan lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Setelah mendefinisikan analyzer_params
, Anda dapat menerapkannya ke bidang VARCHAR
ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.
Contoh keluaran
Berikut adalah contoh bagaimana tokenizer whitespace
memproses teks.
Teks asli.
"The Milvus vector database is built for scale!"
Keluaran yang diharapkan.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]