🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna

Spasi

Tokenizer whitespace membagi teks menjadi beberapa istilah setiap kali ada spasi di antara kata-kata.

Konfigurasi

Untuk mengonfigurasi penganalisis menggunakan tokenizer whitespace, setel tokenizer ke whitespace di analyzer_params.

analyzer_params = {
    "tokenizer": "whitespace",
}

Tokenizer spasi dapat bekerja bersama dengan satu atau beberapa filter. Sebagai contoh, kode berikut ini mendefinisikan penganalisis yang menggunakan tokenizer whitespace dan lowercase filter:

analyzer_params = {
    "tokenizer": "whitespace",
    "filter": ["lowercase"]
}

Setelah mendefinisikan analyzer_params, Anda dapat menerapkannya ke bidang VARCHAR ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.

Contoh keluaran

Berikut adalah contoh bagaimana tokenizer whitespace memproses teks.

Teks asli.

"The Milvus vector database is built for scale!"

Keluaran yang diharapkan.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?