🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna
  • Home
  • Docs
  • Panduan Pengguna

  • Bidang Skema & Data

  • Penganalisis

  • Tokenizers

  • Standar

Standar

Tokenizer standard di Milvus membagi teks berdasarkan spasi dan tanda baca, sehingga cocok untuk sebagian besar bahasa.

Konfigurasi

Untuk mengonfigurasi penganalisis menggunakan tokenizer standard, setel tokenizer ke standard di analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
}

Tokenizer standard dapat bekerja bersama dengan satu atau beberapa filter. Sebagai contoh, kode berikut ini mendefinisikan penganalisis yang menggunakan tokenizer standard dan filter lowercase.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Untuk pengaturan yang lebih sederhana, Anda dapat memilih untuk menggunakan filter standard analyzeryang menggabungkan tokenizer standard dengan filter lowercase filter.

Setelah mendefinisikan analyzer_params, Anda dapat menerapkannya ke bidang VARCHAR ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.

Contoh keluaran

Berikut adalah contoh bagaimana tokenizer standard memproses teks.

Teks asli.

"The Milvus vector database is built for scale!"

Keluaran yang diharapkan.

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?