🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna
  • Home
  • Docs
  • Panduan Pengguna

  • Bidang Skema & Data

  • Penganalisis

  • Alat Analisis Internal

  • Standar

Standar

Penganalisis standard adalah penganalisis default di Milvus, yang secara otomatis diterapkan pada bidang teks jika tidak ada penganalisis yang ditentukan. Penganalisis ini menggunakan tokenisasi berbasis tata bahasa, sehingga efektif untuk sebagian besar bahasa.

Definisi

Penganalisis standard terdiri dari.

  • Tokenizer: Menggunakan tokenizer standard untuk membagi teks menjadi unit kata terpisah berdasarkan aturan tata bahasa. Untuk informasi lebih lanjut, lihat Standar.

  • Filter: Menggunakan filter lowercase untuk mengubah semua token menjadi huruf kecil, sehingga memungkinkan pencarian yang tidak peka huruf besar/kecil. Untuk informasi lebih lanjut, lihatlowercase filter.

Fungsionalitas penganalisis standard setara dengan konfigurasi penganalisis khusus berikut ini.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Konfigurasi

Untuk menerapkan penganalisis standard ke suatu bidang, cukup setel type ke standard di analyzer_params, dan sertakan parameter opsional sesuai kebutuhan.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

Penganalisis standard menerima parameter opsional berikut ini:

Parameter

Deskripsi

stop_words

Larik yang berisi daftar kata henti, yang akan dihapus dari tokenisasi. Setelan default ke _english_, kumpulan kata henti bahasa Inggris yang umum. Rincian _english_ dapat ditemukan di sini.

Contoh konfigurasi kata henti khusus.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

Setelah mendefinisikan analyzer_params, Anda dapat menerapkannya ke bidang VARCHAR ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk informasi lebih lanjut, lihat Contoh penggunaan.

Contoh keluaran

Berikut adalah bagaimana penganalisis standard memproses teks.

Teks asli.

"The Milvus vector database is built for scale!"

Keluaran yang diharapkan.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?