🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna
  • Home
  • Docs
  • Panduan Pengguna

  • Bidang Skema & Data

  • Penganalisis

  • Alat Analisis Internal

  • Bahasa Inggris

Bahasa Inggris

Penganalisis english di Milvus dirancang untuk memproses teks bahasa Inggris, menerapkan aturan khusus bahasa untuk tokenisasi dan penyaringan.

Definisi

Penganalisis english menggunakan komponen-komponen berikut.

  • Tokenizer: Menggunakan standard tokenizer untuk membagi teks menjadi unit-unit kata yang terpisah.

  • Filter: Termasuk beberapa filter untuk pemrosesan teks yang komprehensif.

    • lowercase: Mengubah semua token menjadi huruf kecil, sehingga memungkinkan pencarian yang tidak peka huruf.

    • stemmer: Mengurangi kata menjadi bentuk dasar untuk mendukung pencocokan yang lebih luas (misalnya, "berlari" menjadi "menjalankan").

    • stop_words: Menghilangkan kata henti bahasa Inggris yang umum untuk fokus pada istilah-istilah kunci dalam teks.

Fungsionalitas dari english analyzer setara dengan konfigurasi penganalisis khusus berikut ini.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Konfigurasi

Untuk menerapkan penganalisis english ke suatu bidang, cukup setel type ke english di analyzer_params, dan sertakan parameter opsional sesuai kebutuhan.

analyzer_params = {
    "type": "english",
}

Penganalisis english menerima parameter opsional berikut ini:

Parameter

Deskripsi

stop_words

Larik yang berisi daftar kata henti, yang akan dihapus dari tokenisasi. Setelan default ke _english_, kumpulan kata henti bahasa Inggris yang umum.

Contoh konfigurasi dengan kata henti khusus.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Setelah mendefinisikan analyzer_params, Anda dapat menerapkannya ke bidang VARCHAR ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.

Contoh keluaran

Berikut adalah bagaimana penganalisis english memproses teks.

Teks asli.

"The Milvus vector database is built for scale!"

Keluaran yang diharapkan.

["milvus", "vector", "databas", "built", "scale"]
Daftar isi

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?