🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna
  • Home
  • Docs
  • Panduan Pengguna

  • Bidang Skema & Data

  • Penganalisis

  • Alat Analisis Internal

  • Cina

Bahasa Mandarin

Penganalisis chinese dirancang khusus untuk menangani teks bahasa Mandarin, menyediakan segmentasi dan tokenisasi yang efektif.

Definisi

Penganalisis chinese terdiri dari.

  • Tokenizer: Menggunakan tokenizer jieba untuk menyegmentasikan teks bahasa Mandarin menjadi token berdasarkan kosakata dan konteks. Untuk informasi lebih lanjut, lihat Jieba.

  • Filter: Menggunakan filter cnalphanumonly untuk menghapus token yang mengandung karakter non-Cina. Untuk informasi lebih lanjut, lihat Cnalphanumonly.

Fungsionalitas dari chinese analyzer setara dengan konfigurasi custom analyzer berikut ini.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Konfigurasi

Untuk menerapkan penganalisis chinese ke suatu bidang, cukup setel type ke chinese di analyzer_params.

analyzer_params = {
    "type": "chinese",
}

Penganalisis chinese tidak menerima parameter opsional apa pun.

Contoh keluaran

Berikut adalah cara penganalisis chinese memproses teks.

Teks asli.

"Milvus 是一个高性能、可扩展的向量数据库!"

Keluaran yang diharapkan.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]
Daftar isi

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?