🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Panduan Pengguna
  • Home
  • Docs
  • Panduan Pengguna

  • Bidang Skema & Data

  • Penganalisis

  • Filter

  • Cncharonly

Cncharonly

Filter cncharonly menghapus token yang mengandung karakter non-Cina. Filter ini berguna ketika Anda hanya ingin fokus pada teks bahasa Mandarin, menyaring token apa pun yang mengandung aksara, angka, atau simbol lain.

Konfigurasi

Filter cncharonly sudah ada di dalam Milvus. Untuk menggunakannya, cukup tentukan namanya di bagian filter di dalam analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cncharonly"],
}

Filter cncharonly beroperasi berdasarkan ketentuan yang dibuat oleh tokenizer, jadi filter ini harus digunakan bersama dengan tokenizer.

Setelah mendefinisikan analyzer_params, Anda dapat menerapkannya ke bidang VARCHAR ketika mendefinisikan skema koleksi. Hal ini memungkinkan Milvus untuk memproses teks dalam bidang tersebut menggunakan penganalisis yang ditentukan untuk tokenisasi dan pemfilteran yang efisien. Untuk detailnya, lihat Contoh penggunaan.

Contoh keluaran

Berikut adalah contoh bagaimana penyaring cncharonly memproses teks.

Teks asli.

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

Keluaran yang diharapkan.

["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?