كنشارونلي
يزيل عامل التصفية cncharonly
الرموز التي تحتوي على أي رموز غير صينية. يكون هذا الفلتر مفيدًا عندما تريد التركيز فقط على النص الصيني، مع تصفية أي رموز تحتوي على نصوص أو أرقام أو رموز أخرى.
التكوين
عامل التصفية cncharonly
مدمج في ميلفوس. لاستخدامه، ما عليك سوى تحديد اسمه في القسم filter
داخل analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
يعمل عامل التصفية cncharonly
على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذلك يجب استخدامه مع أداة الترميز.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح ذلك لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة عامل التصفية cncharonly
للنص.
النص الأصلي.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
الإخراج المتوقع.
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]