Cnalphanumonly
يقوم عامل التصفية cnalphanumonly
بإزالة الرموز المميزة التي تحتوي على أي أحرف غير الأحرف الصينية أو الأحرف الإنجليزية أو الأرقام.
التكوين
عامل التصفية cnalphanumonly
مدمج في ميلفوس. لاستخدامه، ما عليك سوى تحديد اسمه في القسم filter
داخل analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
يعمل عامل التصفية cnalphanumonly
على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذلك يجب استخدامه مع أداة الترميز.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح ذلك لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة عامل التصفية cnalphanumonly
للنص.
النص الأصلي.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
الإخراج المتوقع.
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]