التوقف
يقوم عامل التصفية stop
بإزالة كلمات الإيقاف المحددة من النص المرموز، مما يساعد على التخلص من الكلمات الشائعة الأقل معنى. يمكنك تكوين قائمة كلمات الإيقاف باستخدام المعلمة stop_words
.
التكوين
عامل التصفية length
هو عامل تصفية مخصص في ميلفوس. لاستخدامه، حدد "type": "stop"
في تكوين عامل التصفية، إلى جانب معلمة stop_words
التي توفر قائمة بكلمات التوقف.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
يقبل عامل التصفية stop
المعلمات التالية القابلة للتكوين.
المعلمة | الوصف |
---|---|
| قائمة بالكلمات المراد إزالتها من الترميز. بشكل افتراضي، يتم استخدام قائمة |
يعمل عامل التصفية stop
على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذلك يجب استخدامه مع أداة الترميز.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح ذلك لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة عامل التصفية stop
للنص.
النص الأصلي.
"The stop filter allows control over common stop words for text processing."
الإخراج المتوقع (مع stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]