مفكك الكلمات المركبة
يقوم عامل التصفية decompounder
بتقسيم الكلمات المركبة إلى مكونات فردية بناءً على قاموس محدد، مما يسهل البحث عن أجزاء من المصطلحات المركبة. هذا الفلتر مفيد بشكل خاص للغات التي تستخدم كلمات مركبة بشكل متكرر، مثل الألمانية.
التكوين
عامل التصفية decompounder
هو عامل تصفية مخصص في ميلفوس. لاستخدامه، حدد "type": "decompounder"
في تكوين عامل التصفية، إلى جانب معلمة word_list
التي توفر قاموس مكونات الكلمات المراد التعرف عليها.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
يقبل عامل التصفية decompounder
المعلمات التالية القابلة للتكوين.
المعلمة | الوصف |
---|---|
| قائمة بمكونات الكلمات المستخدمة لتقسيم المصطلحات المركبة. يحدد هذا القاموس كيفية تحليل الكلمات المركبة إلى مصطلحات فردية. |
يعمل عامل التصفية decompounder
على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذا يجب استخدامه مع أداة الترميز.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح ذلك لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة عامل التصفية decompounder
للنص.
النص الأصلي.
"dampfschifffahrt brotbackautomat"
الإخراج المتوقع (مع word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]