الطول
يقوم عامل التصفية length
بإزالة الرموز التي لا تفي بمتطلبات الطول المحددة، مما يسمح لك بالتحكم في طول الرموز التي يتم الاحتفاظ بها أثناء معالجة النص.
التكوين
عامل التصفية length
هو عامل تصفية مخصص في ميلفوس، يتم تحديده من خلال الإعداد "type": "length"
في تكوين عامل التصفية. يمكنك تكوينه كقاموس داخل analyzer_params
لتحديد حدود الطول.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
يقبل عامل التصفية length
المعلمات التالية القابلة للتكوين.
المعلمة | الوصف |
---|---|
| يضبط الحد الأقصى لطول الرمز المميز. تتم إزالة الرموز الأطول من هذا الطول. |
يعمل عامل التصفية length
على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذلك يجب استخدامها مع أداة الترميز.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح ذلك لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة عامل التصفية length
للنص.
مثال علىالنص.
"The length filter allows control over token length requirements for text processing."
الإخراج المتوقع (مع max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]