اللغة الإنجليزية
تم تصميم محلل english
في ميلفوس لمعالجة النص الإنجليزي، وتطبيق قواعد خاصة باللغة لترميز وتصفية الرموز.
التعريف
يستخدم محلل english
المكونات التالية.
أداة الترميز: يستخدم
standard tokenizer
لتقسيم النص إلى وحدات كلمات منفصلة.المرشحات: يتضمن مرشحات متعددة لمعالجة النص بشكل شامل.
lowercase
: يحول جميع الرموز إلى أحرف صغيرة، مما يتيح عمليات بحث غير حساسة لحالة الأحرف.stemmer
: يقلل الكلمات إلى صيغتها الجذرية لدعم مطابقة أوسع (على سبيل المثال، "تشغيل" تصبح "تشغيل").stop_words
: يزيل كلمات التوقف الإنجليزية الشائعة للتركيز على المصطلحات الرئيسية في النص.
وظيفة محلل english
مكافئة لتكوين المحلل المخصص التالي.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
التكوين
لتطبيق محلل english
على أحد الحقول، ما عليك سوى تعيين type
إلى english
في analyzer_params
، وتضمين معلمات اختيارية حسب الحاجة.
analyzer_params = {
"type": "english",
}
يقبل محلل english
المعلمات الاختيارية التالية:
المعلمة | الوصف |
---|---|
| مصفوفة تحتوي على قائمة بكلمات التوقف، والتي ستتم إزالتها من الترميز. الإعداد الافتراضي هو |
مثال على التكوين مع كلمات الإيقاف المخصصة.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط مجموعة. يسمح ذلك لـ Milvus بمعالجة النص في هذا الحقل باستخدام المحلل المحدد من أجل ترميز وتصفية فعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي كيفية معالجة محلل english
للنص.
النص الأصلي.
"The Milvus vector database is built for scale!"
الناتج المتوقع.
["milvus", "vector", "databas", "built", "scale"]