قياسي
محلل standard
هو المحلل الافتراضي في ميلفوس، والذي يتم تطبيقه تلقائيًا على حقول النص إذا لم يتم تحديد محلل. وهو يستخدم الترميز القائم على القواعد النحوية، مما يجعله فعالاً لمعظم اللغات.
التعريف
يتكون محلل standard
من.
أداة الترميز: يستخدم أداة الترميز
standard
لتقسيم النص إلى وحدات كلمات منفصلة بناءً على قواعد النحو. لمزيد من المعلومات، راجع المعيار.عامل التصفية: يستخدم عامل التصفية
lowercase
لتحويل جميع الرموز إلى أحرف صغيرة، مما يتيح عمليات بحث غير حساسة لحالة الأحرف. لمزيد من المعلومات، راجعlowercase filter
.
تكافئ وظيفة محلل standard
تكوين المحلل المخصص التالي.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
التكوين
لتطبيق محلل standard
على أحد الحقول، ما عليك سوى تعيين type
إلى standard
في analyzer_params
، وتضمين معلمات اختيارية حسب الحاجة.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
يقبل محلل standard
المعلمات الاختيارية التالية:
المعلمة | الوصف |
---|---|
| مصفوفة تحتوي على قائمة بكلمات التوقف، والتي ستتم إزالتها من الترميز. افتراضي إلى |
مثال على تكوين كلمات التوقف المخصصة.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح هذا لميلفوس بمعالجة النص في هذا الحقل باستخدام المحلل المحدد من أجل ترميز وتصفية فعالة. لمزيد من المعلومات، راجع مثال الاستخدام.
مثال على الإخراج
إليك كيفية معالجة محلل standard
للنص.
النص الأصلي.
"The Milvus vector database is built for scale!"
الناتج المتوقع.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]