المسافات البيضاء
يقوم أداة الترميز whitespace
بتقسيم النص إلى مصطلحات كلما كانت هناك مسافة بين الكلمات.
التكوين
لتكوين محلل باستخدام أداة ترميز whitespace
، قم بتعيين tokenizer
إلى whitespace
في analyzer_params
.
analyzer_params = {
"tokenizer": "whitespace",
}
يمكن لأداة ترميز المسافات البيضاء أن تعمل بالاقتران مع واحد أو أكثر من عوامل التصفية. على سبيل المثال، يُعرّف الرمز التالي محللاً يستخدم أداة الترميز whitespace
و lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
بعد تعريف analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تعريف مخطط المجموعة. يسمح هذا لميلفوس بمعالجة النص في هذا الحقل باستخدام المحلل المحدد من أجل الترميز والتصفية الفعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة أداة الترميز whitespace
للنص.
النص الأصلي.
"The Milvus vector database is built for scale!"
الإخراج المتوقع.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]