قياسي
يقوم أداة ترميز standard
في Milvus بتقسيم النص بناءً على المسافات وعلامات الترقيم، مما يجعله مناسبًا لمعظم اللغات.
التكوين
لتكوين محلل باستخدام أداة الترميز standard
، قم بتعيين tokenizer
إلى standard
في analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
}
يمكن أن يعمل الرمز المميز standard
مع واحد أو أكثر من المرشحات. على سبيل المثال، يُعرّف الرمز التالي محللاً يستخدم أداة الترميز standard
ومرشح lowercase
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
من أجل إعداد أبسط، يمكنك اختيار استخدام standard analyzer
الذي يجمع بين أداة الترميز standard
مع أداة الترميز و lowercase filter
.
بعد تحديد analyzer_params
، يمكنك تطبيقها على حقل VARCHAR
عند تحديد مخطط المجموعة. يسمح هذا لميلفوس بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد لترميز وتصفية فعالة. لمزيد من التفاصيل، راجع مثال الاستخدام.
مثال على الإخراج
فيما يلي مثال على كيفية معالجة أداة الترميز standard
للنص.
النص الأصلي.
"The Milvus vector database is built for scale!"
الإخراج المتوقع.
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]