الصينية
تم تصميم محلل chinese
خصيصًا للتعامل مع النص الصيني، مما يوفر تجزئة وترميزًا فعالين للنصوص الصينية.
التعريف
يتكون محلل chinese
من.
أداة الترميز: يستخدم أداة ترميز
jieba
لتجزئة النص الصيني إلى رموز بناءً على المفردات والسياق. لمزيد من المعلومات، راجع Jieba.عامل التصفية: يستخدم عامل التصفية
cnalphanumonly
لإزالة الرموز التي تحتوي على أي أحرف غير صينية. لمزيد من المعلومات، راجع Cnalphanumonly.
تكافئ وظيفة محلل chinese
تكوين المحلل المخصص التالي.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
التكوين
لتطبيق محلل chinese
على حقل ما، ما عليك سوى تعيين type
إلى chinese
في analyzer_params
.
analyzer_params = {
"type": "chinese",
}
لا يقبل محلل chinese
أي معلمات اختيارية.
مثال على الإخراج
إليك كيفية معالجة محلل chinese
للنص.
النص الأصلي.
"Milvus 是一个高性能、可扩展的向量数据库!"
الناتج المتوقع.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]