كنشارونلي
يزيل عامل التصفية cncharonly الرموز التي تحتوي على أي رموز غير صينية. يكون هذا الفلتر مفيدًا عندما تريد التركيز فقط على النص الصيني، مع تصفية أي رموز تحتوي على نصوص أو أرقام أو رموز أخرى.
التكوين
عامل التصفية cncharonly مدمج في ميلفوس. لاستخدامه، ما عليك سوى تحديد اسمه في القسم filter داخل analyzer_params.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
const analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
};
analyzerParams = map[string]any{"tokenizer": "standard", "filter": []any{"cncharonly"}}
# restful
analyzerParams='{
"tokenizer": "standard",
"filter": [
"cncharonly"
]
}'
يعمل عامل التصفية cncharonly على المصطلحات التي تم إنشاؤها بواسطة أداة الترميز، لذلك يجب استخدامه مع أداة ترميز. للحصول على قائمة بالرموز المتوفرة في ميلفوس، راجع أداة الترم يز القياسية وصفحاتها الشقيقة.
بعد تحديد analyzer_params ، يمكنك تطبيقها على حقل VARCHAR عند تحديد مخطط المجموعة. يسمح ذلك لـ Milvus بمعالجة النص في ذلك الحقل باستخدام المحلل المحدد من أجل ترميز وتصفية فعالة. للحصول على التفاصيل، راجع أمثلة الاستخدام.
أمثلة
قبل تطبيق تكوين المحلل على مخطط المجموعة الخاص بك، تحقق من سلوكه باستخدام الأسلوب run_analyzer.
تكوين المحلّل
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
// javascript
analyzerParams = map[string]any{"tokenizer": "standard", "filter": []any{"cncharonly"}}
# restful
التحقق باستخدام run_analyzerCompatible with Milvus 2.5.11+
# Sample text to analyze
sample_text = "Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
# Run the standard analyzer with the defined configuration
result = MilvusClient.run_analyzer(sample_text, analyzer_params)
print(result)
// java
// javascript
// go
# restful
المخرجات المتوقعة
['是', '下的一个开源项目', '以', '许可发布']