Chinesisch
Der chinese
analyzer wurde speziell für die Bearbeitung von chinesischem Text entwickelt und bietet eine effektive Segmentierung und Tokenisierung.
Definition
Der chinese
Analyzer besteht aus.
Tokenisierer: Verwendet den
jieba
Tokenizer, um chinesischen Text auf der Grundlage von Vokabular und Kontext in Token zu segmentieren. Weitere Informationen finden Sie unter Jieba.Filter: Verwendet den
cnalphanumonly
Filter, um Token zu entfernen, die nicht-chinesische Zeichen enthalten. Weitere Informationen finden Sie unter Cnalphanumonly.
Die Funktionalität des chinese
Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
Konfiguration
Um den Analyzer chinese
auf ein Feld anzuwenden, setzen Sie einfach type
auf chinese
in analyzer_params
.
analyzer_params = {
"type": "chinese",
}
Der Analyzer chinese
akzeptiert keine optionalen Parameter.
Beispielhafte Ausgabe
So verarbeitet der chinese
analyzer Text.
Ursprünglicher Text.
"Milvus 是一个高性能、可扩展的向量数据库!"
Erwartete Ausgabe.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]