中文
chinese
分析器專為處理中文文字而設計,提供有效的分割和標記化。
定義
chinese
分析器包括
標記器:使用
jieba
tokenizer 根據詞彙和上下文將中文文字分割成 token。如需更多資訊,請參考Jieba。過濾器:使用
cnalphanumonly
過濾器移除包含任何非中文字元的字元。如需詳細資訊,請參閱Cnalphanumonly。
chinese
分析器的功能等同於下列自訂分析器配置。
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
配置
要將chinese
分析器套用到欄位,只要在analyzer_params
中將type
設為chinese
即可。
analyzer_params = {
"type": "chinese",
}
chinese
分析器不接受任何可選參數。
輸出範例
以下是chinese
分析器如何處理文字。
原始文字。
"Milvus 是一个高性能、可扩展的向量数据库!"
預期輸出。
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]