中国語
chinese
アナライザーは中国語テキストを処理するために特別に設計されており、効果的なセグメンテーションとトークン化を提供します。
定義
chinese
アナライザーは次のように構成されています。
トークン化:
jieba
トークナイザを使用して、語彙と文脈に基づいて中国語テキストをトークンにセグメンテーションする。詳細はJieba を参照。フィルタ:
cnalphanumonly
フィルタを使用して、中国語以外の文字を含むトークンを削除します。詳細については、Cnalphanumonlyを参照してください。
chinese
アナライザーの機能は、以下のカスタム アナライザー設定と同等です。
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
設定
chinese
解析器をフィールドに適用するには、analyzer_params
でtype
をchinese
に設定するだけでよい。
analyzer_params = {
"type": "chinese",
}
chinese
アナライザーは、オプションのパラメーターを受け付けない。
出力例
以下は、chinese
アナライザがテキストをどのように処理するかです。
元のテキスト。
"Milvus 是一个高性能、可扩展的向量数据库!"
期待される出力。
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]