Cnalphanumonly
cnalphanumonly
フィルタは、漢字、英字、数字以外の文字を含むトークンを取り除きます。
設定
cnalphanumonly
フィルタはMilvusに組み込まれています。このフィルタを使用するには、analyzer_params
のfilter
セクションで名前を指定するだけです。
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
cnalphanumonly
フィルタはトークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR
フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、cnalphanumonly
フィルタがテキストをどのように処理するかの例です。
元のテキスト
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
期待される出力
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]