英数字のみ
alphanumonly
フィルタは非 ASCII 文字を含むトークンを除去し、英数字の用語だけを残します。このフィルタは、特殊文字や記号を除き、基本的な文字と数字だけが関連するテキストを処理するのに便利です。
設定
Milvusにはalphanumonly
というフィルタが組み込まれています。このフィルタを使用するには、analyzer_params
のfilter
セクションでその名前を指定するだけです。
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
alphanumonly
フィルタはトークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR
フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、alphanumonly
フィルタがテキストをどのように処理するかの例です。
元のテキスト
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
期待される出力
["Milvus", "2", "0", "Scale", "AI", "Vector"]