小文字
lowercase
フィルタは、トークナイザによって生成された用語を小文字に変換し、大文字と小文字を区別せずに検索できるようにします。例えば、["High", "Performance", "Vector", "Database"]
を["high", "performance", "vector", "database"]
に変換することができます。
設定
lowercase
フィルタはMilvusに組み込まれています。このフィルタを使うには、analyzer_params
のfilter
セクションで名前を指定するだけです。
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"],
}
lowercase
フィルタはトークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR
フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、lowercase
フィルタがテキストをどのように処理するかの例です。
元のテキスト
"The Lowercase Filter Ensures Uniformity In Text Processing."
期待される出力
["the", "lowercase", "filter", "ensures", "uniformity", "in", "text", "processing"]