ステマー
stemmer
フィルタは、単語を基本形または語根形に変換し(ステミングと呼ばれる)、異なる屈折をまたいで類似した意味を持つ単語の照合を容易にします。stemmer
フィルタは多言語をサポートし、さまざまな言語的コンテキストでの効果的な検索とインデックス作成を可能にします。
構成
stemmer
フィルタは Milvus のカスタムフィルタです。このフィルタを使用するには、フィルタ設定で"type": "stemmer"
を指定し、ステミングに使用する言語を選択するlanguage
パラメータを指定します。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
stemmer
フィルタには、次の設定可能なパラメータがあります。
パラメータ | 説明 |
---|---|
| ステミング処理の言語を指定します。サポートされる言語は次のとおりです: |
stemmer
フィルタは、トークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR
フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、stemmer
フィルタがテキストをどのように処理するかの例です。
元のテキスト。
"running runs looked ran runner"
期待される出力(language: "english"
を使用した場合)。
["run", "run", "look", "ran", "runner"]