milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

ステマー

stemmer フィルタは、単語を基本形または語根形に変換し(ステミングと呼ばれる)、異なる屈折をまたいで類似した意味を持つ単語の照合を容易にします。stemmer フィルタは多言語をサポートし、さまざまな言語的コンテキストでの効果的な検索とインデックス作成を可能にします。

構成

stemmer フィルタは Milvus のカスタムフィルタです。このフィルタを使用するには、フィルタ設定で"type": "stemmer" を指定し、ステミングに使用する言語を選択するlanguage パラメータを指定します。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stemmer", # Specifies the filter type as stemmer
        "language": "english", # Sets the language for stemming to English
    }],
}

stemmer フィルタには、次の設定可能なパラメータがあります。

パラメータ

説明

language

ステミング処理の言語を指定します。サポートされる言語は次のとおりです:"arabic" "danish","dutch","english","finnish","french","german","greek","hungarian","italian","norwegian","portuguese","romanian","russian","spanish","swedish","tamil","turkish"

stemmer フィルタは、トークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。

analyzer_params を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、stemmer フィルタがテキストをどのように処理するかの例です。

元のテキスト

"running runs looked ran runner"

期待される出力(language: "english" を使用した場合)。

["run", "run", "look", "ran", "runner"]

翻訳DeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?